Легкий способ по добыче контента

Здравствуйте! Нередко для пользователей Зеброида стоит вопрос о больших объемах контента. Предлагаю один из способов решения.
Мы будем вытаскивать полные статьи из rss-фида с помощью данного продукта.
Для этого вводим в строке поиска Google запрос типа: «Full-Text RSS 3.6: Compatibility Test».

Пробегаемся по выдаче. Важно, чтобы требуемые разработчиком технические характеристики совпадали с возможностями серверов, на которых установлен данный скрипт. К примеру, на этом сайте все требования соблюдены.
Переходим на главную страницу скрипта и настраиваем его:

  • Напротив «Max items» вводим 30 (используем предоставленный нам лимит). Скрипт будет выдергивать 30 полных статей.
  • Напротив «Links» выбираем «remove». Скрипт будет удалять ссылки из статей.
  • Напротив «If extraction fails» выбираем «remove item from feed». Скрипт будет пропускать статьи, где не удалось выдернуть контент полностью.
С поиском RSS-фида заморачиваться также не будем и воспользуемся сервисом google Alerts.

Ну тут, я думаю, пояснять не нужно. Наверное уже все сталкивались с этим сервисом.
После создания RSS-фида копируем ссылку на него. И скармливаем эту ссылку нашему скрипту. Вот что в итоге получается:

Из адресной строки копируем ссылку. Мы ее будем в дальнейшем использовать в зеброиде. Открываем Зеброид. Выбираем «Проект — Импорт — RSS Импорт».

Вводим наш URL-ленты и запускаем процесс.
Затем нам надо сделать небольшие правки. Для этого выбираем «Обработка текстов — Замена». И создаем 3 правила:

Применяем эти три правила.
Теперь нам нужно удалить ненужные тэги. Выбираем «Плагины — Работа с текстом — HTML Cleaner».

Указываем тэги, которые мы хотим оставить и запускаем процесс.
Также неплохо было бы немного уникализировать добытый контент. Для этого выбираем «Обработка текстов — Синонимайзер».

Указываем процент и запускаем процесс.
Ну вот вроде бы и все!

Ну а дальше используйте этот контент по своему усмотрению. Надеюсь, что кому-то помог. Спасибо за внимание!

rapcorerapcore21 ноября 2016, 23:12


Метки:

Обновление: версия 4.3.6 (Joomla 3)

Как и обещал — сегодня выпустил промежуточное обновления. Основные изменения произошли «под капотом». Переработано было не мало: оптимизировал некоторые процессы обработки текстов, реструктуризованы основные классы программы (теперь мне проще будет их расширять и улучшать), разработан новый алгоритм экспорта XML проектов, который не добавляет избыточную информацию при разбивке файлов и т.д.

Что касается нового алгоритма экспорта — то он сразу же применен для добавленной в этом обновлении Joomla 3. Суть его состоит в том, что программа экспортирует ровно то количество информации, которое необходимо для модуля импорта (раньше программа при разбивке файлов в каждый кусок добавляла информацию обо всех категориях и авторах в проекте, так как не знала какая именно информация нужна именно для этого куска). Причем сделано это таким образом, чтобы не влиять на скорость самой генерации файлов. В результате имеем быстрый экспорт, меньший размер файлов, более быстрый импорт этих файлов (за счет необходимости парсить лишнюю информацию и делать дополнительные запросы в БД). В будущем старые CMS так же получать поддержку этого алгоритма.

adminadmin9 июня 2013, 17:46


Метки:

Изменения на сайте

Как вы уже возможно заметили — сайт изменил свой облик. Причем изменился не только внешний вид, но и все внутренности. Движек сайта был заменен на LiveStreet с интегрированным модулем форума, так что теперь zebroid.com.ua — единое целое.

В связи со сменой движка и метода хеширования паролей к аккаунтам всем пользователям необходимо воспользоваться формой восстановления пароля, чтобы получить доступ к сайту. Если у вас возникнут какие-то проблемы — пишите письмо через обратную связь либо мне на почту.

adminadmin1 июня 2013, 20:40


Метки:

Переезд на новый домен

В связи с тем, что в скором времени доступ к домену zebroid.ru будет потерян было принято решение переехать на zebroid.com.ua.

К сожалению, у меня нет возможности ни сохранить домен zebroid.ru, ни запретить его дальнейшую перепродажу. Так что в будущем просьба быть очень внимательными, единственный сайт на котором будет происходить продажа и поддержка программы Zebroid — zebroid.com.ua.

P.S. Доступ к почтовому ящику support@zebroid.ru так же будет потерян. Тех. поддержка будет осуществляться используя адрес support@zebroid.com.ua

adminadmin1 августа 2023, 19:37


Метки:

Обновление 6.2.3

Добавлено:

  • Новый переводчик текстов LibreTranslate (open source проект, который можно установить локально)
  • XML-RPC: статистика под списком профилей
  • XML-RPC: возможность отметить записи по маске домена или по дате последнего использования
  • Метки: возможность удалить метки у которых мало постов

Улучшено:

  • Переводчик текстов: при неудачной попытке текст отправляется в конец очереди на перевод. Это должно уменьшить шанс обнаружения автоматизации
  • Deepl: программа каждый раз перед переводом перемешивает список фраз, чтобы не было одинаковых запросов с разных прокси (в случае неудачного перевода)
  • Массовая обработка картинок: ускорено прерывание при поиске битых картинок
  • Массовая обработка картинок: оптимизировано потребление оперативной памяти при поиске битых картинок
  • Автометки: не во всех режимах была возможность прервать процесс
  • PHP плагины: значительно ускорена работа плагинов (примерно на 30%) и увеличена отзывчивость программы во время их работы
  • Ускорен процесс выгрузки списка меток проекта
  • Мелкие улучшения

Исправлено:

  • Исправлена нестабильность в работе Chromium
  • Мелкие баги

adminadmin3 октября 2021, 13:40


Метки: