ZebroidДокументацияИмпортRSS Граббер

RSS Граббер

В программе: Проект → Импорт → RSS Импорт
Инструмент импорта RSS даёт возможность получать контент для программы с помощью подключения к ней RSS лент. Так же этот инструмент умеет заходить по ссылке в ленте на страницу статьи и импортировать спарсить полный текст.

Окно программы: RSS импорт

Окно программы: RSS импорт


Прежде всего необходимо создать профили для граббинга. Для этого с помощью контекстного меню по списку профилей создается новая запись, в которой указываются:

  1. Название профиля
  2. Адрес ленты которую необходимо парсить
  3. Если после граббинга необходимо закачивать рисунки локально, то отмечается опция «Загружать картинки в проект»
  4. Если хотим, чтобы все посты попадали в какую-то конкретную категорию, а не в ту, которая указана в ленте — выбираем со списка «Категорию для постов» (либо вписываем название категории и программа создаст её сама)
  5. Если не хотим, чтобы ранее скачанные записи попадали в проект — отмечаем галочкой «Добавлять только новые записи». Если опция не активна, то в проект попадают все записи, которых в данный момент в нём нету
  6. Если необходимо получать полную новость, то отмечается соответствующая галочка на второй вкладке окна и настраиваем границы парсинга
  7. Если хотим, чтобы вконец новости добавлялась ссылка на источник — активируем опцию «Добавлять ссылку на источник» на второй вкладке окна
  8. Сохранить профиль

После создания и настройки всех профилей просто отмечаем интересующие галочками и нажимаем кнопку «Запустить». Программа сама скачает нужные ленты, распарсит их и закинет в проект.

Так же в программе есть возможность закрепить за каждым проектом набор RSS лент для будущей загрузки их через "Обработку нескольких проектов". Для этого в контекстном меню для профиля импорта выберите "Добавить привязку к проекту". Закрепленные за проектом ленты отмечены зеленым значком в списке профилей.




Настройка получения полной новости


Эта часть состоит всего из 2 полей и одной опции. Первое поле — признаки начала текста который необходимо вытянуть с HTML версии страницы полной новости. Второе — соответственно признак конца. В этих двух полях можно использовать спец символ "*" (звездочка), который обозначает любой текст. Например: в сайтах на движке DLE, полные новости обычно находятся между тегов:

<div id="news-id-111" style="display:inline;">
и
</div><br /><br /></td>

Их и нужно указать в этих полях. Но в начальном признаке эта часть news-id-111 отличается конечными цифрами в каждой статье, потому запись необходимо переписать на такую:

<div id="news-id-*" style="display:inline;">

Как видно я цифры просто заменил на звездочку, которая обозначает любую последовательность знаков.
Так же есть возможность использовать регулярные выражения в полях для поиска начала и конца статьи. Для этого всего-лишь необходимо активировать соответствующую опцию. Стоит заметить, что при использовании регулярных выражений нельзя пользоваться захватываемыми группами. Если вам нужны группы для подстановки разных значений — используйте не захватываемые.

Подробный пример настройки граббера со скриншотами и описанием можно увидеть на этой странице форума программы.

Так же на второй вкладке есть не рассмотренные опции:

  1. Тег текста новости в RSS ленте — это тег, в котором находится текст новости. Некоторые CMS хранят полный текст новости в другом теге и в этих случаях программе необходимо на него указать
  2. Своя регулярка для получения ссылки на полную новость — позволяет задать своё правило нахождения ссылки на полную новость в ленте (на некоторых сайтах она почему-то размещена не в стандартном для этого параметра теге)




Импорт контента neotext.ru