подскажите как можно реализовать такую задачу:
Большое количество спарсенного контента, разбитого по файлам .txt,
Часто (около 10%) попадается «хлам» в виде — вместо контента(нормальная статья), парсер ошибочно спарсил меню сайта,
Меню это всегда большой список
<ul><li>… и т.д.,
Моя идея? — с помощью регулярки подсчитать количество тега
<li>в файле и если больше, допустим 20 = каким то образом перемещать в папку "! Чистка"/выделять/удалять и т.п., другими словами — замучался вручную чекать(визуально выискивать «хлам») списки по 1000 текстов))
Помогите, кто знает, как можно в рамках Зеброида элегантно решить такую задачу!
P.S. В регулярках не силен, третий день изучаю\ковыряю… пока безрезультатно.
вот тут ковыряю regex101.com/r/ypt8yi/1
Комментарий отредактирован 7 раз(а).
Последний раз редактировал
AlexKoho
16 июня 2017, 02:16.