ZebroidФорумПубличный разделПредложенияАрхивФильтры для обработки контента

Фильтры для обработки контента

22 октября 2009, 10:56
Зарегистрирован: 11 июля 2009, 11:46
А можно ли сделать такой фильтр что бы вылавливать статьи на английском языке?

И по возможности указывать при каком проценте слов считать статью англоязычной.+

Я давно уже просил сделать фильтр по поиску статей в которых присутствуют теги,слова которые самому можно указывать и переносить такие статьи в другую папку либо сразу удалять. Вообще нужно отлавливать статьи в которых содержится http:// но бывает нужно просто почистить от статей в которых содержится определённое слово или фраза. И был бы идеальный вариант это возможность сохранять слова в фильтре для последующего их использования.

Если это не сложно реализуемо то сделайте пожалуйста в следующем обновлении такие фильтры мне кажется они очень облегчат очистку контента.



22 октября 2009, 16:52
Зарегистрирован: 10 апреля 2012, 00:00
Практически ничего не понял.

Какие фильтры, где, на каком этапе?



22 октября 2009, 17:05
Зарегистрирован: 11 июля 2009, 11:46
В разделе Чистка заголовков и статей.

добавить возможность поиска страниц которые написаны на английском ну в общем не на кириллице. и указывать процент присутствия латиници при котором считать статью не русскоязычной и переносить в определенную папку либо сразу удалять.

В том же меню сделать возможность искать html теги либо определенные слова/слово сочетания и потом эти записи либо переносить в определенную папку либо удалять.

То есть если я впишу теги к примеру <table> <body> или просто http://, п*рн* то производится поиск на наличие данных вхождений в статьях ну и дальнейшие действия с ними.

..........................................................

Ещё мысля пришла, а если сюда добавить словарь как в метках только с точным и добавлять туда те слова и теги которые нужно обработать, а потом выбираешь словарь и выполняешь поиск.

Для гибкой настройки добавить параметр к словам, количество упоминаний слова в статье для того чтобы оно обработалось при поиске, а если это поле оставить пустым то при первом вхождении над статьей выполняются действия.

Если что то не понятно расписал, то всегда готов в аське разъяснить как можно точней.



22 октября 2009, 17:32
Зарегистрирован: 11 июля 2009, 11:46
Ещёб такую возможность, поиск статей в которых слова повторяются очень часто,

к примеру если в статье слова bmw повторяются 100 раз то выцепить ее и дальше уже по усмотрению.

Или количество одного и того же слова на 1000 знаков повторяется (можно сделать возможным указывать на какое количество знаков, но думаю если взять 1000 знаков то будет вполне нормально ) больше чем и указывать количество.

В идеале конечно прикрутить словарь слов которые считать не нужно - это чтобы детальней настроить поиск и возможность указывать длину искомого слова.

В итоге вот что получаем:

1 Возможность указывать минимальную длину слов с которой начинается поиск

2 Возможность указывать количество слов которые искать (как в словаре меток) можно сделать 3 чекбокса 1,2,3 слов и если отмечено несколько то произвести поиск сначала по количеству выделенном в 1 чекбоксе потом во 2м чекбоксе - это чтобы как можно тчательней отфильтровать :D

3 Возможность выбора как искать в статье целиком или указать на какое количество символов считать частоту слов.

4 Словарь слов которые не надо обрабатывать (но для начала это не обязательно)

5 После применение фильтра либо удалить найденные статьи или переместить в указанную папку.

Думаю практически всё это уже реализовано в словаре меток и нужно только адаптировать для нужных действий и будет ещё один удобный инстрмент по очистки\фильтрации контента.



23 октября 2009, 09:08
Зарегистрирован: 10 апреля 2012, 00:00
Идея со стоп-словами хорошая.

По поводу поиска англоязычного текста, то мне очень смутно представляется практичная ценность такого функционала, разве что вы сами не знаете, какой контент может попасть в программу.

Ну а с повторяющимися словами, то для меня это вообще загадка :) Ну много их в статье, а что плохого то? Фильтры на все признаки ГСности всёравно не сделать (хотя попробовать можно)



23 октября 2009, 09:57
Зарегистрирован: 11 июля 2009, 11:46
Ещё мысля пришла, а если сюда добавить словарь как в метках только с точным и добавлять туда те слова и теги которые нужно обработать, а потом выбираешь словарь и выполняешь поиск.

Для гибкой настройки добавить параметр к словам, количество упоминаний слова в статье для того чтобы оно обработалось при поиске, а если это поле оставить пустым то при первом вхождении над статьей выполняются действия.


Тут ещё желательно добавить возможность по выбору игнорировать указания на количество вхождений. (забыл это сразу написать)

По поводу поиска англоязычного текста, то мне очень смутно представляется практичная ценность такого функционала, разве что вы сами не знаете, какой контент может попасть в программу.


Ага бывает такое :lol: и довольно часто. Просто если я делаю русскоязычный сайт и туда попадает статья на другом языке это не очень хорошо, а чтоб её выцепить из 2000 статей это проблемно + те статьи которые не на русском языке лучше в последствии использовать для других сайтов.

+ бывает что у некоторых статей кодировка глючит и импортируются кракозябры в этом случае они тоже выловятся и не придется просматривать полностью все страницы.

+ если делается англоязычный проект, то там ни как не нужны статьи на русском языке и этот фильтр как раз это решает.

Ну а с повторяющимися словами, то для меня это вообще загадка :) Ну много их в статье, а что плохого то? Фильтры на все признаки ГСности всёравно не сделать (хотя попробовать можно)


Это когда попадает контент с какого нибудь дора или ему подобным либо просто корявая статья в которой куча абзацев повторяется то их можно выцепить на автомате.

З.ы. Я ведь просто предлагаю иногда прошу но никогда не заставляю делать какой либо функционал в Зеброиде.

Просто пишу обычно тогда когда сталкиваюсь с проблемами при создании проекта и в голове появляется мысль как это сделать быстрей :)



23 октября 2009, 17:37
Зарегистрирован: 10 апреля 2012, 00:00
Это когда попадает контент с какого нибудь дора или ему подобным либо просто корявая статья в которой куча абзацев повторяется то их можно выцепить на автомате.


Боже, что ж у вас за парсер такой дикий, он что всю выдасу без разбора парсит? :))

З.ы. Я ведь просто предлагаю иногда прошу но никогда не заставляю делать какой либо функционал в Зеброиде.

Просто пишу обычно тогда когда сталкиваюсь с проблемами при создании проекта и в голове появляется мысль как это сделать быстрей


Я понимаю, да и мне не тяжело такое сделать, только выходит мне всё же приходится с желаний большенства, а в виду того, что активность на этом форуме проявляет всего несколько человек, приходится самому выпытывать детали, чтобы принять решения: предложения это для большенства или для 1-3 пользователей.

З.Ы. Если работы совсем на чу-чуть, делаю и индивидуальные функции (думаю вы заметили) :D



23 октября 2009, 23:32
Зарегистрирован: 11 июля 2009, 11:46
Боже, что ж у вас за парсер такой дикий, он что всю выдасу без разбора парсит? :))


Парсит не выдачу, контент не букваль с дора, а бывает пере оптимизированный сильно но он по моему мнению ни чем от доров не отличается.

З.Ы. Если работы совсем на чу-чуть, делаю и индивидуальные функции (думаю вы заметили) :D


Конечно заметил и БОЛЬШОЕ за это спасибо!

А активность и правда очень маленькая и хрен иногда поймешь, что интересно народу а что нет.

Просмотров у многих тем по 100 а то и больше но все молчат как рыбы :twisted:

Наверное пальчики берегут для других деяний :lol:



24 октября 2009, 08:31
Зарегистрирован: 10 апреля 2012, 00:00
У меня появилась одна идея, возможно получится прикрутить что-то типа голосовалки за предложения прямо из программы, и уже по результатам голосования выбирать что делать в следующем апдейте

Тут уже только те, кому всёравно не будут участвовать в жизни проекта



24 октября 2009, 12:45
Зарегистрирован: 23 октября 2009, 11:40
У меня появилась одна идея, возможно получится прикрутить что-то типа голосовалки за предложения прямо из программы, и уже по результатам голосования выбирать что делать в следующем апдейте


Кстати, невероятно крутая идея, не видел пока ни в одной программе такого, по-моему это было бы очень полезно!