ZebroidФорумПубличный разделПредложенияАрхивЧистка от плохого контента

Чистка от плохого контента

24 мая 2012, 00:31
Зарегистрирован: 12 ноября 2010, 13:31
При автоматическом парсинге по ключам часто попадает "кривой" контент

1)хотелось бы какой нибудь инструмент который легко позволял бы производить модерацию контента

например вызывается окно в котором показываются все статьи по кругу при нажатии кнопки "+" показывается следующая статья при нажатии кнопки "-" статья удаляется и показывается следующая...

2)так же было бы не плохо иметь инструмент позволяющий производить автоматическую чистку по признакам:

- в статье много слов начинается с заглавной буквы

- в статье много знаков препинания, спец символов

- в статье много цифр

если это будет реализовываться могу еще признаков насобирать это так что вспомнилось с первого раза...



24 мая 2012, 03:58
Зарегистрирован: 10 апреля 2012, 00:00
1. Стрелочка вправо и ctrl+del?

2. Много это сколько?



29 мая 2012, 01:35
Зарегистрирован: 12 ноября 2010, 13:31
1)вариант но неудобно все же 3 кнопки вместо одной нажимать… то ли 3тыщи раз кликнуть то ли 1тыщу…
2)много заглавных + много переносов строк

Спойлер


много знаков припинания ну если примерно то запятых и спец символов на 1к символов в среднем 5-8, точек ~10
если их в 2-3 раза больше явно что то не так…
по цифрам сложнее среднее задать, тут может 50 на 1к символов быть много и мало в зависимости от тематики…
можно дать выбор юзеру какие значения подставлять

Комментарий отредактирован 1 раз(а). Последний раз редактировал admin 25 июня 2013, 13:14.
30 мая 2012, 08:44
Зарегистрирован: 12 ноября 2010, 13:31
1. Стрелочка вправо и ctrl+del?
попробовал более подробно данный совет, не вариант, после ctrl+del опять сверху листать приходится, если поправить чтоб следующую запись открывала то нормально будет…
upd: статья много цифр

Спойлер



Комментарий отредактирован 1 раз(а). Последний раз редактировал admin 25 июня 2013, 13:14.
30 мая 2012, 09:30
Зарегистрирован: 10 апреля 2012, 00:00
В программировании нету такого понятия как много, мне нужны конкретные цифры. Или лучше дать возможность пользователю выбирать процентное соотношение?



30 мая 2012, 23:23
Зарегистрирован: 12 ноября 2010, 13:31
пусть пользователь сам решает сколько это много...

и еще список спец символов чтоб сам мог редактировать было бы неплохо...



21 июня 2012, 13:47
Зарегистрирован: 16 февраля 2012, 17:08
Присоединяюсь к автору. С такой же проблемой сталкиваюсь. Фильтровать можно по таким параметрам: удалять предложения менее N символов, удалять предложения в которым менее N предложений, удалять предложения которые начинаются с маленькой буквы, удалять предложения в которых нет русских/английских символов (бывает, что кракозябр на текст напарсишь), ну и удалять предложения с цифрами, тоже с настройками...



21 июня 2012, 14:38
Зарегистрирован: 10 апреля 2012, 00:00
Присоединяюсь к автору. С такой же проблемой сталкиваюсь. Фильтровать можно по таким параметрам: удалять предложения менее N символов, удалять предложения в которым менее N предложений, удалять предложения которые начинаются с маленькой буквы, удалять предложения в которых нет русских/английских символов (бывает, что кракозябр на текст напарсишь), ну и удалять предложения с цифрами, тоже с настройками...


В предложении речь идёт об удалении постов по определенному признаку, а не предложений. И, между прочим, ваше предложение очень скользкое, так как программа очень сложно отличить предложение от сокращений, которые внутри предложения. Вот пример:

После начала Великой Отечественной войны Ю. В. Кондратюк пошёл добровольцем в народное ополчение.


В этом варианте программа может принять инициалы за предложение, которое состоит из малого количества букв.

Он расположен по адресу: Советская ул., д. 24 рядом с площадью Кондратюка.


А в этом после сокращения ул. идёт другое сокращение, которое начинается с маленькой буквы.



22 июня 2012, 11:42
Зарегистрирован: 12 ноября 2010, 13:31
[quote="esidrex":oavcon4k]Присоединяюсь к автору. С такой же проблемой сталкиваюсь. Фильтровать можно по таким параметрам: удалять предложения менее N символов, удалять предложения в которым менее N предложений, удалять предложения которые начинаются с маленькой буквы, удалять предложения в которых нет русских/английских символов (бывает, что кракозябр на текст напарсишь), ну и удалять предложения с цифрами, тоже с настройками...


В предложении речь идёт об удалении постов по определенному признаку, а не предложений. И, между прочим, ваше предложение очень скользкое, так как программа очень сложно отличить предложение от сокращений, которые внутри предложения. Вот пример:

После начала Великой Отечественной войны Ю. В. Кондратюк пошёл добровольцем в народное ополчение.


В этом варианте программа может принять инициалы за предложение, которое состоит из малого количества букв.

Он расположен по адресу: Советская ул., д. 24 рядом с площадью Кондратюка.


А в этом после сокращения ул. идёт другое сокращение, которое начинается с маленькой буквы.[/quote:oavcon4k]

можно добавить исключение не обрабатывать предложения длинной до 5 символов...

а если в итоге и станет

После начала Великой Отечественной войны Ю. Кондратюк пошёл добровольцем в народное ополчение.


Он расположен по адресу: Советская 24 рядом с площадью Кондратюка.


но при этом похерит действительно кривые тексты то это будет большим плюсом чем минусом так контент тоже вполне читаем + чучуть уникализирован...

при использовании парсенного на автомате контента только плюсы а если используется другой контент смысла его обрабатывать подобным инструментом нету...



22 июня 2012, 15:33
Зарегистрирован: 10 апреля 2012, 00:00
можно добавить исключение не обрабатывать предложения длинной до 5 символов...


Немного не вяжется с предложением "удалять предложения менее N символов"

а если в итоге и станет

[quote:2hatjzdz]После начала Великой Отечественной войны Ю. Кондратюк пошёл добровольцем в народное ополчение.


Он расположен по адресу: Советская 24 рядом с площадью Кондратюка.


но при этом похерит действительно кривые тексты то это будет большим плюсом чем минусом так контент тоже вполне читаем + чучуть уникализирован...

при использовании парсенного на автомате контента только плюсы а если используется другой контент смысла его обрабатывать подобным инструментом нету...[/quote:2hatjzdz]

Я навел простой пример, первое что попалось под руку, это не значит, что всё таким будет. С таким подходом только откровенные ГСы делать, а в этом случае уже по барабану из-за чего текст говняный: из-за наличия лишних предложений, или из-за отсутствия нужных.