ZebroidФорумПубличный разделПредложенияАрхивЧистка от плохого контента

Чистка от плохого контента

24 мая 2012, 00:31
Зарегистрирован: 12 ноября 2010, 13:31
При автоматическом парсинге по ключам часто попадает "кривой" контент

1)хотелось бы какой нибудь инструмент который легко позволял бы производить модерацию контента

например вызывается окно в котором показываются все статьи по кругу при нажатии кнопки "+" показывается следующая статья при нажатии кнопки "-" статья удаляется и показывается следующая...

2)так же было бы не плохо иметь инструмент позволяющий производить автоматическую чистку по признакам:

- в статье много слов начинается с заглавной буквы

- в статье много знаков препинания, спец символов

- в статье много цифр

если это будет реализовываться могу еще признаков насобирать это так что вспомнилось с первого раза...



23 июня 2012, 00:06
Зарегистрирован: 12 ноября 2010, 13:31
Немного не вяжется с предложением "удалять предложения менее N символов"


удаль от n до n символов...

по барабану из-за чего текст говняный: из-за наличия лишних предложений, или из-за отсутствия нужных.


несогласен. если из текста выдернуть пару предложений он будет нормально читаем, а если спарсилось вместе с текстом предложения из меню допустим то текст сразу бредовый будет...

я вот занимаю клепанием мфа на парсеном контенте, если модератор зайдет на сайт есть вероятность что за неуник получу бан(тфу тфу тфу более года все нормално)... а если это кривой контент то бан обеспечен...



23 июня 2012, 02:24
Зарегистрирован: 21 сентября 2010, 01:15
Согласен с admin, что не реально написать такой инструмент, который будет адекватно работать.

Сам давно занимаюсь парсингом и особо не сталкивался с проблемой "плохих текстов".

Всё зависит от донора и настройки границ парсига.

Тексты нужно чистить не готовыми инструментами, а регулярками, т.к. каждый случай индивидуален.

Учебник в зубы по регуляркам и вперёд



23 июня 2012, 04:43
Зарегистрирован: 12 ноября 2010, 13:31
Согласен с admin, что не реально написать такой инструмент, который будет адекватно работать.

Сам давно занимаюсь парсингом и особо не сталкивался с проблемой "плохих текстов".

Всё зависит от донора и настройки границ парсига.

Тексты нужно чистить не готовыми инструментами, а регулярками, т.к. каждый случай индивидуален.

Учебник в зубы по регуляркам и вперёд


при использовании парсенного на автомате контента


я ничего не говорю про контент который парсится по границам с заданных сайтов его регулярками обработать не проблема, согласен...

я имел ввиду контент напарсеный по ключам с различных сайтов которые заранее не известны и контент парсится по определенным признакам, при таком парсинге попадаются примерно в 10% случаях "плохии статьи" и "плохие предложения"...



23 июня 2012, 05:31
Зарегистрирован: 26 апреля 2010, 01:51
я имел ввиду контент напарсеный по ключам с различных сайтов которые заранее не известны и контент парсится по определенным признакам, при таком парсинге попадаются примерно в 10% случаях "плохии статьи" и "плохие предложения"...


Может проще тогда обнаруживать такие статьи и удалять их?



23 июня 2012, 05:37
Зарегистрирован: 12 ноября 2010, 13:31
[quote:2vnsqip6]я имел ввиду контент напарсеный по ключам с различных сайтов которые заранее не известны и контент парсится по определенным признакам, при таком парсинге попадаются примерно в 10% случаях "плохии статьи" и "плохие предложения"...


Может проще тогда обнаруживать такие статьи и удалять их?[/quote:2vnsqip6]

ну я так и делаю, в данный момент руками... и уходит на это дофига времени и "индуского" труда, по-моему при помощи предложения данного это можно автоматизировать и если вдруг вместе с плохими похерится хорошие мне его жалко не будет...



26 июня 2012, 15:29
Зарегистрирован: 21 сентября 2010, 01:15


я ничего не говорю про контент который парсится по границам с заданных сайтов его регулярками обработать не проблема, согласен...

я имел ввиду контент напарсеный по ключам с различных сайтов которые заранее не известны и контент парсится по определенным признакам, при таком парсинге попадаются примерно в 10% случаях "плохии статьи" и "плохие предложения"...


Не советую такой парсинг практиковать вообще (по чуть-чуть с большого количества сайтов), лучше выпарсивать один конкретный сайт, сейчас объясню почему:

Когда спарсиваешь контент с одного сайта, то рискуешь иметь проблемы только с одним админом конкретного сайта, а если стянул материалы с нескольких десятков сайтов, то вероятность того, что админ этого сайта не напишет тебе жалобу, а сразу настучит во все ПС - очень высока.

Я через этого проходил и не раз.



27 июня 2012, 01:42
Зарегистрирован: 12 ноября 2010, 13:31
[quote="Nezavisim":24s0q37r]

я ничего не говорю про контент который парсится по границам с заданных сайтов его регулярками обработать не проблема, согласен...

я имел ввиду контент напарсеный по ключам с различных сайтов которые заранее не известны и контент парсится по определенным признакам, при таком парсинге попадаются примерно в 10% случаях "плохии статьи" и "плохие предложения"...


Не советую такой парсинг практиковать вообще (по чуть-чуть с большого количества сайтов), лучше выпарсивать один конкретный сайт, сейчас объясню почему:

Когда спарсиваешь контент с одного сайта, то рискуешь иметь проблемы только с одним админом конкретного сайта, а если стянул материалы с нескольких десятков сайтов, то вероятность того, что админ этого сайта не напишет тебе жалобу, а сразу настучит во все ПС - очень высока.

Я через этого проходил и не раз.[/quote:24s0q37r]

у меня ситуации получаются с точность да наоборот =)

спарсю 3-4 сайта абузы начинают слать хз как в пс но пару раз с хостингов меня за абузы dmca вышвырнули... да и сайты такие нефига не лезут в топ...

с таким способом парсинга как я использую вроде все впорядке пока...



15 июля 2013, 17:39
Зарегистрирован: 10 апреля 2012, 00:00
Реализовал вторую часть предложения расширив возможности инструмента «Чистка статей». Первая часть требует создания нового инструмента с очень специфическим назначением. Все новые инструменты создаются только через основную ветку предложений по итогам голосования.