ZebroidФорумПубличный разделПредложенияАрхивУдаление статей содержащих много ошибок.

Удаление статей содержащих много ошибок.

08 декабря 2013, 13:55
Зарегистрирован: 11 ноября 2009, 16:31
Предлагаю реализовать функцию — Удаление статей содержащих много слов с ошибками — 20%, 30% и т.д. По аналогии с функциями удалять статьи содержащие много цифр, заглавных букв, спец символов.

Комментарий отредактирован 1 раз(а). Последний раз редактировал Ozz99 08 декабря 2013, 13:56.
08 декабря 2013, 19:55
Зарегистрирован: 10 апреля 2012, 00:00
Как должны определяться статьи с ошибками? На основании словарей орфографии? Тогда у вас будут удалены все статьи на неизвестном для словарей языке.

09 декабря 2013, 16:46
Зарегистрирован: 11 ноября 2009, 16:31
Так я не буду использовать эту функцию, когда буду работать со статьями на хинди. Но лично мне эта функция нужна, что бы когда напаршу 1000 статей и случайно зацеплю 5-10 английских или украинских, а они с точки зрения русского языка все с ошибками, одним движением удалить все такие статьи. Мне достаточно только словаря русского.

09 декабря 2013, 17:07
Зарегистрирован: 10 апреля 2012, 00:00
Ок, в принципе предложение дельное. Перенесу его в ветку «Средние». Если вы считаете, что через систему голосований предложение быстрее получится реализовать — дайте знать, перенесу его обратно в основную ветку.

08 марта 2014, 00:28
Зарегистрирован: 22 сентября 2012, 20:02
Я за. Тоже хочу чистить от инглиша статьи.

01 июля 2014, 04:10
Зарегистрирован: 30 мая 2014, 08:21
тоже поддерживаю, недавно спарсил 300+ статей пробил на уникальность + автоматом почистил от дублей
итог обнаружил случайно зашел в редактор и увидел что в каждом слове ошибка, при этом вариантов исправить ошибки не было
перекинул в ворд, и оказалось, что часть букв заменены
А (русская) на A (английскую)
К (русская) на K (английскую)
и т.д.
А с виду абсолютно нормально читаемый текст. Пришлось вручную пробегать по всем статьям с такой гилиматьей.