ZebroidФорумПубличный разделПредложенияАрхивЧистка статей (дороботка)

Чистка статей (дороботка)

31 октября 2009, 12:13
Зарегистрирован: 11 августа 2009, 17:54
На данный момент зеброид считает два текста одинаковыми только если они совпадают слово в слово.

На практике в 100 раз чаще встречаються дубли содержащие до 50% отличий

Например копируем пост меняем в нём всего одно слово - копией это зеброид уже не считает

или разделяем один большой текст на 3 маленьких, каждый из которых является абсолютной копией части большого текста - зеброид также несчитает это дублями.

Проблемма в том что поисковики так несчитают :(

Необходимо ввести проверку на дубликат посредством шинглов, желательно с настройками длины шингла и максимально допустимого процента схожести. html код также недолжен при этом учитываться.



31 октября 2009, 12:27
Зарегистрирован: 10 апреля 2012, 00:00
На данный момент зеброид считает два текста одинаковыми только если они совпадают слово в слово.

На практике в 100 раз чаще встречаються дубли содержащие до 50% отличий

Например копируем пост меняем в нём всего одно слово - копией это зеброид уже не считает

или разделяем один большой текст на 3 маленьких, каждый из которых является абсолютной копией части большого текста - зеброид также несчитает это дублями.

Проблемма в том что поисковики так несчитают :(

Необходимо ввести проверку на дубликат посредством шинглов, желательно с настройками длины шингла и максимально допустимого процента схожести. html код также недолжен при этом учитываться.


html не учитывать не проблема, но вот какая скорость проверки шинглами будет? Сейчас она далеко не идеал. А вся проблема в том, что в любом случае прийдётся проверять каждую статью с каждой, и когда их много, то и скорость соответственная :(

А сейчас это скорее страховка от случайной заливки одного и того же файла в проект.



31 октября 2009, 15:32
Зарегистрирован: 11 августа 2009, 17:54
Лучше пусть будет долго и эффективно чем быстро и бесполезно ...

Ничто невернёт время и труд затраченный на сайт забаненый поисковиками.

В конце концов можно оставить нынешнюю реализацию и добавить шинглы как опцию каждый сам решит что для него важнее в данном конкретном случае.

Простая бесплатная програмка для вычистки дублей в txt _ttp://www.prgz.ru/dwnld/duploff_075.rar

незнаю что в ней за алгоритм но работает довольнатаки шустро.



01 ноября 2009, 03:49
Зарегистрирован: 23 октября 2009, 11:40
Думаю, проверка шинглами будет ооооочень медленная....



01 ноября 2009, 10:59
Зарегистрирован: 11 июля 2009, 11:46
Лучше пусть будет долго и эффективно чем быстро и бесполезно ...

Ничто невернёт время и труд затраченный на сайт забаненый поисковиками.

В конце концов можно оставить нынешнюю реализацию и добавить шинглы как опцию каждый сам решит что для него важнее в данном конкретном случае.

Простая бесплатная програмка для вычистки дублей в txt _ttp://www.prgz.ru/dwnld/duploff_075.rar

незнаю что в ней за алгоритм но работает довольнатаки шустро.


Програмку скачал попробовал но она постоянно вылетает и как она работает не удалось увидеть.

Я полностью за шинглы ибо это гораздо эффективней нежели простое сравнение статей.

Скорость и сейчас очень маленькая чтобы проверить 20000 статей ~19мл символов ушло оочень много времени около 8-10 часов точно уже не помню.

Но лучше потратить это время на качественный поиск дублей а не просто электричество жечь.



31 января 2010, 04:42
Зарегистрирован: 10 апреля 2012, 00:00
Готово. Что самое характерное удалось не только улучшить качество проверки, но и увеличить скорость работы программы в 3 раза.



31 января 2010, 08:21
Зарегистрирован: 11 июля 2009, 11:46
Готово. Что самое характерное удалось не только улучшить качество проверки, но и увеличить скорость работы программы в 3 раза.


Ну наконец!

Я это с сентября если не с августа ждал :(

Спасибо большое!



31 января 2010, 16:21
Зарегистрирован: 11 августа 2009, 17:54
01 ноя 2009, 19:59

admin - "готово" :shock: :shock: :shock: :shock:

Чесное слово узнал толькочто и то только потому что этот пункт в голосовании пропал ...

Всё сидел блин ждал ... столько моих ГС полегло :(

Отсюда предложение добавить во встроенную голосовалку некую пометку чтобы было видно что сделано оно ... и закрывать гоосование

я по сей день за это голосовал ...



01 февраля 2010, 04:53
Зарегистрирован: 10 апреля 2012, 00:00
o_nix, сделал только вчера и перенёс тему в архив, потому и пропало из голосования. Будет в сегодняшнем обновлении



01 февраля 2010, 19:04
Зарегистрирован: 13 июля 2009, 16:31
Работает отлично.

НО!

Как сделать так, чтобы удалялся только последний дубль?

Сейчас идет удаление всего, т.е. если найдено 2 одинаковых статьи, то они удаляются. А по идее должна остаться одна из них, а остальное удалено.

Можно также вместо удаления или перемещения помечать дубль цветом.

Какой дубль удалять? Я думаю, что последний по айди. Ведь в зеброиде каждой статье прирасваивается какой-то определенный айди.

Для примера я взял сайт на котором точно есть дубли.

Было страниц 738.

После стало 152. Т.е. вместе с дублями были удалены 586 страниц. Если считать, что у каждой страницы было только по 1 дублю и удалить только 1 дубль, то могло бы остаться 293 страницы. И было бы не 152 страницы на сайте, а 445. :)