ZebroidФорумПубличный разделПредложенияАрхивЧистка статей (дороботка)

Чистка статей (дороботка)

31 октября 2009, 12:13
Зарегистрирован: 11 августа 2009, 17:54
На данный момент зеброид считает два текста одинаковыми только если они совпадают слово в слово.

На практике в 100 раз чаще встречаються дубли содержащие до 50% отличий

Например копируем пост меняем в нём всего одно слово - копией это зеброид уже не считает

или разделяем один большой текст на 3 маленьких, каждый из которых является абсолютной копией части большого текста - зеброид также несчитает это дублями.

Проблемма в том что поисковики так несчитают :(

Необходимо ввести проверку на дубликат посредством шинглов, желательно с настройками длины шингла и максимально допустимого процента схожести. html код также недолжен при этом учитываться.



02 февраля 2010, 08:06
Зарегистрирован: 10 апреля 2012, 00:00
Да, это ошибка, так и задумывалось, чтобы оставлял первую статью, а все дубли удалялись

Исправлю к следующему апдейту



02 февраля 2010, 08:27
Зарегистрирован: 13 июля 2009, 16:31
Очень жду следующий апдейт. Именно этого не хватает сейчас! :)

А так пришлось притормозить работу над сайтами, вручную удалять слишком долго :)