ZebroidФорумПубличный разделПредложенияАрхивБыстрый поиск полных дублей статей

Быстрый поиск полных дублей статей

02 марта 2011, 15:22
Зарегистрирован: 26 апреля 2010, 01:51
Быстрый поиск полных дублей статей

При количестве статей в 10 тысяч поиск дублей подвисает в районе первых 10%. Ждал больше часа.

В случае, когда есть разные статьи с одинаковым названием, но при этом есть и полные дубли было бы неплохо использовать поиск полных дублей.

То есть аналог оператора distinct в SQL.



24 июня 2011, 16:58
Зарегистрирован: 10 апреля 2012, 00:00
Сделал немного хитрее: поиск сначала проходится по названиям, и если они похожи более чем на 70%, тогда уже сверяет тексты и отсеивает дубликаты. Сделал так потому, что могут быть не идентичные названия, но очень похожие, к примеру: "Статья 1" и "Статья 2" (а Бог его знает откуда там этот цифровой индекс появился)



24 июня 2011, 17:41
Зарегистрирован: 26 апреля 2010, 01:51
Только просьба оставить возможность поиска дублей только по названиям.

Он гораздо быстрее работает чем по статьям на больших проектах.



25 июня 2011, 05:05
Зарегистрирован: 10 апреля 2012, 00:00
Только просьба оставить возможность поиска дублей только по названиям.

Он гораздо быстрее работает чем по статьям на больших проектах.


А какой смысл, если эффективность такого поиска равна нулю? Совпадение названия не гарантирует совпадение текста, потому и помимо названия будет проверятся и текст. Если в проекте не 90% статей имеют одинаковое название, то это однозначно будет быстрее.



25 июня 2011, 12:26
Зарегистрирован: 26 апреля 2010, 01:51
Совпадение названия не гарантирует совпадение текста


Иногда гарантирует, когда известно как в базу попал определенный контент.



27 июня 2011, 16:32
Зарегистрирован: 10 апреля 2012, 00:00
Значит программа распознает текст как дубль, боятся не чего. Вы сначала протестируйте, если уже всё будет так печально - сделаю оба варианта.