→ Форум → Публичный раздел → Предложения → Архив → Быстрый поиск полных дублей статей

Быстрый поиск полных дублей статей

02 марта 2011, 15:22

Oleg Зарегистрирован: 26 апреля 2010, 01:51

Быстрый поиск полных дублей статей

При количестве статей в 10 тысяч поиск дублей подвисает в районе первых 10%. Ждал больше часа.

В случае, когда есть разные статьи с одинаковым названием, но при этом есть и полные дубли было бы неплохо использовать поиск полных дублей.

То есть аналог оператора distinct в SQL.

24 июня 2011, 16:58

admin Зарегистрирован: 10 апреля 2012, 00:00

Сделал немного хитрее: поиск сначала проходится по названиям, и если они похожи более чем на 70%, тогда уже сверяет тексты и отсеивает дубликаты. Сделал так потому, что могут быть не идентичные названия, но очень похожие, к примеру: "Статья 1" и "Статья 2" (а Бог его знает откуда там этот цифровой индекс появился)

24 июня 2011, 17:41
Oleg Зарегистрирован: 26 апреля 2010, 01:51	Только просьба оставить возможность поиска дублей только по названиям. Он гораздо быстрее работает чем по статьям на больших проектах.

25 июня 2011, 05:05

admin Зарегистрирован: 10 апреля 2012, 00:00

Только просьба оставить возможность поиска дублей только по названиям.

Он гораздо быстрее работает чем по статьям на больших проектах.

А какой смысл, если эффективность такого поиска равна нулю? Совпадение названия не гарантирует совпадение текста, потому и помимо названия будет проверятся и текст. Если в проекте не 90% статей имеют одинаковое название, то это однозначно будет быстрее.

25 июня 2011, 12:26
Oleg Зарегистрирован: 26 апреля 2010, 01:51	Совпадение названия не гарантирует совпадение текста Иногда гарантирует, когда известно как в базу попал определенный контент.

27 июня 2011, 16:32
admin Зарегистрирован: 10 апреля 2012, 00:00	Значит программа распознает текст как дубль, боятся не чего. Вы сначала протестируйте, если уже всё будет так печально - сделаю оба варианта.

Логин
Пароль
	Забыли пароль?

Вход /

Регистрация

Быстрый поиск полных дублей статей