ZebroidФорумПубличный разделПредложенияЧуланУскорить проверку уникальности контента

Ускорить проверку уникальности контента

07 июня 2010, 09:20
Зарегистрирован: 04 июня 2010, 15:52
Нужно как то ускорить этот модуль.

Большое количество контента проверять просто не реально.

Предлагаю сделать возможность быстрой проверки на уникальность. Например указать сколько предложений проверить в каждой статье. И программа выберет из каждой статьи по 3 предложений и проверит. Что даст возможность исключить заведомо не уникальный текст. А потом если есть желание проверить весь текст.

Думаю данный метод быстрой проверки конечно не дает гарантии что статья уникальная . Но все же не нужно будет на каждую статью давать по 1000 запросов в яндекс когда можно будет обойтись всего тремя запросами.

Ну как то так. Конечно лучше реализовать многопоточную проверку. Но думаю такое реализовать будет сложнее.



08 июня 2010, 03:50
Зарегистрирован: 10 апреля 2012, 00:00
Конечно лучше реализовать многопоточную проверку. Но думаю такое реализовать будет сложнее.


Она и так многопоточна, только отдельные потоки создаются для каждого поисковика. Если делать полноценную многопоточность, тогда параметр таймаут не будет давать никакой пользы и шанс получить бан по айпи резко увеличивается.



11 августа 2012, 10:22
Зарегистрирован: 10 апреля 2012, 00:00
Проверка уникальности по Яндексу заменена на проверку уникальности с помощью Advego Plagiatus. Там я особо в процесс вмешиваться не могу, но пути достижения быстрой проверки есть: хорошие прокси (в большом количестве) и запуск большого количества экземпляров Plagiatus.

Тему переношу на Чердак.