ZebroidФорумПубличный разделПредложенияАрхивМассовая проверка уникальности контента шинглами черезYandex

Массовая проверка уникальности контента шинглами черезYandex

03 февраля 2010, 05:09
Зарегистрирован: 11 июля 2009, 11:46
Давно хотел возможность проверки уникальности контента методом шинглов через yandex но так как в зеброиде не было ничего подобного и с нуля писать мне показалось очень много времени потребуется.

Но сейчас ситуация изменилась и в зеброиде появилась возможность проверять уникальность контента методом шинглов в пределе проекта но хочется проверку уникальности контента мо мнению яндкса.

Как я себе это представляю:

1 Пакетная проверка статей.

2 Проверка не только через yandex.ru но и через livejournal.com + возможно nigma.ru qip.ru (если они сейчас выдают точные результаты я точно не знаю нужно проверять) таким образом уменьшим количество прямых запросов к яндексу.

3 Добавить возможность делать мост для того чтобы запросы шли через свой хостинг тем самым IP в запросах участвовал серверный а не локальный + возможность добавлять несколько таких мостов тем самым уменьшая гнев яндекса на нас.

4 Возможность установки процентного соотношения через какой Ip и сервис (yandex.ru livejournal.com) проводить проверку так как у всех разная ситуация и яндекс может банить как сразу так и через очень много запросов.

5 Возможность установки задержки как после определённого количества запросов нужного нам количества времени так и для каждого сервиса и IP в отдельности через какой промежуток делать следующие обращение.

6 Фразы которые были найдены выделять желтой подсветкой (как это выглядит можно подглядеть тут http://advego.ru/plagiatus/ )

7 Выводить полный отчет по проверки, то есть название статьи и процент уникальности + столбец с чекбоксам для отметки статьи и возможность выбрать действие к примеру: удалить, перенести в определённую рубрику. (этот возможно можно реализовать гораздо проще чем я описал, самое главное что бы было удобно потом разгрести результаты)

8 Возможность указать при начале проверке а может и после что делать со статьями у которых процент схожести равен (указывается вручную)



03 февраля 2010, 08:50
Зарегистрирован: 10 апреля 2012, 00:00
Т.е. предложение сделать что-то типа copyscape только через Яндекс?



03 февраля 2010, 09:16
Зарегистрирован: 11 июля 2009, 11:46
Т.е. предложение сделать что-то типа copyscape только через Яндекс?


Ага что то типа copyscape, advego plagiatus, allSubmitter по яндексу,

У меня к примеру есть залежи контента его очень много, но очень много уже есть и в индексе яндекса.

А с помощью такой функции будет очень удобно проверять контент и сайты будут меньше страдать.

Думаю такая ситуация не только у меня одного.



14 февраля 2010, 11:41
Зарегистрирован: 11 июля 2009, 11:46
Вот тут пример скрипта для использования IP сервера http://forum.searchengines.ru/showpost. ... tcount=345



24 мая 2010, 10:04
Зарегистрирован: 10 апреля 2012, 00:00
Готово

Функция на стадии тестирования, слишком больших скоростей не ожидайте. Если будет пользоваться спросом - ускорим.

[attachment=0:3v3qhufk]screenshot.1.png[/attachment:3v3qhufk]



13 декабря 2011, 13:35
Зарегистрирован: 11 мая 2011, 14:03
Встал вопрос использования уникального контента, причем предварительно проверяя его, так как формируется СДЛ!

Хотелось бы уточнить, ведутся ли работы по улучшению данной функции в программе и увеличение скорости при использовании её?!

На текущий момент при проверке 2000 знаков ПС Яндекс время выполнения выливается более часа, что по моим меркам жуткое расточительство времени. Может есть альтернативы или еще что?

Заранее благодарен...



14 декабря 2011, 08:01
Зарегистрирован: 10 апреля 2012, 00:00
Согласен, скорость работы сейчас не фонтан. Недавно была предпринята попытка исправить ситуацию, но кардинальных изменений получить не удалось. Нужно придумать какой-то хитрый способ выбирать из текста фразы для проверки, которые имеют больше всего шансов найти, если статью или её часть кто-то использует у себя на сайте. Пока такого способа найти не удалось, а без него программа просто перебирает много вариантов, что и даёт такую маленькую скорость.

Об этой проблеме я не забываю, надеюсь после нового года что-нибудь толковое придумаю.



14 декабря 2011, 08:34
Зарегистрирован: 26 апреля 2010, 01:51
Согласен, скорость работы сейчас не фонтан. Недавно была предпринята попытка исправить ситуацию, но кардинальных изменений получить не удалось. Нужно придумать какой-то хитрый способ выбирать из текста фразы для проверки, которые имеют больше всего шансов найти, если статью или её часть кто-то использует у себя на сайте. Пока такого способа найти не удалось, а без него программа просто перебирает много вариантов, что и даёт такую маленькую скорость.

Об этой проблеме я не забываю, надеюсь после нового года что-нибудь толковое придумаю.


Можно просто уменьшить количество проверок на статью.

Вручную обычно берется 5-6 слов из статьи и тупо вбиваются в поисковики.

Если есть точное вхождение - неуник, если нет берется следующая статья.

То есть можно пожертвовать точностью ради скорости, иначе инструмент становится совсем бесполезным на больших объемах.



14 декабря 2011, 08:54
Зарегистрирован: 10 апреля 2012, 00:00
Вручную обычно берется 5-6 слов из статьи и тупо вбиваются в поисковики.

Если есть точное вхождение - неуник, если нет берется следующая статья.


Этот вариант подходит если:

1. Вы угадали фразу, которая есть в статье-клоне

2. Статья полностью скопирована без каких-либо изменений

В первом случае мозг человека позволяет подобрать более-менее оптимальную фразу для поиска, программа же может рандомно выбрать фразу, которая либо слишком часто встречается в текстах, либо такую, где изменив одно слово не теряется смысл.

Второй случай многим пользователям не подойдет. Я недавно вел переписку с одним из пользователей который жаловался, что программа не находит дубликаты в то время, как адвего находит (сейчас в программе идёт как раз упрощенный поиск дублей с целью минимизации запросов в ПС, в отличии от первых версий этого инструмента который делал огромное количество запросов, но точность пробива которого была на порядок выше).

Как вариант, можно закидывать целые предложения в поисковик, только не включать поиск по точному вхождению, тогда за часть незначительных изменений в тексте можно будет не переживать, ведь современные поисковые системы умеют грамотно находить не точные вхождения. Но я не знаю как на практике покажет себя такой механизм.



14 декабря 2011, 11:10
Зарегистрирован: 26 апреля 2010, 01:51
[quote="Oleg":3cspoc5i]Вручную обычно берется 5-6 слов из статьи и тупо вбиваются в поисковики.

Если есть точное вхождение - неуник, если нет берется следующая статья.


Этот вариант подходит если:

1. Вы угадали фразу, которая есть в статье-клоне

2. Статья полностью скопирована без каких-либо изменений

В первом случае мозг человека позволяет подобрать более-менее оптимальную фразу для поиска, программа же может рандомно выбрать фразу, которая либо слишком часто встречается в текстах, либо такую, где изменив одно слово не теряется смысл.

[/quote:3cspoc5i]

Можно сделать в программе выбор между таким вариантом и существующим.

Описанный мной метод прекрасно подходит для поиска полных дублей, это часто является основной задачей.

Можно брать первое предложение не особо заморачиваясь, его поисковики даже лучше находят чем из центра статьи.

Если поисковик находит точный дубль он его выделяет жирным, это можно использовать проверяя текст 1, 2, 3 позиции в выдаче на полное совпадение.

Главный плюс этого способа - скорость работы, а здесь она критична.

Мне кажется, лучше сделать неточный, но как-то работающий инструмент, чем точный, но пользоваться которым нереально из-за огромного времени работы.

Второй случай многим пользователям не подойдет. Я недавно вел переписку с одним из пользователей который жаловался, что программа не находит дубликаты в то время, как адвего находит


Для Advego это основная задача, а для Зеброида одна из вспомогательных, поэтому упрощенный вариант вполне нормальное решение.