ZebroidФорумПубличный разделВопросыДубли статей.Как их избежать

Дубли статей.Как их избежать

10 октября 2013, 22:20
Зарегистрирован: 04 октября 2013, 15:34
1. Создал проект.
2. Спарсил статьи. Очистил их. Изменил заголовки и подзаголовки. Поменял форматирование.
Уникализировал либо средствами Зеброида, либо средствами WP-плагина на сайте.
2. Залил на сайт. В WP с отложенной публикацией
3. Потом захотел спарсить еще несколько статей и пополнить проект этими статьями.
4. При этом вполне возможно появление дублей статей.
Как мне предотвратить появление дублей статей?
Ведь в проекте и на сайте они могут быть уже изменены в результате синонимизации, изменением заголовков и т.д.

10 октября 2013, 22:31
Зарегистрирован: 10 апреля 2012, 00:00
Как мне предотвратить появление дублей статей?
Ведь в проекте и на сайте они могут быть уже изменены в результате синонимизации, изменением заголовков и т.д.
Можно хранить проект с исходными статьями для проверки их на дубликаты.

11 октября 2013, 08:20
Зарегистрирован: 04 октября 2013, 15:34
А можно сделать штатное средство в ПО для такой проверки.
Ну чтобы хранить не весь проект с исходными статьями (их же ведь может быть очень много),
а для проверки на уникальность хранить — хэши исходных статей?
Правда при этом сравнение хэшей должно будет идти не по точному их подобию, а по некоей функции, которая могла бы вычислить
степень близости статей.

PS
Это не пожелание и не ТЗ на новый функционал. Это «мысли вслух».
Ведь обычно храниться не самый первый проект, а его последняя версия.
И по ней уже никак не вычислить была ли уже эта статья в проекте или еще нет.

PS PS
Предложенный вами вариант тоже может быть использован. Особенно в свете удешевления цен на дисковое пространство
Но повторяюсь — статей в проекте может быть несколько тысяч, а это уже накладно. Накладно по времени.
Я думаю, что ПО будет тормозить процесс на этапе сравнения новых статей с архивом. А ведь архив со временем будет увеличиваться…

11 октября 2013, 11:05
Зарегистрирован: 10 апреля 2012, 00:00
Этого не будет. Во-первых это вряд ли кому-то кроме вас нужно, во-вторых в таком виде как вы это описали сделать не возможно, в третьих, если и сделать такую возможность, то она мало чем будет отличатся от проекта с исходными статьями как по смыслу, так и по занимаемому дисковому пространству.