Поиск дублей в постах

02 июня 2022, 17:42
Зарегистрирован: 12 ноября 2015, 03:34
В посте есть дубликаты предложений/абзацев. Можно ли как-то автоматически найти эти дубли и удалить?


03 июня 2022, 13:43
Зарегистрирован: 10 апреля 2012, 00:00
Такого функционала в программе нет.

03 июня 2022, 14:35
Зарегистрирован: 12 ноября 2015, 03:34
И не предвидится в будущем?

06 июня 2022, 11:25
Зарегистрирован: 21 сентября 2011, 13:43
Нет. В первую очередь из-за того, что это не очень популярная проблема. Обычно у людей в проектах попадаются похожие посты, но не их части.

26 августа 2022, 22:39
Зарегистрирован: 24 августа 2022, 16:46
Плюсую, мне бы такой функционал не помешал.

27 августа 2022, 15:48
Зарегистрирован: 10 апреля 2012, 00:00
Ладно, перенесу в предложения, возможно что-то придумаю

03 июня 2023, 15:53
Зарегистрирован: 12 июня 2014, 15:21
Да и я бы хотел такую возможность

06 июня 2023, 20:38
Зарегистрирован: 10 апреля 2012, 00:00
К сожалению у меня нет идей как это сделать без разработки интерфейса сравнивания кусков текста. А это очень объемная задача.

Просто найти тексты у которых есть похожие куски не проблема, даже сейчас можно выставить низкий процент совпадений (скажем 10-20%) и программа найдет такие посты, но нужно еще как-то показать пользователю какие именно куски текста совпали.

11 июня 2023, 10:10
Зарегистрирован: 12 ноября 2015, 03:34
А зачем показывать, какие совпали куски? Тут (как по мне) важно, чтобы статья на выходе не состояла из одинаковых абзацев и предложений, а что там по итогу прога удалит мне все равно.

15 июня 2023, 08:41
Зарегистрирован: 21 сентября 2011, 13:43

mobilg в своем сообщении писал(а):А зачем показывать, какие совпали куски? Тут (как по мне) важно, чтобы статья на выходе не состояла из одинаковых абзацев и предложений, а что там по итогу прога удалит мне все равно.


Я тогда не совсем понимаю, что программа должна делать: удалять посты, в которых есть дубликаты предложений/абзацев или удалять сами предложения/абзацы, что дублируются?