ZebroidФорумПубличный разделПредложенияАрхивПоиск дубликатов названий в постах

Поиск дубликатов названий в постах

28 августа 2009, 11:49
Зарегистрирован: 11 июля 2009, 11:46
Столкнулся с проблемой, сделал импорт текстовых файлов и выбрал формировать заголовок по первой строке файла и всё программа сделала замечательно за исключением того что у меня появилось очень много дубликатов названий, так как контент одной тематики.

Предлагаю научить программу искать одинаковые названия постов:

1 Чтоб можно было выбрать учитывать символы например точки запятые ну и т.д. или не учитывать.

2 Пометить дубликаты допустим красным цветом в дереве проекта или сразу удалить. (выбор этих параметров можно думаю надо задавать на первом этапе)

Вот как то так мне это видится.



28 августа 2009, 11:52
Зарегистрирован: 11 июля 2009, 11:46
Да и желательно после того как был удален дубль или исправлено название поста желательно убирать красное выделение.



28 августа 2009, 12:17
Зарегистрирован: 11 июля 2009, 11:46
Часто сталкиваюсь с тем что нужно почистить загруженный контент, то есть загружаю к примеру 1000 статей а среди них есть те в которых очень мало символов и по этому их нужно удалить или символов в них много но половина этот теги - ссылки или картинки с очень большими урлами и в итоге из 1000 символов текста там только 300.

Хотел бы видеть в зеброиде возможность удалять такой контент на автомате.

Возможность выбрать до какого количества символов нужно удалить статью.

Возможность выбрать считать или нет символы которые в тегах и урлах ну то есть всё что не на прямую скорей всего не относится к основному тексту.



28 августа 2009, 15:53
Зарегистрирован: 10 апреля 2012, 00:00
Столкнулся с проблемой, сделал импорт текстовых файлов и выбрал формировать заголовок по первой строке файла и всё программа сделала замечательно за исключением того что у меня появилось очень много дубликатов названий, так как контент одной тематики.

Предлагаю научить программу искать одинаковые названия постов:

1 Чтоб можно было выбрать учитывать символы например точки запятые ну и т.д. или не учитывать.

2 Пометить дубликаты допустим красным цветом в дереве проекта или сразу удалить. (выбор этих параметров можно думаю надо задавать на первом этапе)

Вот как то так мне это видится.


1. Чистка титлов это отдельная тема, как раз хотел создать

2. Красный цвет уже используется :)

Предлагаю сделать по другому:

Создать опцию "Чистка титлов и постов". ЧТо она будет делать/уметь?

1. Чистить титлы от лишних символов

2. Делать первую букву названия постов заглавной

3. Удалять лишние пробелы сначала и в конце титла

4. Обрезать титлы

---

5. Искать дубликаты постов

6. Искать посты по заданым параметрам (слишком короткий, слишком длинный, мало текста вне тегах и т.д.)

7. Автоматически удалять посты/переносить в отдельную категорию или доверить всё пользователю

Это пока всё, на что хватило фантазии :)

Слушаю ваши предложения/замечания



29 августа 2009, 04:36
Зарегистрирован: 11 августа 2009, 21:49
Можно так же добавить, когда обрезаешь названия чтобы они не обрывались на союзах и словах короче 4-5 символов, если должно оборваться на таком слове то автоматом идет до тех пор пока не найдет большее слово. А то получается что частенько обрыв идет на "над", "в", "по" ну и т.д.



29 августа 2009, 05:20
Зарегистрирован: 10 апреля 2012, 00:00
Можно так же добавить, когда обрезаешь названия чтобы они не обрывались на союзах и словах короче 4-5 символов, если должно оборваться на таком слове то автоматом идет до тех пор пока не найдет большее слово. А то получается что частенько обрыв идет на "над", "в", "по" ну и т.д.


Это как бы не к этой теме. Тут уже идёт обсуждение постобработки.

А вообще обрезка - это инструмент автоматизации создания ГС. А какая разница как название статьи в ГСе заканчивается?



29 августа 2009, 09:12
Зарегистрирован: 11 июля 2009, 11:46
Раз уж будет поиск дубликатов постов, то можно сделать так чтобы если название у постов одинаковое,

а сами посты разные, то возможность выбрать такое действие:

Сделать повторную выборку названия из поста и программа производит все действия по тем критериям какие будут указаны. Ну как сейчас это происходит при импорте.



30 августа 2009, 07:24
Зарегистрирован: 11 августа 2009, 21:49
Это как бы не к этой теме. Тут уже идёт обсуждение постобработки.


Недоглядел...

А вообще обрезка - это инструмент автоматизации создания ГС. А какая разница как название статьи в ГСе заканчивается?


Ну не скажи... даже ГС нужно делать максимально качественно чтобы продлевать жизнь. Тогда можно было не делать и умное обрезание тегов <more> и разделением на различные посты...

Но это в принципе не панацея, если реализуется в будущем гуд, нет, значит другие инструменты использовать будем...

Сорри за оффтоп

Раз уж будет поиск дубликатов постов, то можно сделать так чтобы если название у постов одинаковое,

а сами посты разные, то возможность выбрать такое действие:

Сделать повторную выборку названия из поста и программа производит все действия по тем критериям какие будут указаны. Ну как сейчас это происходит при импорте.


Хорошая идея!



18 сентября 2009, 09:37
Зарегистрирован: 11 июля 2009, 11:46
А когда будет реализован функционал очистки от дублей?

Просто тема уже давненько создана, может забыта? :D



18 сентября 2009, 10:25
Зарегистрирован: 10 апреля 2012, 00:00
А когда будет реализован функционал очистки от дублей?

Просто тема уже давненько создана, может забыта? :D


Не забыл, но в этой ветке еще 30 тем есть. Хотел на этой неделе сделать, но видимо не успею