ZebroidФорумПубличный разделОптимизацияАрхивВ больших статьях не ставятся метки

В больших статьях не ставятся метки

22 декабря 2011, 02:21
Зарегистрирован: 02 ноября 2009, 18:41
В больших статьях ( от 45000 т.с. без проб. ) почему-то метки не проставляются, нажимаю OK и окно закрывается.



22 декабря 2011, 04:56
Зарегистрирован: 22 октября 2011, 13:54
Это уже не статья, а целая энциклопедия



22 декабря 2011, 09:16
Зарегистрирован: 10 апреля 2012, 00:00
Срабатывает защита парсера. Он просто не в состоянии обработать такие большие обьемы, потому даже не пытается.

К сожалению тут я ничего поделать не могу.



23 декабря 2011, 01:25
Зарегистрирован: 02 ноября 2009, 18:41
во 2 версии работало.



23 декабря 2011, 02:49
Зарегистрирован: 10 апреля 2012, 00:00
Скиньте мне пример вашего текста который во второй работал, а в третей не работает.



27 декабря 2011, 06:12
Зарегистрирован: 10 апреля 2012, 00:00
Посмотрел тексты - действительно, до перехода на юникод (до версии 3.5), программа справлялась с крупными текстами без проблем. Увеличил максимальный лимит текста, который программа будет пытаться обработать, так что теперь тексты в 200к символов она не пропускает, но скорость работы с такими текстами довольно маленькая. Связано это с тем, что юникодный набор символов имеет больше вариаций и программе сложнее определить какой текущий символ текста - часть слова или нет. С этим, к сожалению я ничего поделать не могу.

Позднее попробую упростить разбивку слов за основу взяв лишь самые популярные символы разделения слов (пробелы, запятые, точки и т.д.), а не всевозможные. Качество в таком случае может упасть, но скорость должна возрасти. Поэкспериментирую, а там будет видно пригодный это для жизни вариант или нет.



05 января 2012, 13:33
Зарегистрирован: 02 ноября 2009, 18:41
Со словарей метки ставятся, а с часто употребляемых слов - нет. :(



05 января 2012, 13:54
Зарегистрирован: 10 апреля 2012, 00:00
Со словарей поиск простой - есть слово в тексте или нет. Часто употребляемые - это выборка всех слов в тексте, группировка и определение самых частых. Согласитесь - намного трудоемкое задание. А в больших текстах количество слов огромное. Потому, чтобы программа не зависала на пол часа при обработке каждой статьи, я установил некий порог.