ZebroidФорумПубличный разделПредложенияАрхивМорфологически верные теги

Морфологически верные теги

17 декабря 2009, 07:46
Зарегистрирован: 13 декабря 2009, 20:59
Автоизвлечение тегов из текста - это здорово. Но нечитабельно для человека - теги находятся в разных формах, падежах и т.п.

Хотелось бы, чтобы при подсчете частотных слов для тегов проходила лемматизация, после чего генерировались теги в начальной форме слова (именительный падеж), чтобы облако тегов выглядело читабельным.



24 декабря 2009, 13:30
Зарегистрирован: 10 апреля 2012, 00:00
Было бы не плохо дать ссылку на источник правил, по которых можно было определять начальную форму тагов. В идеале еще бы правила лемматизации почитать хотел, ато тот алгоритм лемматизации, что сейчас в программе не работает в 100% случаев.



18 января 2010, 04:54
Зарегистрирован: 25 июля 2009, 11:00
Было бы не плохо дать ссылку на источник правил, по которых можно было определять начальную форму тагов. В идеале еще бы правила лемматизации почитать хотел, ато тот алгоритм лемматизации, что сейчас в программе не работает в 100% случаев.


Нормальной формой слова считается именительный падеж единственное число, для существительных. Так, с точки зрения Яндекса, «кот», «коты», «кота» и т.д. - формы одного и того же слова, среди которых нормальной является форма «кот». Это Информация с Яндекса.

По-идее для глагола нормальной формой является инфинитив.

Есть такая библиотека на PHP, как phpmorphy, там есть возможность вызова $base = $morphy->getBaseForm($word); .т.е. начальной, нормальной, базовой формы любого слова. Есть морфологический анализатор от Яндекса http://company.yandex.ru/technology/mystem/



18 января 2010, 11:51
Зарегистрирован: 10 апреля 2012, 00:00
Спасибо, теперь есть над чем по мозговать :)



30 января 2010, 12:56
Зарегистрирован: 10 апреля 2012, 00:00
Готово, правда только для русского языка