→ Форум → Публичный раздел → Предложения → Архив → Морфологически верные теги

Морфологически верные теги

17 декабря 2009, 07:46

phoeeenix Зарегистрирован: 13 декабря 2009, 20:59

Автоизвлечение тегов из текста - это здорово. Но нечитабельно для человека - теги находятся в разных формах, падежах и т.п.

Хотелось бы, чтобы при подсчете частотных слов для тегов проходила лемматизация, после чего генерировались теги в начальной форме слова (именительный падеж), чтобы облако тегов выглядело читабельным.

24 декабря 2009, 13:30

admin Зарегистрирован: 10 апреля 2012, 00:00

Было бы не плохо дать ссылку на источник правил, по которых можно было определять начальную форму тагов. В идеале еще бы правила лемматизации почитать хотел, ато тот алгоритм лемматизации, что сейчас в программе не работает в 100% случаев.

18 января 2010, 04:54

shumny Зарегистрирован: 25 июля 2009, 11:00

Было бы не плохо дать ссылку на источник правил, по которых можно было определять начальную форму тагов. В идеале еще бы правила лемматизации почитать хотел, ато тот алгоритм лемматизации, что сейчас в программе не работает в 100% случаев.

Нормальной формой слова считается именительный падеж единственное число, для существительных. Так, с точки зрения Яндекса, «кот», «коты», «кота» и т.д. - формы одного и того же слова, среди которых нормальной является форма «кот». Это Информация с Яндекса.

По-идее для глагола нормальной формой является инфинитив.

Есть такая библиотека на PHP, как phpmorphy, там есть возможность вызова $base = $morphy->getBaseForm($word); .т.е. начальной, нормальной, базовой формы любого слова. Есть морфологический анализатор от Яндекса http://company.yandex.ru/technology/mystem/

18 января 2010, 11:51
admin Зарегистрирован: 10 апреля 2012, 00:00	Спасибо, теперь есть над чем по мозговать :)

30 января 2010, 12:56
admin Зарегистрирован: 10 апреля 2012, 00:00	Готово, правда только для русского языка

Логин
Пароль
	Забыли пароль?

Вход /

Регистрация

Морфологически верные теги