ZebroidФорумПубличный разделПредложенияЧуланСущественное улучшение подбора ключевых слов

Существенное улучшение подбора ключевых слов

26 февраля 2013, 09:21
Зарегистрирован: 23 февраля 2013, 15:01
Сейчас зеброид подбирает ключевые слова по тому, как часто они втречаются в статьях проекта, не учитывая, что частота использования слов в русском языке очень неравномерная. Из-за этого мы имеем картину, когда список подобранных программой ключей на 90% состоит из распространённых обротов, типа "после того", "помните что", "лучше всего", которые приходится чистить руками. Предлагаю следующее: Составить таблицы средней встречаемости отдельных слов в русском языке (это, думаю, будет несложно, достаточно напарсить пару десятков тысяч статей разной тематики и подсчитать слова) и дальше, при подсчете зеброидом частоты встречаемости слов в статьях проекта, считать, что слово является ключевиком, если частота его встречаемости ощутимо (хотя бы процентов на 10) выше, чем средняя для русского языка. Для ключей из нескольких слов можно сделать так - набор слов является ключевиком, если хотя бы одно из его слов в статьях проекта встречается чаще, чем в среднем в русском языке



26 февраля 2013, 09:51
Зарегистрирован: 26 апреля 2010, 01:51
Я уже предлагал примерно тоже самое, конкретно использовать частотный словарь Засориной для меток:

viewtopic.php?f=9&t=816&p=4875&hilit=%D1%87%D0%B0%D1%81%D1%82%D0%BE%D1%82%D0%BD%D1%8B%D0%B9+%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C+%D0%97%D0%B0%D1%81%D0%BE%D1%80%D0%B8%D0%BD%D0%BE%D0%B9#p4875



26 февраля 2013, 10:16
Зарегистрирован: 23 февраля 2013, 15:01
Я уже предлагал примерно тоже самое, конкретно использовать частотный словарь Засориной для меток:

viewtopic.php?f=9&t=816&p=4875&hilit=%D1%87%D0%B0%D1%81%D1%82%D0%BE%D1%82%D0%BD%D1%8B%D0%B9+%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C+%D0%97%D0%B0%D1%81%D0%BE%D1%80%D0%B8%D0%BD%D0%BE%D0%B9#p4875


странно, что вам никто не ответил. Хорошая же идея. Можно прикрутить и к автодетекту ключей, и к автометкам.



26 февраля 2013, 11:28
Зарегистрирован: 10 апреля 2012, 00:00
Не совсем понимаю почему вы не можете составить такой список сами и добавить его в черный список?



26 февраля 2013, 13:06
Зарегистрирован: 23 февраля 2013, 15:01
Не совсем понимаю почему вы не можете составить такой список сами и добавить его в черный список?


потому что для каждого отдельного набора статей, для которого автоматически будут вычисляться ключевики, такой список нужно будет каждый раз составлять вручную. Поэтому хотелось бы автоматизировать это дело, хотя бы в пределах разумного. Для примера, во вложении скрин вычисленных ключевиков для набора статей по тематике "Строительство". И юмор в том, что для разных наборов статей даже по одной тематике вот эти мусорные псевдо-ключи всегда разные.[attachment=0:276bki71]-1.jpg[/attachment:276bki71]



26 февраля 2013, 15:27
Зарегистрирован: 10 апреля 2012, 00:00
Из указанного вами скриншота увидел очень мало слов относящихся сугубо к строительной тематике. Если в настройках черного списка включить опцию "Не допускать в метки словосочетания, если хотя бы одно из слов есть в BL" и добавить в словарь такие слова как "после, как, для, чего, можно, которые, что, при" (заметьте, абсолютно все слова не привязаны к какой-либо тематике), то ваш список будет выглядеть совсем иначе.



27 февраля 2013, 14:36
Зарегистрирован: 23 февраля 2013, 15:01
Из указанного вами скриншота увидел очень мало слов относящихся сугубо к строительной тематике. Если в настройках черного списка включить опцию "Не допускать в метки словосочетания, если хотя бы одно из слов есть в BL" и добавить в словарь такие слова как "после, как, для, чего, можно, которые, что, при" (заметьте, абсолютно все слова не привязаны к какой-либо тематике), то ваш список будет выглядеть совсем иначе.


во-первых у меня проблема не с расстановкой меток, а с выделением ключевиков, а там чёрного списка нет (по крайней мере я не нашёл). Во-вторых я проверил то, что вы предлагаете на автоподборе меток - количество мусорных меток конечно уменьшается, но их всё равно слишком много (порядка 40-50%), то есть проблему предложенная вами методика впринипе не решает, только немного уменьшает.

Скажите, а почему вы так скептически настроены к моему предложению? Вы не согласны с тем, что подобный алгоритм будет работать или просто не видите смысла в реализации подобного функционала?



28 февраля 2013, 05:59
Зарегистрирован: 10 апреля 2012, 00:00
во-первых у меня проблема не с расстановкой меток, а с выделением ключевиков, а там чёрного списка нет (по крайней мере я не нашёл).


[strike:3kntfdi5]Я думал черный список общий, оказалось, что это не так, исправлю.[/strike:3kntfdi5]

Черный список общий

Скажите, а почему вы так скептически настроены к моему предложению? Вы не согласны с тем, что подобный алгоритм будет работать или просто не видите смысла в реализации подобного функционала?


Я не думаю, что этот алгоритм будет работать. Во-первых не понятно откуда вообще брать словарь со средними показателями популярности слов. Если парсить самому, то никаких гарантий качества это не даст, всё будет зависит только от используемых статей. Во-вторых не понятно откуда взяты цифра 10%, чем она обоснована? Итого имеем две фундаментальные составляющие предложения в точности которых нету никакой уверенности, тогда откуда может взяться уверенность, что результат будет удовлетворительный.

Трудозатраты будут однозначно выше, чем при составлении хорошего словаря запрещенных слов, а результат не обязательно лучше.



28 февраля 2013, 16:21
Зарегистрирован: 23 февраля 2013, 15:01
[quote:1idehv8r]Я не думаю, что этот алгоритм будет работать.
[/quote:1idehv8r]

чтож, спасибо за развернутый ответ. Думаю, что на этом можно остановиться, потому что моя уверенность в работоспособности этого алгоритма строится только на моих логических умозаключениях и, по факту, обосновать это мне нечем. Когда (и если) будет время, попробую сделать прототип в форме php-плагина и если результат будет положительным, я вернусь к этому вопросу. Спасибо, что уделили мне время.