|
ru.cgi.perl- RU.CGI.PERL ------------------------------------------------------------------ From : Ruslan Bondarev 2:463/327.37 15 Nov 2002 22:02:33 To : Sergej Tarasov Subject : site search -------------------------------------------------------------------------------- *** 15 Nov 02 in a msg to Ruslan Bondarev, Sergej Tarasov wrote: RB>> Уж очень он некузяв, да и вообще алгоритмический подход к русскому RB>> языку чреват. ST> Все зависит от того, что хочется иметь и сколько хочется на это ST> потратить (времени или денег). Очень часто и поиска по началу слова ST> достаточно. А в таком случае и стемминг будет работать. Ага. "Для простого поиска отсекайте последние буквы". Помню такой совет на форуме www.searchengines.ru Стемминг надо дополнять закономерностями, тестировать. У сноуболла там очень примитивно все, мне кажется: он завалил довольно много моих тестов. Плюс, меня раздражало, что Lingua::Stem::Snowball (из опенфтс) довольно криво собирается под винду и лажает с кодировками (локалью). ST> Кстати, есть и другая строна алгоритмического подхода - нечеткая ST> морфология. Вот, например, твой любимый яндекс. Статья Ильи Сегаловича "Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов" - http://company.yandex.ru/articles/article1.html ST> Я не исчез, я все читаю. Иногда доделываю свой модуль. Hедавно ST> правила для причастий дописал. Когда найду пару свободных вечеров, ST> примусь за местоимения и числительные. Слушай, может давай скооперируемся? Или невозможно? У тебя правила из бумажной версии Зализняка или в электронном формате? --- GoldED+/W32 1.1.4.7 * Origin: (2:463/327.37) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.cgi.perl/33883dd54764.html, оценка из 5, голосов 10
|