|
|
ru.cgi.perl- RU.CGI.PERL ------------------------------------------------------------------ From : Sergej Tarasov 2:5020/175.2 15 Nov 2002 04:17:55 To : Ruslan Bondarev Subject : site search -------------------------------------------------------------------------------- Thu Nov 14 2002 23:16, Ruslan Bondarev wrote to Artem Chuprina: RB> Все формы? А есть такие, которые сгенерируют _все_ формы? RB> И этот способ раздувает базу просто катастрофически. Каким образом он раздует базу? В базе лежит только оигинальное слово, а при поиске база опрашивается на наличие всех возможных словоформ. При другом подходе, когда слова нормализуются во время индексации, размер базы как раз уменьшиется, но теряется информации о точной словоформе, поиск по точному вхождению потом невозможен. RB> Кстати, сноуболловский стемминг для русского языка нервно курит в RB> коридоре. Уж очень он некузяв, да и вообще алгоритмический подход к RB> русскому языку чреват. Все зависит от того, что хочется иметь и сколько хочется на это потратить (времени или денег). Очень часто и поиска по началу слова достаточно. А в таком случае и стемминг будет работать. Кстати, есть и другая строна алгоритмического подхода - нечеткая морфология. Это когда по виду слова пытаются определить к какой группе оно относится и построить его парадигму. Естественно, строится много лишних форм, потому что очень часто по окончанию нельзя определить является слово существительным или глаголом, поэтому отрабатываются обе версии. Hо это никому не мешает, потому что такой подход используют для несловарных слов и в сочетании с поиском по расширенному запросу: то есть база опрашивается на наличие всех возможных словоформ, если мы сгенерировали лишние, то таких просто не окажется в базе. Опрос словаря очень дешевая операция по сравнению с последующими операциями над полученными векторами документов и пара десятков лишних словоформ никого не волнует. Правда, случаются казусы. Hаример, Яндекс по запросу "спам" (им уже давно об этом намекали, могли бы и в словарь это слово добавить) выдает документы о всяких "СП", видимо считает, что это дательный падеж множественного числа от слова "СП". А на "ПТУ" иногда выдает "Пн-Пт 9.00-18.00". То есть кто-что? "пт", кого-чего? - "пта", кому-чему? - "пту". RB> Тут кто-то хвалился, что у него есть решение, основанное на словаре RB> Зализняка, но куда-то исчез. Между прочим, словаря Зализняка мало -- надо RB> еще все правила предусмотреть. Вот в них правда... Я не исчез, я все читаю. Иногда доделываю свой модуль. Hедавно правила для причастий дописал. Когда найду пару свободных вечеров, примусь за местоимения и числительные. --- ifmail v.2.15dev5 * Origin: FidoNet Online - http://www.fido-online.com (2:5020/175.2) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.cgi.perl/3300750f4cd6.html, оценка из 5, голосов 10
|