Главная страница


ru.cgi.perl

 
 - RU.CGI.PERL ------------------------------------------------------------------
 From : Sergej Tarasov                       2:5020/175.2   15 Nov 2002  04:17:55
 To : Ruslan Bondarev
 Subject : site search
 -------------------------------------------------------------------------------- 
 
 Thu Nov 14 2002 23:16, Ruslan Bondarev wrote to Artem Chuprina:
 
  RB>     Все формы? А есть такие, которые сгенерируют _все_ формы?
  RB>     И этот способ раздувает базу просто катастрофически.
 
 Каким образом он раздует базу? В базе лежит только оигинальное слово,
 а при поиске база опрашивается на наличие всех возможных словоформ.
 При другом подходе, когда слова нормализуются во время индексации,
 размер базы как раз уменьшиется, но теряется информации о точной
 словоформе, поиск по точному вхождению потом невозможен.
 
  RB>     Кстати, сноуболловский стемминг для русского языка нервно курит в
  RB> коридоре. Уж очень он некузяв, да и вообще алгоритмический подход к
  RB> русскому языку чреват.
 
 Все зависит от того, что хочется иметь и сколько хочется на это потратить
 (времени или денег). Очень часто и поиска по началу слова достаточно.
 А в таком случае и стемминг будет работать.
 
 Кстати, есть и другая строна алгоритмического подхода - нечеткая морфология.
 Это когда по виду слова пытаются определить к какой группе оно относится
 и построить его парадигму. Естественно, строится много лишних форм,
 потому что очень часто по окончанию нельзя определить является слово
 существительным или глаголом, поэтому отрабатываются обе версии. Hо это
 никому не мешает, потому что такой подход используют для несловарных слов
 и в сочетании с поиском по расширенному запросу: то есть база опрашивается
 на наличие всех возможных словоформ, если мы сгенерировали лишние, то таких
 просто не окажется в базе. Опрос словаря очень дешевая операция по сравнению
 с последующими операциями над полученными векторами документов и пара десятков
 лишних словоформ никого не волнует. 
 
 Правда, случаются казусы. Hаример, Яндекс по запросу "спам" (им уже давно об
 этом намекали, могли бы и в словарь это слово добавить) выдает документы
 о всяких "СП", видимо считает, что это дательный падеж множественного числа
 от слова "СП". А на "ПТУ" иногда выдает "Пн-Пт 9.00-18.00". То есть кто-что?
 "пт", кого-чего? - "пта", кому-чему? - "пту".
 
  RB>     Тут кто-то хвалился, что у него есть решение, основанное на словаре
  RB> Зализняка, но куда-то исчез. Между прочим, словаря Зализняка мало -- надо
  RB> еще все правила предусмотреть. Вот в них правда...
 
 Я не исчез, я все читаю. Иногда доделываю свой модуль. Hедавно
 правила для причастий дописал. Когда найду пару свободных вечеров,
 примусь за местоимения и числительные.
 
 --- ifmail v.2.15dev5
  * Origin: FidoNet Online - http://www.fido-online.com (2:5020/175.2)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 site search   Pavel Ischenco   12 Nov 2002 06:34:12 
 Re: site search   Artem Chuprina   12 Nov 2002 19:20:33 
 Re: site search   Pavel Ischenco   13 Nov 2002 10:35:54 
 Re: site search   Artem Chuprina   14 Nov 2002 04:00:25 
 Re: site search   Pavel Ischenco   14 Nov 2002 04:07:44 
 Re: site search   Serge Pekarsky   15 Nov 2002 15:41:14 
 Re: site search   Artem Chuprina   15 Nov 2002 16:18:41 
 Re: site search   Alex Povolotsky   18 Nov 2002 17:29:58 
 site search   Ruslan Bondarev   15 Nov 2002 00:16:01 
 site search   Sergej Tarasov   15 Nov 2002 04:17:55 
 site search   Ruslan Bondarev   15 Nov 2002 22:02:33 
 Re: site search   Victor Wagner   15 Nov 2002 10:55:21 
 Re: site search   Sergej Tarasov   15 Nov 2002 20:57:23 
 Re: site search   Andrey Savitsky   15 Nov 2002 12:05:12 
 site search   Ruslan Bondarev   15 Nov 2002 21:56:08 
 Re: site search   Artem Chuprina   15 Nov 2002 16:19:43 
 site search   Ruslan Bondarev   15 Nov 2002 22:00:17 
 Re: site search   Victor Wagner   14 Nov 2002 11:36:22 
 Re: site search   Konstantin Tokar   14 Nov 2002 13:03:00 
 Re: site search   Andrey Savitsky   15 Nov 2002 12:01:58 
Архивное /ru.cgi.perl/3300750f4cd6.html, оценка 2 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional