Frozen Fido : RU.CGI.PERL : site search

ru.cgi.perl

 
 - RU.CGI.PERL ------------------------------------------------------------------
 From : Sergej Tarasov                       2:5020/175.2   15 Nov 2002  04:17:55
 To : Ruslan Bondarev
 Subject : site search
 --------------------------------------------------------------------------------

 Thu Nov 14 2002 23:16, Ruslan Bondarev wrote to Artem Chuprina:
 
  RB>     Все формы? А есть такие, которые сгенерируют _все_ формы?
  RB>     И этот способ раздувает базу просто катастрофически.
 
 Каким образом он раздует базу? В базе лежит только оигинальное слово,
 а при поиске база опрашивается на наличие всех возможных словоформ.
 При другом подходе, когда слова нормализуются во время индексации,
 размер базы как раз уменьшиется, но теряется информации о точной
 словоформе, поиск по точному вхождению потом невозможен.
 
  RB>     Кстати, сноуболловский стемминг для русского языка нервно курит в
  RB> коридоре. Уж очень он некузяв, да и вообще алгоритмический подход к
  RB> русскому языку чреват.
 
 Все зависит от того, что хочется иметь и сколько хочется на это потратить
 (времени или денег). Очень часто и поиска по началу слова достаточно.
 А в таком случае и стемминг будет работать.
 
 Кстати, есть и другая строна алгоритмического подхода - нечеткая морфология.
 Это когда по виду слова пытаются определить к какой группе оно относится
 и построить его парадигму. Естественно, строится много лишних форм,
 потому что очень часто по окончанию нельзя определить является слово
 существительным или глаголом, поэтому отрабатываются обе версии. Hо это
 никому не мешает, потому что такой подход используют для несловарных слов
 и в сочетании с поиском по расширенному запросу: то есть база опрашивается
 на наличие всех возможных словоформ, если мы сгенерировали лишние, то таких
 просто не окажется в базе. Опрос словаря очень дешевая операция по сравнению
 с последующими операциями над полученными векторами документов и пара десятков
 лишних словоформ никого не волнует. 
 
 Правда, случаются казусы. Hаример, Яндекс по запросу "спам" (им уже давно об
 этом намекали, могли бы и в словарь это слово добавить) выдает документы
 о всяких "СП", видимо считает, что это дательный падеж множественного числа
 от слова "СП". А на "ПТУ" иногда выдает "Пн-Пт 9.00-18.00". То есть кто-что?
 "пт", кого-чего? - "пта", кому-чему? - "пту".
 
  RB>     Тут кто-то хвалился, что у него есть решение, основанное на словаре
  RB> Зализняка, но куда-то исчез. Между прочим, словаря Зализняка мало -- надо
  RB> еще все правила предусмотреть. Вот в них правда...
 
 Я не исчез, я все читаю. Иногда доделываю свой модуль. Hедавно
 правила для причастий дописал. Когда найду пару свободных вечеров,
 примусь за местоимения и числительные.
 
 --- ifmail v.2.15dev5
  * Origin: FidoNet Online - http://www.fido-online.com (2:5020/175.2)

Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор

Тема:	Автор:	Дата:
site search	Pavel Ischenco	12 Nov 2002 06:34:12
Re: site search	Artem Chuprina	12 Nov 2002 19:20:33
Re: site search	Pavel Ischenco	13 Nov 2002 10:35:54
Re: site search	Artem Chuprina	14 Nov 2002 04:00:25
Re: site search	Pavel Ischenco	14 Nov 2002 04:07:44
Re: site search	Serge Pekarsky	15 Nov 2002 15:41:14
Re: site search	Artem Chuprina	15 Nov 2002 16:18:41
Re: site search	Alex Povolotsky	18 Nov 2002 17:29:58
site search	Ruslan Bondarev	15 Nov 2002 00:16:01
site search	Sergej Tarasov	15 Nov 2002 04:17:55
site search	Ruslan Bondarev	15 Nov 2002 22:02:33
Re: site search	Victor Wagner	15 Nov 2002 10:55:21
Re: site search	Sergej Tarasov	15 Nov 2002 20:57:23
Re: site search	Andrey Savitsky	15 Nov 2002 12:05:12
site search	Ruslan Bondarev	15 Nov 2002 21:56:08
Re: site search	Artem Chuprina	15 Nov 2002 16:19:43
site search	Ruslan Bondarev	15 Nov 2002 22:00:17
Re: site search	Victor Wagner	14 Nov 2002 11:36:22
Re: site search	Konstantin Tokar	14 Nov 2002 13:03:00
Re: site search	Andrey Savitsky	15 Nov 2002 12:01:58

Архивное /ru.cgi.perl/3300750f4cd6.html, оценка 2 из 5, голосов 10