|
ru.cgi.perl- RU.CGI.PERL ------------------------------------------------------------------ From : Victor Wagner 2:5020/400 15 Nov 2002 10:55:21 To : Ruslan Bondarev Subject : Re: site search -------------------------------------------------------------------------------- Ruslan Bondarev <Ruslan.Bondarev@p37.f327.n463.z2.fidonet.org> wrote: RB> Hello, Artem! RB> *** 14 Nov 02 in a msg to Pavel Ischenco, Artem Chuprina wrote: AC>> В боевых условиях работают в две фазы. Сначала индексатор индексирует AC>> документы, делит на слова и запихивает в реляционную базу с AC>> информацией о том, в каком документе встречается. Потом при поиске AC>> поисковик формирует все формы введенного слова и делает запрос к оной AC>> базе where word in (...). RB> Все формы? А есть такие, которые сгенерируют _все_ формы? Да, конечно. ispell, например. RB> И этот способ раздувает базу просто катастрофически. Hе катострофически. Дело в том, что имеются в виду все канонические формы (именительный падеж единственного числа, неопределенная форма глагола). Hапример, встретилось в тексте слово "вина". Что это - именительный падеж единственного числа слова "вина" или именительный падеж множественного числа стола "вино"? Индексатор не знает и на всякий случай пихает в базу обе формы. -- Your experience have been expired --- ifmail v.2.15dev5 * Origin: Free Net of Leninsky,45 (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.cgi.perl/15178d95e6498.html, оценка из 5, голосов 10
|