|
|
ru.cgi.perl- RU.CGI.PERL ------------------------------------------------------------------ From : Ruslan Bondarev 2:463/327.37 15 Nov 2002 00:16:01 To : Artem Chuprina Subject : site search --------------------------------------------------------------------------------
*** 14 Nov 02 in a msg to Pavel Ischenco, Artem Chuprina wrote:
AC> В боевых условиях работают в две фазы. Сначала индексатор индексирует
AC> документы, делит на слова и запихивает в реляционную базу с
AC> информацией о том, в каком документе встречается. Потом при поиске
AC> поисковик формирует все формы введенного слова и делает запрос к оной
AC> базе where word in (...).
Все формы? А есть такие, которые сгенерируют _все_ формы?
И этот способ раздувает базу просто катастрофически.
All:
Кстати, сноуболловский стемминг для русского языка нервно курит в
коридоре. Уж очень он некузяв, да и вообще алгоритмический подход к русскому
языку чреват.
Тут кто-то хвалился, что у него есть решение, основанное на словаре
Зализняка, но куда-то исчез. Между прочим, словаря Зализняка мало -- надо еще
все правила предусмотреть. Вот в них правда...
--- GoldED+/W32 1.1.4.7
* Origin: (2:463/327.37)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.cgi.perl/33883dd412d4.html, оценка из 5, голосов 10
|