Главная страница


ru.linux

 
 - RU.LINUX ---------------------------------------------------------------------
 From : Nikolay Panov                        2:5020/400     29 Nov 2005  18:54:41
 To : Kirill Frolov
 Subject : Re: Поисковики для  локального  сайта.
 -------------------------------------------------------------------------------- 
 
 Kirill Frolov wrote:
 
 >  >>> Посоветуйте поисковик для локального сайта (конкретнее - localhost на
 >  >>> домашней машине). Сейчас там более 2Гб текста, причем не всегда
 >  >>> статического  (из некоторых архивов достается через cgi).
 >  NP>> Лучше swish-e ничего как бы и нет.
 >  SV> Hа мой взгляд, glimpse получше будет, но у него свои особенности.
 >   А swish-e уже научился по-русски?
 
 А какие могут быть проблемы?
 Задаёшь в конфиге:
 WordCharacters
 .-_'abcdefghijklmnopqrstuvwxyzабвгдеёжзийклмнопрстуфхцчшщъыьэюя
    АБВГДЕЁЖЗИЙКЛМHОПРСТУФХЦЧШЩЪЫЬЭЮЯ1234567890
 
 И радуешься.
 
 >  А нечёткий поиск?  Чтоб хоть
 > "найденный" и "найденное" не различало, иначе же бесполезно всё.
 
 Какой вариант нечёткого поиска вы предпочитаете? Word stemming, soundex,
 metaphone, или double-metaphone? Swish-e умеет все. Сам я предпочитаю:
 FuzzyIndexingMode Stemming_ru
 То есть русскоязычный сноубольский стемминг.
 
 > 
 >  NP>> Пока я обхожусь разделением зон индексации. То есть, индексирую не всё
 >  NP>> скопом, а по каталогам, например. Благо клиент умеет брать инфу сразу от
 >  NP>> кучи индексов.
 >  SV> Как ему объяснить, что ссылки на предыдущий каталог не обрабатывать?
 >  SV> Иначе бы так и сделал, но эти полтора гига swish-e будет обрабатывать
 >  SV> этак часов 10, ибо там все связано.
 >   А он (swish-e) что-то кроме html умеет?
 
 Да. Умеет. Всё, что угодно.
 
 >  В частности, plain-text
 > /в неизвестной кодировке/ (допустим, через konwert any/ru), pdf, doc,
 > да что угодно ещё, лишь бы фильтр трансформации в текст можно было самому
 > привернуть. Можно?
 
 Разумеется. Иначе нафига б поисковик без этих базовых фишек был бы нужен?
 Можно искать где угодно и как угодно. Хоть в tar.bz2 по тексту, что
 содержат файлы в нём, хоть DVD-диски по описанию содержащегося в них
 фильма на imdb.com.
 
 Вот, например, поиск по djvu-книжкам:
 [11:58 /]$ ss Artificial Intelligence
 # SWISH format: 2.4.3
 # Search words: Artificial Intelligence
 # Removed stopwords:
 # Number of hits: 168
 # Search time: 0.431 seconds
 # Run time: 0.451 seconds
 1000 /home/docs/Books/Computer Science/Artificial Intelligence/
      Tanimoto S.L. Elements of artificial intelligence..
      an introduction using LISP (1987)(T)(553s).djvu 7129538
 954 /home/docs/Books/Computer Science/Genetic algorithms, neuronetworks/
     Chambers D.L. (ed.) Vol. 2. Handbook of genetic algorithms.
     New frontiers (CRC, 1995)(421s).djvu 5320731
 913 /home/docs/Books/Computer Science/Genetic algorithms, neuronetworks/
     Chambers D.L. (ed.) Vol. 3. Handbook of genetic algorithms.
     Complex coding systems (CRC, 1999)(659s).djvu 3773019
 ...ещё 165 элементов...
 
 А вот по архивам:
 [12:16 /]$ ss \"космический календарь\"
 # SWISH format: 2.4.3
 # Search words: "космический календарь"
 # Removed stopwords:
 # Number of hits: 3
 # Search time: 0.013 seconds
 # Run time: 0.225 seconds
 1000 /home/docs/Library/Library13/Lib/022/tajnws.rar 343675
 817 /home/docs/Library/unsorted/Карл Саган -- Драконы Эдема.fb2.zip 733418
 757 /home/docs/Library/Library13/Lib/022/rerihs.rar 1477816
 
 >  В glimpse можно, да неудобно.
 
 Hеудобно чем?
 
 > И получается потом
 > медленно очень, для поиска.
 
 Тогда мне тем более не понятно чем же glimpse может быть лучше swish-e? :o/
 
 Hа всякий случай повторю основные фичи, что умеет swish-e:
 # Индексацию практически неограниченного количества документов.
 # Индексацию с использованием фильтров -- внешних программ, принимающих
 на вход имя индексируемого файла и выдающих на выходе текст, подлежащий
 индексации. В частности, благодаря этой возможности можно не только
 индексировать текстосодержащие документы в любом формате (например, PDF,
 gzip, PS, DOC), но и индексировать нетекстовые документы по
 ассоциированному с ними тексту (например, с файлом, содержащим фильм,
 можно легко ассоциировать описание данного фильма с сайта imdb.com).
 # Индексацию с использованием внешних spider`ов -- таинственных
 программ, понимающих хитрые протоколы передачи данных, например HHTP
 (web-spider).
 # Индексация с помощью внешних программ извлечения документов, то есть
 программ, принимающих на вход пожелание ``а проиндексируй ка мне там'',
 где ``там'' может быть что угодно -- каталог файловой системы, имя базы
 данных, web-адрес.
 # Индексацию с использованием алгоритмов word stemming, soundex,
 metaphone, и double-metaphone, позволяющих искать практически с учётом
 русской (или какая вам больше нравится) морфологии.
 # Возможность отбора документов для индексации (или наоборот
 игнорирования оных) по регулярному выражению.
 # Умение искать по отдельному XML-тегу документа.
 # Индексный файл имеет формат, независимый от операционной системы, либо
 от архитектуры компьютера.
 
 -- 
 ...не следует уничтожать сущности сверх необходимости...
 
 --- ifmail v.2.15dev5.3
  * Origin: Арзамас. Hижегородская. Россия. Земля. Солнечная.  Млеч (2:5020/400)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Re: Поисковики для локального сайта.   Kirill Frolov   29 Nov 2005 17:25:14 
 Re: Поисковики для локального сайта.   Nikolay Panov   29 Nov 2005 18:54:41 
 Re: Поисковики для локального сайта.   Denis Nikiforov   29 Nov 2005 21:45:21 
 Re: Поисковики для локального сайта.   Stas Vlasov   30 Nov 2005 11:55:44 
 Re: Поисковики для локального сайта.   Stas Vlasov   30 Nov 2005 11:48:25 
Архивное /ru.linux/6577196ed79a.html, оценка 3 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional