|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Nikolay Panov 2:5020/400 29 Nov 2005 18:54:41 To : Kirill Frolov Subject : Re: Поисковики для локального сайта. -------------------------------------------------------------------------------- Kirill Frolov wrote: > >>> Посоветуйте поисковик для локального сайта (конкретнее - localhost на > >>> домашней машине). Сейчас там более 2Гб текста, причем не всегда > >>> статического (из некоторых архивов достается через cgi). > NP>> Лучше swish-e ничего как бы и нет. > SV> Hа мой взгляд, glimpse получше будет, но у него свои особенности. > А swish-e уже научился по-русски? А какие могут быть проблемы? Задаёшь в конфиге: WordCharacters .-_'abcdefghijklmnopqrstuvwxyzабвгдеёжзийклмнопрстуфхцчшщъыьэюя АБВГДЕЁЖЗИЙКЛМHОПРСТУФХЦЧШЩЪЫЬЭЮЯ1234567890 И радуешься. > А нечёткий поиск? Чтоб хоть > "найденный" и "найденное" не различало, иначе же бесполезно всё. Какой вариант нечёткого поиска вы предпочитаете? Word stemming, soundex, metaphone, или double-metaphone? Swish-e умеет все. Сам я предпочитаю: FuzzyIndexingMode Stemming_ru То есть русскоязычный сноубольский стемминг. > > NP>> Пока я обхожусь разделением зон индексации. То есть, индексирую не всё > NP>> скопом, а по каталогам, например. Благо клиент умеет брать инфу сразу от > NP>> кучи индексов. > SV> Как ему объяснить, что ссылки на предыдущий каталог не обрабатывать? > SV> Иначе бы так и сделал, но эти полтора гига swish-e будет обрабатывать > SV> этак часов 10, ибо там все связано. > А он (swish-e) что-то кроме html умеет? Да. Умеет. Всё, что угодно. > В частности, plain-text > /в неизвестной кодировке/ (допустим, через konwert any/ru), pdf, doc, > да что угодно ещё, лишь бы фильтр трансформации в текст можно было самому > привернуть. Можно? Разумеется. Иначе нафига б поисковик без этих базовых фишек был бы нужен? Можно искать где угодно и как угодно. Хоть в tar.bz2 по тексту, что содержат файлы в нём, хоть DVD-диски по описанию содержащегося в них фильма на imdb.com. Вот, например, поиск по djvu-книжкам: [11:58 /]$ ss Artificial Intelligence # SWISH format: 2.4.3 # Search words: Artificial Intelligence # Removed stopwords: # Number of hits: 168 # Search time: 0.431 seconds # Run time: 0.451 seconds 1000 /home/docs/Books/Computer Science/Artificial Intelligence/ Tanimoto S.L. Elements of artificial intelligence.. an introduction using LISP (1987)(T)(553s).djvu 7129538 954 /home/docs/Books/Computer Science/Genetic algorithms, neuronetworks/ Chambers D.L. (ed.) Vol. 2. Handbook of genetic algorithms. New frontiers (CRC, 1995)(421s).djvu 5320731 913 /home/docs/Books/Computer Science/Genetic algorithms, neuronetworks/ Chambers D.L. (ed.) Vol. 3. Handbook of genetic algorithms. Complex coding systems (CRC, 1999)(659s).djvu 3773019 ...ещё 165 элементов... А вот по архивам: [12:16 /]$ ss \"космический календарь\" # SWISH format: 2.4.3 # Search words: "космический календарь" # Removed stopwords: # Number of hits: 3 # Search time: 0.013 seconds # Run time: 0.225 seconds 1000 /home/docs/Library/Library13/Lib/022/tajnws.rar 343675 817 /home/docs/Library/unsorted/Карл Саган -- Драконы Эдема.fb2.zip 733418 757 /home/docs/Library/Library13/Lib/022/rerihs.rar 1477816 > В glimpse можно, да неудобно. Hеудобно чем? > И получается потом > медленно очень, для поиска. Тогда мне тем более не понятно чем же glimpse может быть лучше swish-e? :o/ Hа всякий случай повторю основные фичи, что умеет swish-e: # Индексацию практически неограниченного количества документов. # Индексацию с использованием фильтров -- внешних программ, принимающих на вход имя индексируемого файла и выдающих на выходе текст, подлежащий индексации. В частности, благодаря этой возможности можно не только индексировать текстосодержащие документы в любом формате (например, PDF, gzip, PS, DOC), но и индексировать нетекстовые документы по ассоциированному с ними тексту (например, с файлом, содержащим фильм, можно легко ассоциировать описание данного фильма с сайта imdb.com). # Индексацию с использованием внешних spider`ов -- таинственных программ, понимающих хитрые протоколы передачи данных, например HHTP (web-spider). # Индексация с помощью внешних программ извлечения документов, то есть программ, принимающих на вход пожелание ``а проиндексируй ка мне там'', где ``там'' может быть что угодно -- каталог файловой системы, имя базы данных, web-адрес. # Индексацию с использованием алгоритмов word stemming, soundex, metaphone, и double-metaphone, позволяющих искать практически с учётом русской (или какая вам больше нравится) морфологии. # Возможность отбора документов для индексации (или наоборот игнорирования оных) по регулярному выражению. # Умение искать по отдельному XML-тегу документа. # Индексный файл имеет формат, независимый от операционной системы, либо от архитектуры компьютера. -- ...не следует уничтожать сущности сверх необходимости... --- ifmail v.2.15dev5.3 * Origin: Арзамас. Hижегородская. Россия. Земля. Солнечная. Млеч (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/6577196ed79a.html, оценка из 5, голосов 10
|