|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Nikolay Panov 2:5020/400 30 Nov 2005 14:18:15 To : Stas Vlasov Subject : Re: Поисковики для локального сайта. -------------------------------------------------------------------------------- Stas Vlasov wrote: > NP> Разумеется. Иначе нафига б поисковик без этих базовых фишек был бы нужен? > NP> Можно искать где угодно и как угодно. Хоть в tar.bz2 по тексту, что > NP> содержат файлы в нём, хоть DVD-диски по описанию содержащегося в них > NP> фильма на imdb.com. > А вот про архивы просьба по-подробнее. > Как у вас работает поиск по отдельным файлам в архиве? По отдельным файлам из архива пока поиска не делал. Хотя собираюсь в ближайшее время сделать. По идее, это не должно бы представлять каких бы то ни было сложностей. > Если это отдельный скрипт - покажите пожалуйста. Пока использую старую свою десятистрочную скриптинку catar (она же unar и lsar), который умеет распакованное содержание архивных файлов (поддерживается с десяток форматов) выводить на STDOUT. > У меня пока просто извлекаются текстовые файлы на stdout, который и > индексируется. У меня ровно так же. Разве что текст иногда ещё и пропускается через konwert any/ru-koi8r. Это хорошо работает почти для всех моих файлов (предпочитаю держать тексты в архивах, ибо иначе бы они и в мои треть терабайта не поместились, соответственно большинство моих архивов содержит ровно один текстовый файл), хотя бывают и мелкие проблемы (например, когда swish-e попытался проиндексировать 700-мегабайтный .chm-файл, который распаковался в три гигабайта текста; процесс swish-e при этом занял больше гигабайта оперативной памяти за что и был отстрелен). > > NP> Вот, например, поиск по djvu-книжкам: > NP> 1000 /home/docs/Books/Computer Science/Artificial Intelligence/ > NP> Tanimoto S.L. Elements of artificial intelligence.. > NP> an introduction using LISP (1987)(T)(553s).djvu 7129538 > В djvu был внедрен текст или производилось распознавание на лету? Индексирование производилось по djvu-комментарию (djvutxt файл.djvu|konwert utf8-koi8r). А вот в данном djvu-комментарии как раз и лежит предварительно распознанное (либо полученное из какой электронной версии документа) текстовое содержимое книги. >>> В glimpse можно, да неудобно. > NP> Hеудобно чем? > Там поиск осуществляется не только по индексу, но и по найденным в > индексе файлам. Помимо уточнения поиска заодно и показывается найденная > фраза. Хм... А это может быть небесполезным. swish-e только ранк возвращает да имя файла с его размером. Hайденную фразу было бы наверное неплохо увидеть... -- ...cat < /dev/mouse --- ifmail v.2.15dev5.3 * Origin: Арзамас. Hижегородская. Россия. Земля. Солнечная. Млеч (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/6577a139c2d9.html, оценка из 5, голосов 10
|