Главная страница


ru.linux

 
 - RU.LINUX ---------------------------------------------------------------------
 From : Nikolay Panov                        2:5020/400     30 Nov 2005  14:18:15
 To : Stas Vlasov
 Subject : Re: Поисковики для   локального   сайта.
 -------------------------------------------------------------------------------- 
 
 Stas Vlasov wrote:
 
 >  NP> Разумеется. Иначе нафига б поисковик без этих базовых фишек был бы нужен?
 >  NP> Можно искать где угодно и как угодно. Хоть в tar.bz2 по тексту, что
 >  NP> содержат файлы в нём, хоть DVD-диски по описанию содержащегося в них
 >  NP> фильма на imdb.com.
 > А вот про архивы просьба по-подробнее.
 > Как у вас работает поиск по отдельным файлам в архиве?
 
 По отдельным файлам из архива пока поиска не делал. Хотя собираюсь в
 ближайшее время сделать. По идее, это не должно бы представлять каких бы
 то ни было сложностей.
 
 > Если это отдельный скрипт - покажите пожалуйста.
 
 Пока использую старую свою десятистрочную скриптинку catar (она же unar
 и lsar), который умеет распакованное содержание архивных файлов
 (поддерживается с десяток форматов) выводить на STDOUT.
 
 > У меня пока просто извлекаются текстовые файлы на stdout, который и
 > индексируется.
 
 У меня ровно так же. Разве что текст иногда ещё и пропускается через
 konwert any/ru-koi8r. Это хорошо работает почти для всех моих файлов
 (предпочитаю держать тексты в архивах, ибо иначе бы они и в мои треть
 терабайта не поместились, соответственно большинство моих архивов
 содержит ровно один текстовый файл), хотя бывают и мелкие проблемы
 (например, когда swish-e попытался проиндексировать 700-мегабайтный
 .chm-файл, который распаковался в три гигабайта текста; процесс swish-e
 при этом занял больше гигабайта оперативной памяти за что и был отстрелен).
 
 > 
 >  NP> Вот, например, поиск по djvu-книжкам:
 >  NP> 1000 /home/docs/Books/Computer Science/Artificial Intelligence/
 >  NP>      Tanimoto S.L. Elements of artificial intelligence..
 >  NP>      an introduction using LISP (1987)(T)(553s).djvu 7129538
 > В djvu был внедрен текст или производилось распознавание на лету?
 
 Индексирование производилось по djvu-комментарию (djvutxt
 файл.djvu|konwert utf8-koi8r). А вот в данном djvu-комментарии как раз и
 лежит предварительно распознанное (либо полученное из какой электронной
 версии документа) текстовое содержимое книги.
 >>> В glimpse можно, да неудобно.
 >  NP> Hеудобно чем?
 > Там поиск осуществляется не только по индексу, но и по найденным в
 > индексе файлам. Помимо уточнения поиска заодно и показывается найденная
 > фраза.
 
 Хм... А это может быть небесполезным. swish-e только ранк возвращает да
 имя файла с его размером. Hайденную фразу было бы наверное неплохо
 увидеть...
 
 -- 
 ...cat < /dev/mouse
 
 --- ifmail v.2.15dev5.3
  * Origin: Арзамас. Hижегородская. Россия. Земля. Солнечная.  Млеч (2:5020/400)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Re: Поисковики для локального сайта.   Nikolay Panov   30 Nov 2005 14:18:15 
 Re: Поисковики для локального сайта.   Stas Vlasov   01 Dec 2005 16:20:15 
 Re: Поисковики для локального сайта.   Stas Vlasov   05 Dec 2005 16:39:04 
Архивное /ru.linux/6577a139c2d9.html, оценка 2 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional