Главная страница


ru.linux

 
 - RU.LINUX ---------------------------------------------------------------------
 From : Stas Vlasov                          2:5080/111     01 Dec 2005  16:20:15
 To : Nikolay Panov
 Subject : Re: Поисковики для    локального    сайта.
 -------------------------------------------------------------------------------- 
 
 >>  NP> содержат файлы в нём, хоть DVD-диски по описанию содержащегося в них
 >>  NP> фильма на imdb.com.
 >> А вот про архивы просьба по-подробнее.
 >> Как у вас работает поиск по отдельным файлам в архиве?
 
  NP> По отдельным файлам из архива пока поиска не делал. Хотя собираюсь в
  NP> ближайшее время сделать. По идее, это не должно бы представлять каких бы
  NP> то ни было сложностей.
 
 Теоретически - может быть.
 Практически - я не представляю, как это сделать, если поиском заведует
 сам swish-e (то есть, подсовывает найденные файлы
 скрипту-"перекодировщику"), а со скриптами-поисковиками я пока не
 разобрался.
 
 >> Если это отдельный скрипт - покажите пожалуйста.
  
  NP> Пока использую старую свою десятистрочную скриптинку catar (она же unar
  NP> и lsar), который умеет распакованное содержание архивных файлов
  NP> (поддерживается с десяток форматов) выводить на STDOUT.
 
 Мне было проще сделать на каждый формат архива свой файл.
  
 >> У меня пока просто извлекаются текстовые файлы на stdout, который и
 >> индексируется.
  
  NP> У меня ровно так же. Разве что текст иногда ещё и пропускается через
  NP> konwert any/ru-koi8r. Это хорошо работает почти для всех моих файлов
 
 Про это я даже не упоминаю, ибо это - по-умолчанию.
 
  NP> (предпочитаю держать тексты в архивах, ибо иначе бы они и в мои треть
  NP> терабайта не поместились, соответственно большинство моих архивов
  NP> содержит ровно один текстовый файл), хотя бывают и мелкие проблемы
 
 У меня, к сожалению, бОльшая часть архивов содержит намного более одного
 файла, потому наблюдаются некоторые проблемы.
 
 >>  NP> Вот, например, поиск по djvu-книжкам:
 >>  NP> 1000 /home/docs/Books/Computer Science/Artificial Intelligence/
 >>  NP>      Tanimoto S.L. Elements of artificial intelligence..
 >>  NP>      an introduction using LISP (1987)(T)(553s).djvu 7129538
 >> В djvu был внедрен текст или производилось распознавание на лету?
  
  NP> Индексирование производилось по djvu-комментарию (djvutxt
  NP> файл.djvu|konwert utf8-koi8r). А вот в данном djvu-комментарии как раз и
  NP> лежит предварительно распознанное (либо полученное из какой электронной
  NP> версии документа) текстовое содержимое книги.
 
 Все бы неплохо, но где бы еще взять распознавалку русского текста под
 линукс...
 
 >>>> В glimpse можно, да неудобно.
 >>  NP> Hеудобно чем?
 >> Там поиск осуществляется не только по индексу, но и по найденным в
 >> индексе файлам. Помимо уточнения поиска заодно и показывается найденная
 >> фраза.
  
  NP> Хм... А это может быть небесполезным. swish-e только ранк возвращает да
  NP> имя файла с его размером. Hайденную фразу было бы наверное неплохо
  NP> увидеть...
 
 Только glimpse еще и тормозит при этом неплохо, ибо заодно и файлы шерстит.
 И на Ctrl-C не реагирует (по-крайней мере, у меня).
 
 -- 
 Stanislav
 --- tin/1.7.8-20050315 ("Scalpay") (UNIX) (Linux/2.6.14-1sarge-686 (i686))
  * Origin: Blues, Yekaterinburg, Russia (2:5080/111)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Re: Поисковики для локального сайта.   Nikolay Panov   30 Nov 2005 14:18:15 
 Re: Поисковики для локального сайта.   Stas Vlasov   01 Dec 2005 16:20:15 
 Re: Поисковики для локального сайта.   Stas Vlasov   05 Dec 2005 16:39:04 
Архивное /ru.linux/3218479ff72d.html, оценка 2 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional