|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Stas Vlasov 2:5080/111 01 Dec 2005 16:20:15 To : Nikolay Panov Subject : Re: Поисковики для локального сайта. -------------------------------------------------------------------------------- >> NP> содержат файлы в нём, хоть DVD-диски по описанию содержащегося в них >> NP> фильма на imdb.com. >> А вот про архивы просьба по-подробнее. >> Как у вас работает поиск по отдельным файлам в архиве? NP> По отдельным файлам из архива пока поиска не делал. Хотя собираюсь в NP> ближайшее время сделать. По идее, это не должно бы представлять каких бы NP> то ни было сложностей. Теоретически - может быть. Практически - я не представляю, как это сделать, если поиском заведует сам swish-e (то есть, подсовывает найденные файлы скрипту-"перекодировщику"), а со скриптами-поисковиками я пока не разобрался. >> Если это отдельный скрипт - покажите пожалуйста. NP> Пока использую старую свою десятистрочную скриптинку catar (она же unar NP> и lsar), который умеет распакованное содержание архивных файлов NP> (поддерживается с десяток форматов) выводить на STDOUT. Мне было проще сделать на каждый формат архива свой файл. >> У меня пока просто извлекаются текстовые файлы на stdout, который и >> индексируется. NP> У меня ровно так же. Разве что текст иногда ещё и пропускается через NP> konwert any/ru-koi8r. Это хорошо работает почти для всех моих файлов Про это я даже не упоминаю, ибо это - по-умолчанию. NP> (предпочитаю держать тексты в архивах, ибо иначе бы они и в мои треть NP> терабайта не поместились, соответственно большинство моих архивов NP> содержит ровно один текстовый файл), хотя бывают и мелкие проблемы У меня, к сожалению, бОльшая часть архивов содержит намного более одного файла, потому наблюдаются некоторые проблемы. >> NP> Вот, например, поиск по djvu-книжкам: >> NP> 1000 /home/docs/Books/Computer Science/Artificial Intelligence/ >> NP> Tanimoto S.L. Elements of artificial intelligence.. >> NP> an introduction using LISP (1987)(T)(553s).djvu 7129538 >> В djvu был внедрен текст или производилось распознавание на лету? NP> Индексирование производилось по djvu-комментарию (djvutxt NP> файл.djvu|konwert utf8-koi8r). А вот в данном djvu-комментарии как раз и NP> лежит предварительно распознанное (либо полученное из какой электронной NP> версии документа) текстовое содержимое книги. Все бы неплохо, но где бы еще взять распознавалку русского текста под линукс... >>>> В glimpse можно, да неудобно. >> NP> Hеудобно чем? >> Там поиск осуществляется не только по индексу, но и по найденным в >> индексе файлам. Помимо уточнения поиска заодно и показывается найденная >> фраза. NP> Хм... А это может быть небесполезным. swish-e только ранк возвращает да NP> имя файла с его размером. Hайденную фразу было бы наверное неплохо NP> увидеть... Только glimpse еще и тормозит при этом неплохо, ибо заодно и файлы шерстит. И на Ctrl-C не реагирует (по-крайней мере, у меня). -- Stanislav --- tin/1.7.8-20050315 ("Scalpay") (UNIX) (Linux/2.6.14-1sarge-686 (i686)) * Origin: Blues, Yekaterinburg, Russia (2:5080/111) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/3218479ff72d.html, оценка из 5, голосов 10
|