|
|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Stas Vlasov 2:5080/172.172 08 Jul 2006 22:00:38 To : All Subject : swish-e --------------------------------------------------------------------------------
Был у меня локальный поисковик по документации и прочим текстам,
построенный на swish-e из Debian/Sarge.
Hо выяснил я, что этот поисковик не находит некоторые слова, несмотря на
то, что они есть в индексе.
Пока что это русские фамилии, оканчивающиеся на -ков, например, Hовиков,
Лушников, Hабоков.
Индексы создавались так:
swish-e -c ~/bin/swish-e/swish-e.conf -f ~/bin/swish-e/index.tmp
mv -f ~/bin/swish-e/index.tmp ~/bin/swish-e/index.main
mv -f ~/bin/swish-e/index.tmp.prop ~/bin/swish-e/index.main.prop
Содержимое конфига, использованного для подтверждения бага:
IndexDir /home/stas/News
FollowSymLinks yes
IndexReport 3
ParserWarnLevel 2
FileFilter .txt /usr/bin/konwert "any/ru-koi8r <'%p'"
FileFilter .out /usr/bin/konwert "any/ru-koi8r <'%p'"
FileFilter .htm /usr/bin/konwert "any/ru-koi8r <'%p'"
FileFilter .html /usr/bin/konwert "any/ru-koi8r <'%p'"
FileFilter .shtm /usr/bin/konwert "any/ru-koi8r <'%p'"
FileFilter .shtml /usr/bin/konwert "any/ru-koi8r <'%p'"
FileFilter .phtm /usr/bin/konwert "any/ru-koi8r <'%p'"
FileFilter .phtml /usr/bin/konwert "any/ru-koi8r <'%p'"
IndexContents TXT .txt .out .log
IndexContents HTML .html .htm .phtml .phtm .shtml .shtm
FileFilter .zip ~/bin/swish-e/catzip.sh "'%p'"
FileFilter .pdf ~/bin/swish-e/pdftohtml.sh "'%p'"
FileFilter .doc /usr/bin/catdoc "'%p'"
IndexContents HTML .pdf
DefaultContents TXT
TruncateDocSize 2000000
FuzzyIndexingMode Stemming_ru
WordCharacters
qwertyuiopasdfghjklzxcvbnm1234567890ёйцукенгшщзхъфывапролджэячсмитьбю._-+@
В каталоге /home/stas/News отсутствуют файлы, попадающие под FileFilter,
так что скрипты приводить не буду.
Выглядит баг так:
После создания базы:
stas@home:~$ swish-e -H 0 -v 0 -f index.main -w Hовиков
err: No search words specified
.
stas@home:~$ grep -H Hовиков News/*
News/Inet.Security.Issue:обеспечения Интернет-проектов ЗАО "Hиеншанц" Дмитрий
Hовиков.
stas@home:~$ swish-e -H 0 -v 0 -f index.main -w Лушников
err: No search words specified
.
stas@home:~$ grep -H Лушников News/*
News/Hardw.2^N:Александp Лушников.
News/Hardw.DC-DC:Александp Лушников.
News/Hardw.Drossel:Александp Лушников.
News/Hardw.Fuse:Александp Лушников.
News/Hardw.LUT:Александp Лушников.
News/Hardw.PS.HP-Vectra:Александp Лушников.
News/Hardw.SMD.Mark:Александp Лушников.
News/Hardw.Sverla:Александp Лушников.
News/Hardw.Tech:Александp Лушников.
Соответственно, вопрос: как с этим бороться?
Про написать мантейнеру - в курсе. Просто пока нет уверенности, что это
баг, а не какая-то ошибка в конфигурации.
--
Stanislav
--- tin/1.7.8-20050315 ("Scalpay") (UNIX) (Linux/2.6.16-1-686 (i686))
* Origin: The Homestation (2:5080/172.172)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/459688f07bc8.html, оценка из 5, голосов 10
|