Главная страница


ru.linux

 
 - RU.LINUX ---------------------------------------------------------------------
 From : Stas Vlasov                          2:5080/172.172 08 Jul 2006  22:00:38
 To : All
 Subject : swish-e
 -------------------------------------------------------------------------------- 
 
 
 Был у меня локальный поисковик по документации и прочим текстам,
 построенный на swish-e из Debian/Sarge.
 
 Hо выяснил я, что этот поисковик не находит некоторые слова, несмотря на
 то, что они есть в индексе.
 Пока что это русские фамилии, оканчивающиеся на -ков, например, Hовиков,
 Лушников, Hабоков.
 
 Индексы создавались так:
 
 swish-e -c ~/bin/swish-e/swish-e.conf -f ~/bin/swish-e/index.tmp 
 mv -f ~/bin/swish-e/index.tmp ~/bin/swish-e/index.main 
 mv -f ~/bin/swish-e/index.tmp.prop ~/bin/swish-e/index.main.prop 
 
 Содержимое конфига, использованного для подтверждения бага:
 
 IndexDir /home/stas/News 
 FollowSymLinks yes
 IndexReport 3                                                                   
 
 ParserWarnLevel 2                                                               
 
 FileFilter  .txt   /usr/bin/konwert "any/ru-koi8r <'%p'"                        
 
 FileFilter  .out   /usr/bin/konwert "any/ru-koi8r <'%p'"                        
 
 FileFilter  .htm   /usr/bin/konwert "any/ru-koi8r <'%p'"                        
 
 FileFilter  .html  /usr/bin/konwert "any/ru-koi8r <'%p'"                        
 
 FileFilter  .shtm   /usr/bin/konwert "any/ru-koi8r <'%p'"                       
 
 FileFilter  .shtml  /usr/bin/konwert "any/ru-koi8r <'%p'"                       
 
 FileFilter  .phtm   /usr/bin/konwert "any/ru-koi8r <'%p'"                       
 
 FileFilter  .phtml  /usr/bin/konwert "any/ru-koi8r <'%p'"                       
 
 IndexContents TXT .txt .out .log                                                
 
 IndexContents HTML .html .htm .phtml .phtm .shtml .shtm                         
 
                                                                                 
 
 FileFilter  .zip   ~/bin/swish-e/catzip.sh "'%p'"                               
 
 FileFilter  .pdf   ~/bin/swish-e/pdftohtml.sh "'%p'"                            
 
 FileFilter  .doc   /usr/bin/catdoc "'%p'"                                       
 
 IndexContents HTML .pdf                                                         
 
                                                                                 
 
 DefaultContents TXT                                                             
 
 TruncateDocSize 2000000                                                         
 
 FuzzyIndexingMode Stemming_ru                                                   
 
 WordCharacters
 qwertyuiopasdfghjklzxcvbnm1234567890ёйцукенгшщзхъфывапролджэячсмитьбю._-+@
 
 В каталоге /home/stas/News отсутствуют файлы, попадающие под FileFilter,
 так что скрипты приводить не буду.
 
 Выглядит баг так:
 
 После создания базы:
 stas@home:~$ swish-e -H 0 -v 0 -f index.main -w Hовиков
 err: No search words specified
 .
 stas@home:~$ grep -H Hовиков News/*
 News/Inet.Security.Issue:обеспечения Интернет-проектов ЗАО "Hиеншанц" Дмитрий
 Hовиков.
 stas@home:~$ swish-e -H 0 -v 0 -f index.main -w Лушников
 err: No search words specified
 .
 stas@home:~$ grep -H Лушников News/*
 News/Hardw.2^N:Александp Лушников.
 News/Hardw.DC-DC:Александp Лушников.
 News/Hardw.Drossel:Александp Лушников.
 News/Hardw.Fuse:Александp Лушников.
 News/Hardw.LUT:Александp Лушников.
 News/Hardw.PS.HP-Vectra:Александp Лушников.
 News/Hardw.SMD.Mark:Александp Лушников.
 News/Hardw.Sverla:Александp Лушников.
 News/Hardw.Tech:Александp Лушников.
 
 Соответственно, вопрос: как с этим бороться?
 Про написать мантейнеру - в курсе. Просто пока нет уверенности, что это
 баг, а не какая-то ошибка в конфигурации.
 
 -- 
 Stanislav
 --- tin/1.7.8-20050315 ("Scalpay") (UNIX) (Linux/2.6.16-1-686 (i686))
  * Origin: The Homestation (2:5080/172.172)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 swish-e   Stas Vlasov   08 Jul 2006 22:00:38 
 Re: swish-e   Nikolay Panov   12 Jul 2006 14:13:24 
 Re: swish-e   Stas Vlasov   13 Jul 2006 19:46:35 
 Re: swish-e   Nikolay Panov   17 Jul 2006 18:53:22 
 Re: swish-e   Stas Vlasov   18 Jul 2006 21:48:21 
Архивное /ru.linux/459688f07bc8.html, оценка 2 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional