|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Oleg Khovayko [SPAM trap - don't re 2:5020/400 31 May 2003 05:01:56 To : Alex Astafiev Subject : Re: Hечеткое сравнение строк --------------------------------------------------------------------------------
В моей подсистеме нечеткого поиска,
примененной в базах данных MeSH & Journals:
http://www.ncbi.nih.gov/entrez/query.fcgi?db=mesh
http://www.ncbi.nih.gov/entrez/query.fcgi?db=journals
используется метод триграмм.
Смысл метода -- похожие строки должны также иметь
похожие подстроки.
У меня строки разбиваются на подстроки длиной 3 "вперекрышку",
после чего критерием похожести является множество точного
совпадения подстрок.
Исходники моей fuzzy-байды и краткие комментарии к ней
можно найти на http://itman.narod.ru
Ищите описание метода Вилбура-Ховайко.
Работает мой fuzzy-подсистема довольно быстро: на
старом UltraSparcII, с 256mb ОЗУ и 220 MHZ
процессором, в словаре из 14 миллионов строк
находит 100 похожих и выводит список,
сортированый в порядке похожести, за 0.2 секунды.
Словарь, естественно, преиндексирован.
Индексация словаря - порядка 15 минут.
А насколько адекватно работает - судить Вам.
Идите на вышеуказаные URL-и, вводите в строку поиска
всякие слова или фразы, и смотрите "suggestions"...
--
#include <best/regards>
Oleg Khovayko http://olegh.spedia.net
PS/ATTN: Reply to reverted address net.comcast@olegh
--- ifmail v.2.15dev5
* Origin: http://www.ftc.gov/opa/2001/04/spam.htm (2:5020/400)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/5488c891eb1f.html, оценка из 5, голосов 10
|