|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Maxim Volkonovsky 2:5020/982.299 10 Apr 2002 19:37:44 To : Alexander Chelmodeev Subject : Re: Лингвистический разбор --------------------------------------------------------------------------------
Wednesday April 10 2002 11:05, Alexander Chelmodeev (2:5062/17.5@fidonet) wrote
to Maxim Volkonovsky:
MV>> Есть довольно интересная технология, описанная в американском патенте
MV>> 5418951. Она позволяет сравнивать на семантическую "похожесть"
MV>> произвольные тексты на произвольном языке без словаря.
AC> А вкратце не можешь рассказать?
Вкратце: из текста выкидываются все не-буквы, он разбивается на
последовательность "н-грамм" с шагом в одну букву, и по этим "н-граммам"
вычисляется нормированная статистика распределения. Утверждается, что для
семантически похожих текстов эта статистика также будет похожа.
Метод очень быстрый, но реально, на мой взгляд, годится только для
предварительной оценки, поскольку практически отсутствует возможность уточнения
характеристики похожести.
Сам патент легко получается на:
http://patft.uspto.gov/netahtml/srchnum.htm
только нужно иметь браузер или плагин, поддерживающий компрессированный TIFF,
поскольку патенты там хранятся в виде сканов страниц.
Best wishes ! Max (aka MaxWolf)
--- GoldED+/W32 1.1.4.7
* Origin: MaxWolf's mobile station (2:5020/982.299)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/47623cb45eeb.html, оценка из 5, голосов 10
|