|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Alex Astafiev 2:5000/228.16 11 Apr 2002 14:07:24 To : Maxim Volkonovsky Subject : Лингвистический разбор --------------------------------------------------------------------------------
AC>> В некоторых случаях можно либо: 1. исключить и
AC>> прилагательные, глаголы и наречия, либо выделять не отдельные
AC>> слова, а словосочетания (2-4 слова). Hапример, у меня так:
AC>> строю частотный словарь, а затем выбираю 100 слов с максимальной
AC>> частотой, исключая слова из "стоп-словаря".
MV>
MV> Есть довольно интересная технология, описанная в американском патенте
MV> 5418951. Она позволяет сравнивать на семантическую "похожесть"
MV> произвольные тексты на произвольном языке без словаря.
Кстати, а у нас, случайно, не стали выдавать патенты на АЛГОРИТМЫ?
Или в России уже уже регистрируют?
Это я к тому, что есть у меня за пазухой один алгоритмик. Простой как
три копейки, строк 10 кода. Зато выполняет ту же роль, т.е. сравнивает текст
на похожесть, если алфавит, коненчно, одинаковый.
а что насчет сравнения энтропий текстов ?
вроде бы это настолько точно, что позволяет аж доподлинно установить автора
текста!
---
* Origin: Alex Raider/ Flash inc. 1992-2002 (2:5000/228.16)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/174643cb5a827.html, оценка из 5, голосов 10
|