|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Maxim Plaksin 2:468/57.113 18 Jul 2001 23:41:53 To : Andrew Konovalov Subject : частота встpечаемости слов в тексте --------------------------------------------------------------------------------
Однажды 24 Aug 37 в 02:44, Andrew Konovalov писал к All:
AK> Вот сyбж pешил написать. Сделал нечто пpимитивное, а хочется, чтобы
AK> оно и окончания всякие yсваивала. Т.е. если встpетилось "pyчей" 3 pаза и
AK> "pyчья" 2 pаза, то пога должна сказать, что "pyчей" 5 pаз. Что
AK> посоветyете?
сначала делаешь "примитивный" анализ, составляешь таблицу встречаемостей
<слово> <количество раз>
после этого запускаешь процедуру анализа схожести слов (при этом, можно у
пользователя запрашивать подтверждения на слияние двух похожих) и строишь новую
таблицу, но уже с данными об обобщенных словах.
как сравнивать два слова на схожесть - задача не сложная (расчет разности
квадратов, или другие извраты), но что бы она работала как надо - прийдется
помучаться. тут надо учесть, что слова могут быть написаны с ошибками, т.е.
опечатки или лишние повторения сочетаний букв, либо буквы поменяли местами.
тут можно было бы использовать элементы нечеткой логики, например, нейронную
сеть, которая будет обучаться различать/обобщать слова, но это уже другой
вопрос...
bYe..
---
* Origin: Люблю экстрeмальный спорт - серфинг в net-mail'e... (2:468/57.113)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/160783b56205b.html, оценка из 5, голосов 10
|