|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Nikolay Panov 2:5020/400 13 Sep 2005 19:40:56 To : All Subject : Hормализация текста. -------------------------------------------------------------------------------- Приветствую, Занимаюсь написанием web-агента. Первая проблема с которой я, к своему глубокому удивлению столкнулся, это базовая операция над текстом: нормализация. Под этим термином я понимаю: 1. во первых это приведение текста к некоторому упрощённому виду, что включает в себя удаление слов-паразитов, замена числительных на цифры и так далее. 2. во вторых -- приведение словоформы к базовому виду в котором слова "слово", "слова", "словами" и так далее суть единый идентификатор. Был уверен, что уж где-где, а для perl такое должно быть под любой язык почти. Увы -- найдено только Text-Normalize-NACO (что по идее должно уметь отчасти первое) :o( Может я плохо смотрел? Hаправьте, просветите! Желательно именно автономное (независимое от всяких ispell) perl-решение, хотя если таковых не существует, то на первых порах сойдёт и не автономное -- придётся писать автономку самостоятельно... -- ...Я - часть той силы, что вечно хочет спать и вечно ходит на работу... --- ifmail v.2.15dev5.3 * Origin: Арзамас. Hижегородская. Россия. Земля. Солнечная. Млеч (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/65776dbc4599.html, оценка из 5, голосов 10
|