Главная страница


ru.perl

 
 - RU.PERL ----------------------------------------------------------------------
 From : Alexei Rudenko                       2:5020/400     02 Dec 2002  01:58:51
 To : All
 Subject : Hовый модуль Lingua::DetectCyrillic
 -------------------------------------------------------------------------------- 
 
 Друзья! Только что выгрузил на CPAN стабильную версию модуля
 Lingua::DetectCyrillic. Он определяет все "живые" кириллические кодировки и
 язык - русский или украинский. Принципиальное отличие от всех остальных
 подобных модулей - он сделан с учетом реальных, а не абстрактных, русских
 кодировок, поэтому он может различать такие близкие кодировки, как win1251 и
 mac-cyrillic, часто - с  одного слова. Загрузить модуль, а также
 протестировать его в онлайне можно по адресу:
 
     http://www.bible.ru/DetectCyrillic/
 
 Hужно ваше мнение, пожелания и дополнения.
 
 Алексей Руденко
 ********* Из аннотации ************
 Данный пакет позволяет определить автоматически все "живые" кодировки
 кириллицы - windows-1251, koi8-r, koi8-u, iso-8859-5, utf-8, cp866,
 x-mac-cyrillic, а также язык -  Русский или Украинский. Он применяет 3
 алгоритма для определения: формальный анализ попадания в алфавит, частотный
 анализ слов и частотный анализ 2-буквенных сочетаний.
 
 Пакет также имеет процедуры для конвертирования различных кодировок
 кириллических текстов, которые можно при необходимости импортировать.
 
 Пакет позволяет определить кодировку с одного-двух слов. Естественно, в
 случае одного слова надежность будет низкой, особенно если все слово
 написано строчными или прописными буквами, так как анализ капитализации слов
 является важным моментом при определении кодировки. Тем не менее пакет
 корректно распознает кодировку сообщений, состоящих из одного слова, даже
 строчными буквами - "привет", "иван", "водка", "спутник". ;-)))
 
 Украинский язык будет определен, только если в тексте имеются специфичные
 украинские буквы.
 
 Производительность довольно неплохая, т.к. анализ проходит две фазы: на
 первой производится только быстрый формальный анализ правильности
 капитализации и выхода за пределы алфавита, и только если этого
 недостаточно,  данные анализируются повторно - по частотным словарям.
 --- ifmail v.2.15dev5
  * Origin: MTU-Intel ISP (2:5020/400)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Hовый модуль Lingua::DetectCyrillic   Alexei Rudenko   02 Dec 2002 01:58:51 
Архивное /ru.perl/9104a033456a.html, оценка 1 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional