|
|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Michael Poliakov 2:5020/400 08 Feb 2001 20:35:50 To : All Subject : Re: кодировки, подождем твою мать -------------------------------------------------------------------------------- On Thu, 01 Feb 2001 14:00:52 +0300, Ruslan Bondarev <Ruslan.Bondarev@p65.f1.n4624.z2.fidonet.org> wrote: > Может это прозвучит странно, но мне хотелось бы узнать как цивилизованные >люди программно распознают кодировку. Методом частотного анализа, чтоль? (о: > Есть win, koi, dos, mac тексты. Hу, mac текстов, допустим, нет. Как? >Можно в общих чертах, можно ткнуть носом. Есть Cyrillic Suite на http://www.neystadt.org/cyrillic/ Там именно частотным анализом распознается, модулем Lingua::DetectCharset. А затем перекодируется модулем Convert::Cyrillic. Эти модули самые распространенные, но староваты, требуют еще нескольких модулей и на что-то в них ругается perl -w. По-моему, у Константина Токаря (http://www.mpei.ac.ru/tokar), который ответил рядом, тоже есть что-то в этом роде, модули cyr_detect и cyr_convert. Hо с ними я разобрался позже, чем с нойштадтовскими, а посему не применял. Да, частотные таблицы есть и там, и там. Michael Poliakov --- ifmail v.2.15dev5 * Origin: Nizhniny Novgorod Information Networks (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/2080412336a5.html, оценка из 5, голосов 10
|