|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : alexander smishlajev 2:5100/14.8 03 Feb 2001 11:54:14 To : Ruslan Bondarev Subject : кодировки и частотный анализ -------------------------------------------------------------------------------- friday february 02 2001, Ruslan Bondarev writes to All: RB> хочу изложить алгоритм, а вы меня поправьте, если где заблуждаюсь, RB> ась? RB> Беру большой объем текста (сколько? 500Кб хватит?), я бы взял гигабайт-другой. смесь из художественной литературы, технических текстов и новостей. RB> определяю частоту появления каждой буквы в процентах (с точностью RB> до какого знака достаточно?) по-моему, одного байта вполне достаточно. RB> и сохраняю этот хеш для каждой из кодировок. сохранять достаточно для одной. остальные получаются перекодировкой. перекодировщик в этот момент должен быть под рукой, иначе какой вообще смысл в определении кодировки? RB> Далее, беру подопытный текст неизвестной кодировки. Прогоняю через RB> анализатор (весь? но не ведь если он большой - очень длинная RB> задержка на старте скрипта будет) можно брать понемногу, кил по десять, и успокаиваться, когда текст кончился или когда наиболее вероятная кодировка сильно оторвалась от конкурирующих. RB> беру код самого часто встречающегося символа и сравниваю с кодом RB> самого встречающегося в каждой кодировке. (К примеру, это буква "о"). я бы попытался изобрести какую-нибудь интегральную оценку применимости кодировки к тексту. например: сумма (частота символа в тексте * место в таблице весов) по десяти наиболее часто встречающимся в тексте символам. принятие решения таким образом сводится к сравнению этих оценок. желаю здравствовать, alex. --- GoldED 3.0.1 * Origin: кулеp к пню, котоpый пpистегивается на pадиатоp (2:5100/14.8) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/224353a7be36c.html, оценка из 5, голосов 10
|