Главная страница


ru.perl

 
 - RU.PERL ----------------------------------------------------------------------
 From : alexander smishlajev                 2:5100/14.8    03 Feb 2001  11:54:14
 To : Ruslan Bondarev
 Subject : кодировки и частотный анализ
 -------------------------------------------------------------------------------- 
 
 
 friday february 02 2001, Ruslan Bondarev writes to All:
 
  RB> хочу изложить алгоритм, а вы меня поправьте, если где заблуждаюсь,
  RB> ась?
 
  RB>     Беру большой объем текста (сколько? 500Кб хватит?),
 
 я бы взял гигабайт-другой.  смесь из художественной литературы, технических
 текстов и новостей.
 
  RB> определяю частоту появления каждой буквы в процентах (с точностью
  RB> до какого знака достаточно?)
 
 по-моему, одного байта вполне достаточно.
 
  RB> и сохраняю этот хеш для каждой из кодировок.
 
 сохранять достаточно для одной.  остальные получаются перекодировкой.
 перекодировщик в этот момент должен быть под рукой, иначе какой вообще смысл в
 определении кодировки?
 
  RB> Далее, беру подопытный текст неизвестной кодировки. Прогоняю через
  RB> анализатор (весь? но не ведь если он большой - очень длинная
  RB> задержка на старте скрипта будет)
 
 можно брать понемногу, кил по десять, и успокаиваться, когда текст кончился или 
 когда наиболее вероятная кодировка сильно оторвалась от конкурирующих.
 
  RB> беру код самого часто встречающегося символа и сравниваю с кодом
  RB> самого встречающегося в каждой кодировке. (К примеру, это буква "о").
 
 я бы попытался изобрести какую-нибудь интегральную оценку применимости кодировки
 к тексту.  например: сумма (частота символа в тексте * место в таблице весов) по
 десяти наиболее часто встречающимся в тексте символам. принятие решения таким
 образом сводится к сравнению этих оценок.
 
 желаю здравствовать,
 alex.
 
 --- GoldED 3.0.1
  * Origin: кулеp к пню, котоpый пpистегивается на pадиатоp (2:5100/14.8)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 кодировки и частотный анализ   Ruslan Bondarev   02 Feb 2001 13:38:55 
 Re: кодировки и частотный анализ   Alexander Babanov   02 Feb 2001 10:56:26 
 Re: кодировки и частотный анализ   Pavel Kurnosoff   02 Feb 2001 20:59:33 
 Re: кодировки и частотный анализ   RockMover   03 Feb 2001 02:39:45 
 Re: кодировки и частотный анализ   Ruslan Bondarev   03 Feb 2001 13:01:06 
 кодировки и частотный анализ   alexander smishlajev   03 Feb 2001 11:54:14 
Архивное /ru.perl/224353a7be36c.html, оценка 1 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional