Frozen Fido : RU.PERL : кодировки и частотный анализ

ru.perl

 
 - RU.PERL ----------------------------------------------------------------------
 From : alexander smishlajev                 2:5100/14.8    03 Feb 2001  11:54:14
 To : Ruslan Bondarev
 Subject : кодировки и частотный анализ
 --------------------------------------------------------------------------------

 
 friday february 02 2001, Ruslan Bondarev writes to All:
 
  RB> хочу изложить алгоритм, а вы меня поправьте, если где заблуждаюсь,
  RB> ась?
 
  RB>     Беру большой объем текста (сколько? 500Кб хватит?),
 
 я бы взял гигабайт-другой.  смесь из художественной литературы, технических
 текстов и новостей.
 
  RB> определяю частоту появления каждой буквы в процентах (с точностью
  RB> до какого знака достаточно?)
 
 по-моему, одного байта вполне достаточно.
 
  RB> и сохраняю этот хеш для каждой из кодировок.
 
 сохранять достаточно для одной.  остальные получаются перекодировкой.
 перекодировщик в этот момент должен быть под рукой, иначе какой вообще смысл в
 определении кодировки?
 
  RB> Далее, беру подопытный текст неизвестной кодировки. Прогоняю через
  RB> анализатор (весь? но не ведь если он большой - очень длинная
  RB> задержка на старте скрипта будет)
 
 можно брать понемногу, кил по десять, и успокаиваться, когда текст кончился или 
 когда наиболее вероятная кодировка сильно оторвалась от конкурирующих.
 
  RB> беру код самого часто встречающегося символа и сравниваю с кодом
  RB> самого встречающегося в каждой кодировке. (К примеру, это буква "о").
 
 я бы попытался изобрести какую-нибудь интегральную оценку применимости кодировки
 к тексту.  например: сумма (частота символа в тексте * место в таблице весов) по
 десяти наиболее часто встречающимся в тексте символам. принятие решения таким
 образом сводится к сравнению этих оценок.
 
 желаю здравствовать,
 alex.
 
 --- GoldED 3.0.1
  * Origin: кулеp к пню, котоpый пpистегивается на pадиатоp (2:5100/14.8)

Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор

Тема:	Автор:	Дата:
кодировки и частотный анализ	Ruslan Bondarev	02 Feb 2001 13:38:55
Re: кодировки и частотный анализ	Alexander Babanov	02 Feb 2001 10:56:26
Re: кодировки и частотный анализ	Pavel Kurnosoff	02 Feb 2001 20:59:33
Re: кодировки и частотный анализ	RockMover	03 Feb 2001 02:39:45
Re: кодировки и частотный анализ	Ruslan Bondarev	03 Feb 2001 13:01:06
кодировки и частотный анализ	alexander smishlajev	03 Feb 2001 11:54:14

Архивное /ru.perl/224353a7be36c.html, оценка 1 из 5, голосов 10