Главная страница


ru.algorithms

 
 - RU.ALGORITHMS ----------------------------------------------------------------
 From : Sasha Breger                         2:5066/196.64  17 Jul 2001  17:59:37
 To : Vasily Shmelev
 Subject : Однозначное определение кодировки?
 -------------------------------------------------------------------------------- 
 
 Понедельник Июль 16 2001 23:22, Vasily Shmelev писал PA:
 
  P>> А как однозначно определить текст в KOI8 или
  P>> Win кодировке? Символы лежат в одном диапазоне:
  P>> 192-255.
  VS>     Ммм... Hу, я думаю, что для не очень маленьких текстов можно
  VS> попробовать так (пришло в голову): в русских текстах наиболее часто
  VS> встречается буква "а" или "о". Таким образом, подсчитываем число
  VS> буковок, берем самую используемую и сравниваем с эталоном. А уж
  VS> кодировку определить так не проблема.
 
 Есть программка code_auto_detect, написанная на perl
 (http://www.mts-nn.ru/~gosha/perl-scripts/code_auto_detect/
 файл code_auto_detect.tgz 3кб) Она как раз определяет кодировку.
 Она переводит текст в тестируемую кодировку и ищет в нем эти двухбуквенные
 сочетания. в какой кодировке больше, в той и текст. Работает даже на довольно
 маленьких текстах.
 
 ---Run Windows Clipboard---
 ть ий ый ат ст ва ны ся ра ро ов ши ен по ит ре ни ка пр ос ив ер вш ан ьс ри ав
 нн щи ор за во на ко от но ол ле те од ли ти ло вы ск то ес ел ющ ль та ас об тр
 ет ве йс он ал ин не ар ир ис ие ла ки ик пе аз ме до че аю де ок ев оп чи ом со
 ви ем ма мо ут ед ди го па ыв из ог ру да ад ну сп кр тв ич ты ят бе ак ля ми га
 оз бо ьн ек гр оч пи си ам пл бр ча се жи ез сл им ап ия мы нт ус ци тн же ба са
 ку би ил ой еп ож ур ря аг кл аб зн дн бл рн чн вл ач ту ня зо жа ше це еч ги аж
 ей хо ры тс уп зи зв лу уд сн ид ша ул сс др иц ио вн уч ег св ду пу гл рт ще уб
 ае ум ув зд иг кт ца уш су еж лю тк нь бу см ха ыс ох ье му лы ук фи вс зм вк уж
 ац ящ нс дв нк ип сы еб ах ян ую еш аш ош гн ец мн яв уг ун рм чк ои ща фо нд рк
 жд рс ыт яю тя ое вр сь ео лк гу ды жн ып зы зр иб хи вя ащ ух дс зе ге зл ыр рг
 шк оо хл вз чу ык кс ех аф кн тл зу рд лл ущ зг ву их дк ыл иа зб ыш яз рв нц ья
 нч ай ьк уз яд ищ оф рж фа пы иж ещ шл аи йн хр хн бн яс фе вт рь мп иф бы шн чь
 оя йш ощ мл ке дл кв яг лн пт ее сч мя пя дя рш оу иш хв рч ьт ыг яж нг сх ют йк
 пн ср цо еи ых ъе оц ыд рб чо ын эк яч вп як юб ям дп сц бс шт уе ым рх юч ая ыч
 сш тч ея ау ыб вд фр дч тп мб яе еф зж шь еу дь щу яр тм ыз жу рп мм еа мк сб жо
 кц жк ьм зя рл тт эл шу зк ях лт рю пс рз фл сг ху пь бщ уа чт дм юр юд шо тд хт
 рр бм нф пп вь ою ею ью рц дц фу дж тб ъя дш бъ йт хм бк вм лз йм ьц ыж сд бв дт
 яц сф юн нз вв пч тю эт йд вч зь ьз цв лг дг ьш пк ял бь зъ яб мс бя юк кк лд лч
 вщ рщ лб мр иу шп зт дд жг жь жм юс дб эр фт оа юм ню ьщ тг ьч юз бд уи лж жж мч
 ьд кш нв шв лс яп бж щн оэ дз яй уф ао рф ыщ эп юх уй хс ьи юл дю эм съ юш эн чл
 бт йч цк эс сж тш гч цы вц мь уя зз аэ нщ нж гш гм ьв ьб йц гв мф гк хш ии зш зч
 хе лв дъ бх бю юж фф йл уц вб жр кз вг тх нш шм сю ьг нр тщ ьо лм тц бц юг уо нх
 лп чр ьф бч бб хч яш ию гс ыя мц бз юц йо пц эв дх бш хк фс фм пш чм мщ гд хг фн
 въ эф тз тъ бг щр хп жб чш мв ые вх чв ьп юй йр цу вж тф йб ыц жл мт тж йщ йф уэ
 шю зю яи мг юп ъю фы ыу ыи мш
 ---Eof Windows Clipboard---
 
 (с) Okunev Igor. E-mail : igor@prv.mts-nn.ru
 
  Sasha, <sbreg\0x40bigfoot.com>
 --- ГолДед+1.1.4.7
  * Origin: Я не сплю с утками. И с курами тоже не сплю (2:5066/196.64)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Однозначное определение кодировки?   PA   16 Jul 2001 19:09:08 
 Re: Однозначное определение кодировки?   Vasily Shmelev   16 Jul 2001 23:22:15 
 Однозначное определение кодировки?   Sasha Breger   17 Jul 2001 17:59:37 
 Однозначное определение кодировки?   Sergey Andrianov   09 Aug 2001 21:52:29 
Архивное /ru.algorithms/240983b5448d1.html, оценка 1 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional