|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Sasha Breger 2:5066/196.64 17 Jul 2001 17:59:37 To : Vasily Shmelev Subject : Однозначное определение кодировки? -------------------------------------------------------------------------------- Понедельник Июль 16 2001 23:22, Vasily Shmelev писал PA: P>> А как однозначно определить текст в KOI8 или P>> Win кодировке? Символы лежат в одном диапазоне: P>> 192-255. VS> Ммм... Hу, я думаю, что для не очень маленьких текстов можно VS> попробовать так (пришло в голову): в русских текстах наиболее часто VS> встречается буква "а" или "о". Таким образом, подсчитываем число VS> буковок, берем самую используемую и сравниваем с эталоном. А уж VS> кодировку определить так не проблема. Есть программка code_auto_detect, написанная на perl (http://www.mts-nn.ru/~gosha/perl-scripts/code_auto_detect/ файл code_auto_detect.tgz 3кб) Она как раз определяет кодировку. Она переводит текст в тестируемую кодировку и ищет в нем эти двухбуквенные сочетания. в какой кодировке больше, в той и текст. Работает даже на довольно маленьких текстах. ---Run Windows Clipboard--- ть ий ый ат ст ва ны ся ра ро ов ши ен по ит ре ни ка пр ос ив ер вш ан ьс ри ав нн щи ор за во на ко от но ол ле те од ли ти ло вы ск то ес ел ющ ль та ас об тр ет ве йс он ал ин не ар ир ис ие ла ки ик пе аз ме до че аю де ок ев оп чи ом со ви ем ма мо ут ед ди го па ыв из ог ру да ад ну сп кр тв ич ты ят бе ак ля ми га оз бо ьн ек гр оч пи си ам пл бр ча се жи ез сл им ап ия мы нт ус ци тн же ба са ку би ил ой еп ож ур ря аг кл аб зн дн бл рн чн вл ач ту ня зо жа ше це еч ги аж ей хо ры тс уп зи зв лу уд сн ид ша ул сс др иц ио вн уч ег св ду пу гл рт ще уб ае ум ув зд иг кт ца уш су еж лю тк нь бу см ха ыс ох ье му лы ук фи вс зм вк уж ац ящ нс дв нк ип сы еб ах ян ую еш аш ош гн ец мн яв уг ун рм чк ои ща фо нд рк жд рс ыт яю тя ое вр сь ео лк гу ды жн ып зы зр иб хи вя ащ ух дс зе ге зл ыр рг шк оо хл вз чу ык кс ех аф кн тл зу рд лл ущ зг ву их дк ыл иа зб ыш яз рв нц ья нч ай ьк уз яд ищ оф рж фа пы иж ещ шл аи йн хр хн бн яс фе вт рь мп иф бы шн чь оя йш ощ мл ке дл кв яг лн пт ее сч мя пя дя рш оу иш хв рч ьт ыг яж нг сх ют йк пн ср цо еи ых ъе оц ыд рб чо ын эк яч вп як юб ям дп сц бс шт уе ым рх юч ая ыч сш тч ея ау ыб вд фр дч тп мб яе еф зж шь еу дь щу яр тм ыз жу рп мм еа мк сб жо кц жк ьм зя рл тт эл шу зк ях лт рю пс рз фл сг ху пь бщ уа чт дм юр юд шо тд хт рр бм нф пп вь ою ею ью рц дц фу дж тб ъя дш бъ йт хм бк вм лз йм ьц ыж сд бв дт яц сф юн нз вв пч тю эт йд вч зь ьз цв лг дг ьш пк ял бь зъ яб мс бя юк кк лд лч вщ рщ лб мр иу шп зт дд жг жь жм юс дб эр фт оа юм ню ьщ тг ьч юз бд уи лж жж мч ьд кш нв шв лс яп бж щн оэ дз яй уф ао рф ыщ эп юх уй хс ьи юл дю эм съ юш эн чл бт йч цк эс сж тш гч цы вц мь уя зз аэ нщ нж гш гм ьв ьб йц гв мф гк хш ии зш зч хе лв дъ бх бю юж фф йл уц вб жр кз вг тх нш шм сю ьг нр тщ ьо лм тц бц юг уо нх лп чр ьф бч бб хч яш ию гс ыя мц бз юц йо пц эв дх бш хк фс фм пш чм мщ гд хг фн въ эф тз тъ бг щр хп жб чш мв ые вх чв ьп юй йр цу вж тф йб ыц жл мт тж йщ йф уэ шю зю яи мг юп ъю фы ыу ыи мш ---Eof Windows Clipboard--- (с) Okunev Igor. E-mail : igor@prv.mts-nn.ru Sasha, <sbreg\0x40bigfoot.com> --- ГолДед+1.1.4.7 * Origin: Я не сплю с утками. И с курами тоже не сплю (2:5066/196.64) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/240983b5448d1.html, оценка из 5, голосов 10
|