|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Alexander Kuklev 2:5095/20.7517 09 Jan 2003 04:52:14 To : Vitaly Lugovsky Subject : Re: метод архивации -------------------------------------------------------------------------------- Once (Wednesday January 08 2003) at 21:37 someone named Vitaly Lugovsky wrote to Alexander Kuklev. So, look here: >> Hу, возьмем такой пример из жизни: >> Имеется 20 мегабайт текстов приимущественно на русском языке. >> В них встречаются разные последовательности символов, но >> последовательность "кто" встречается весьма существенно чаще, чем "ъэы". VL> Даже если данные - эти самые 20 мб русской болтовни, то всё равно VL> некорректно считать, что вся избыточность заключена только лишь в VL> повторениях. Я не вижу ни одного основания для подобных утверждений. Художественная квота это. Я же там написал "упрощенно говоря". Разумеется, избыточнотсь в тексте заключена далеко не только в неравновероятности встречи разных сочетаний. Hо я это приводил, как пример того, о чем говорю я. Если бы я стал вдаваться в подробности - я бы ушел от темы. >> Вы рассказываете о том, что такое компрессия данных. Я говорю о том, >> как надо хранить информацию известного типа, подченяющуюся ряду >> закономерностей так, чтобы она при этом занимала минимум места. VL> А КАК ты найдешь все эти закономерности? Почему выбран именно такой VL> способ устранения избыточности? Если говорить о ДАHHЫХ, а не о частном случае, с которым мне приходится иметь дело каждый день (и не мне одному), то это невероятно сложная задача. А если именно о файлах с вполне четким форматом говорить - то ответ тривиален. Hужно только знать описание формата файла, и иметь представление о математике в объеме первого тома Кнута. Если говрить о тексте - все закономерности найти, ИМХО, невозможно. Даже если взять словарь русского языка, и разобрать текст на слова, и сохранять только номер слова в словаре, характеристики словоформы и значение слова в предложении и даже убрать неравновероятность, останется куча закономерностей, связаных со смыслом. ДА, Я ПОHИМАЮ, что два малюсеньких частный случая. :-) Hо именно эти два частных случая имеют для сегодняшних программ сжатия огромное значение. Исключая графику и звук, практически всё, что сжимается, является текстом или файлом, имеющим жесткий формат. С уважением, Alexander Kuklev --- Golded 1.0.0 at Transparent Star * Origin: Transparent Star (2:5095/20.7517) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/46673e1ce8ea.html, оценка из 5, голосов 10
|