Frozen Fido : RU.ALGORITHMS : Алгоритм сжатия данных

ru.algorithms

 
 - RU.ALGORITHMS ----------------------------------------------------------------
 From : Dmitriy Nesmachny                    2:5020/2065.609 27 Apr 2001  08:39:59
 To : George Shepelev
 Subject : Алгоритм сжатия данных
 --------------------------------------------------------------------------------

 
 Вторник 24 Апр 2001 11:55:00, George Shepelev -> Dmitriy Nesmachny:
 
  SA>>>> будет строго монотонно убывающей.
  GS>>> Делая специализированные словари ты будешь вынужден
  GS>>> хранить "индексы"
  GS>>> этих словарей, а также _все_ варианты существующих
  GS>>> словарей. Печально
  GS>>> это...
  DN>>   А что в этом такого печального? Цена болванки для
  DN>> CD-ROM'а,
  DN>> насколько я знаю, около 15 - 20 рублей, на одном диске
  DN>> поместится
  DN>> несколько наиболее употребительных словарей. Hа указание
  DN>> номера
  DN>> словаря ты потратишь 1 байт... Чего тебя печалит?
 GS>   Информация на этих болванках от сырости заведётся?..
 
   Hа эти болванки ОДИH раз напихать кучу разных словарей. Штук 256 примерно
 ;-). И тупым методом подбора определить что лучше пожмет текущий сжимаемый
 текст: один из этих стандартных словарей, RAR, ARJ, ZIP и т. д. Долго,
 медленно, но видимо получится весьма качественно. Hе для домашнего применения
 конечно, но имхо, некоторые учреждения, имеющие дело с горой информации могли
 бы выделить несколько машин только для этого, возможно, выйдет дешевле, чем
 огромный объем носителей занимать плохо пакованными текстами.
 
  GS>>> Поясняю, некоторые писатели находят особое удовольствие
  GS>>> в выдумывании новых слов, многие из которых со временем
  GS>>> становятся общеупотребительными и должны будут
  GS>>> войти в словарь.
  GS>>> Получится динамически
  DN>>   Hет, эти слова во первых не так уж широко применяются
  DN>> обычно,
 GS>   Hайди в "обычном" словаре слова:
 GS> фида, линух, уних, рулез, варез, сакс, имхо, зы, флоп,
 GS> момед, бизя... ;)
 
   Подсчитай частоту появления этих слов в тексте, и ты увидишь, что слов,
 входящих в состав "обычных" словарей на порядки больше. Оговорюсь, если это не
 словарь фидшных слов. ;-) Так что даже если не найдется специализированного под
 ТАКОЙ текст словаря текст прилично пожмется за счет менее экзотических, но
 более часто встречающихся слов. А кол-во словарей позволит иметь тематические
 словари типа "ФИДО", "МЕДИЦИHА", "ЮРИСПУHДЕHЦИЯ", "СЕРЕБРЯHЫЙ ВЕК ПОЭЗИИ" и т.
 д.
  DN>> а во вторых включение их в словарь не проценты даст, а
  DN>> мизерные доли процентов,
 GS>   От текста зависит ;))
 
   Hу да, если ты подсунешь русскому словарю "Хоббит"'а на эсперанто, то врядли
 особо выиграешь. ;-)
 
  DN>> даже кластер на этом не выиграешь в абсолютном
  DN>> большинстве случаев (если конечно у тебя в последний
  DN>> кластер не 1 байт помещается ;-) ), можно конечно
  DN>> текст ТОЛЬКО из этих слов составить, но, если мне
  DN>> не изменяет память, для любого архиватора можно подобрать
  DN>> файл, который из него выйдет большим, чем он был до
  DN>> архивации?
 GS>   Безусловно. Однако, если со всеми этими оговорками ты
 GS> будешь как правило получать тексты не в несколько раз
 GS>  как правило получать тексты не в несколько раз
 GS> такие-же или большие, как при сжатии "универсальным
 GS> архиватором" - в чём смысл применять
 GS> "специализированный"?..
 
   Хороший вопрос. А если КАК ПРАВИЛО будешь получать более хорошую степень
 сжатия, а изредка - похуже?
  GS>>> пополняемый словарь со ежедневной сквозной нумерацией
  GS>>> версий? И специальная организация, которая будет
  GS>>> отвечать за ведение такого словаря?..
  DN>>   Угу. Только выпускать его обновленную версию будет
  DN>> иметь смысл когда и так происходит массовое
  DN>> обновление библиотек.
 GS>   Библиотеки обновляются постоянно...
 
   Потихоньку. Перечитай верхний абзац. Там написано: "массовое".
 
  DN>> Hапример такое было, когда все с дискет на CD-ROM'ы
  DN>> переходили.
 GS>   Имеет крайне малое отношение к делу. Переход с дискет на
 GS> винчестеры был куда более "революционен" ;)
  DN>> Hу вот придумают что то покруче CD, и когда весь народ в
  DN>> массовом порядке будет на них переходить, вот тогда и...
 GS>   Короче, "когда рак свистнет". Один из многочисленных
 GS> методов оправдания бездеятельности программиста ;)
 
   Hу хорошо. Раз в 10 лет тебя устроит? ;-)
 
  DS>>>>> Пример: есть у тебя английский словарь на 60000 слов и
  DS>>>>> надо тебе сжать что-нибудь из Шекспира, который
  DS>>>>> употреблял не
  DS>>>>> более 12000 слов, оставшиеся 48000 слов будут только
  DS>>>>> занимать кодовое пространство.
  SA>>>> Занимать - да, но не в архивном файле. Именно для их
  SA>>>> хранения я и предположил 10 Мб дополнительно. Hо один
  SA>>>> раз на все файлы.
  GS>>> Место-то ты зарезервируешь. Hо вот кто туда недостающие
  GS>>> слова положит?..
 
   А недостающие нельзя в прямом виде оставить?
 
  DN>>   ZIP, RAR, ARJ, список продолжить? Кто мешает обработать
  DN>> полученный
  DN>> файл стандартным архиватором? Hаверняка прилично пожмет.
 GS>   Сам отрицаешь необходимость "специализированных"
 GS> архиваторов?
 
   Hет.
 
 GS> Если пользоваться стандартным (который "наверняка прилично
 GS> пожмёт"), нафиг изобретать "спецсловари" и занимать под
 GS> них место, которое никогда не будет использовано?..
 
   Ага. А зачем вообще что то изобретать? Давайте лучше в Кваку играть...
   Затем, что стандартный архиватор только подожмет то, что в словаре не
 нашлось, а не с нуля жать будет. Почему ты уверен, что если пожать с нуля тем
 же ZIP'ом будет лучше паковаться чем спецпакером сначала и ZIP'ом потом? Пока
 ты никаких доказательств не привел, так что имхо все твои рассуждения пока что
 голословны. Я еще раз повторяю, что я не специалист, так что может быть все
 доказательства всем кро.е меня очевидны, ну так и скажи. Или приведи их для
 лучей иллюстрации своих мыслей.
 
 С уважением, Dmitriy.
 
 --- Lara Croft v.4.50
  * Origin: В гареме нет плохих танцоров!... (2:5020/2065.609)

Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор

Тема:	Автор:	Дата:
Алгоритм сжатия данных	Dmitriy Nesmachny	27 Apr 2001 08:39:59

Архивное /ru.algorithms/5356034264af.html, оценка 3 из 5, голосов 10