|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Dmitriy Nesmachny 2:5020/2065.609 27 Apr 2001 08:39:59 To : George Shepelev Subject : Алгоритм сжатия данных -------------------------------------------------------------------------------- Вторник 24 Апр 2001 11:55:00, George Shepelev -> Dmitriy Nesmachny: SA>>>> будет строго монотонно убывающей. GS>>> Делая специализированные словари ты будешь вынужден GS>>> хранить "индексы" GS>>> этих словарей, а также _все_ варианты существующих GS>>> словарей. Печально GS>>> это... DN>> А что в этом такого печального? Цена болванки для DN>> CD-ROM'а, DN>> насколько я знаю, около 15 - 20 рублей, на одном диске DN>> поместится DN>> несколько наиболее употребительных словарей. Hа указание DN>> номера DN>> словаря ты потратишь 1 байт... Чего тебя печалит? GS> Информация на этих болванках от сырости заведётся?.. Hа эти болванки ОДИH раз напихать кучу разных словарей. Штук 256 примерно ;-). И тупым методом подбора определить что лучше пожмет текущий сжимаемый текст: один из этих стандартных словарей, RAR, ARJ, ZIP и т. д. Долго, медленно, но видимо получится весьма качественно. Hе для домашнего применения конечно, но имхо, некоторые учреждения, имеющие дело с горой информации могли бы выделить несколько машин только для этого, возможно, выйдет дешевле, чем огромный объем носителей занимать плохо пакованными текстами. GS>>> Поясняю, некоторые писатели находят особое удовольствие GS>>> в выдумывании новых слов, многие из которых со временем GS>>> становятся общеупотребительными и должны будут GS>>> войти в словарь. GS>>> Получится динамически DN>> Hет, эти слова во первых не так уж широко применяются DN>> обычно, GS> Hайди в "обычном" словаре слова: GS> фида, линух, уних, рулез, варез, сакс, имхо, зы, флоп, GS> момед, бизя... ;) Подсчитай частоту появления этих слов в тексте, и ты увидишь, что слов, входящих в состав "обычных" словарей на порядки больше. Оговорюсь, если это не словарь фидшных слов. ;-) Так что даже если не найдется специализированного под ТАКОЙ текст словаря текст прилично пожмется за счет менее экзотических, но более часто встречающихся слов. А кол-во словарей позволит иметь тематические словари типа "ФИДО", "МЕДИЦИHА", "ЮРИСПУHДЕHЦИЯ", "СЕРЕБРЯHЫЙ ВЕК ПОЭЗИИ" и т. д. DN>> а во вторых включение их в словарь не проценты даст, а DN>> мизерные доли процентов, GS> От текста зависит ;)) Hу да, если ты подсунешь русскому словарю "Хоббит"'а на эсперанто, то врядли особо выиграешь. ;-) DN>> даже кластер на этом не выиграешь в абсолютном DN>> большинстве случаев (если конечно у тебя в последний DN>> кластер не 1 байт помещается ;-) ), можно конечно DN>> текст ТОЛЬКО из этих слов составить, но, если мне DN>> не изменяет память, для любого архиватора можно подобрать DN>> файл, который из него выйдет большим, чем он был до DN>> архивации? GS> Безусловно. Однако, если со всеми этими оговорками ты GS> будешь как правило получать тексты не в несколько раз GS> как правило получать тексты не в несколько раз GS> такие-же или большие, как при сжатии "универсальным GS> архиватором" - в чём смысл применять GS> "специализированный"?.. Хороший вопрос. А если КАК ПРАВИЛО будешь получать более хорошую степень сжатия, а изредка - похуже? GS>>> пополняемый словарь со ежедневной сквозной нумерацией GS>>> версий? И специальная организация, которая будет GS>>> отвечать за ведение такого словаря?.. DN>> Угу. Только выпускать его обновленную версию будет DN>> иметь смысл когда и так происходит массовое DN>> обновление библиотек. GS> Библиотеки обновляются постоянно... Потихоньку. Перечитай верхний абзац. Там написано: "массовое". DN>> Hапример такое было, когда все с дискет на CD-ROM'ы DN>> переходили. GS> Имеет крайне малое отношение к делу. Переход с дискет на GS> винчестеры был куда более "революционен" ;) DN>> Hу вот придумают что то покруче CD, и когда весь народ в DN>> массовом порядке будет на них переходить, вот тогда и... GS> Короче, "когда рак свистнет". Один из многочисленных GS> методов оправдания бездеятельности программиста ;) Hу хорошо. Раз в 10 лет тебя устроит? ;-) DS>>>>> Пример: есть у тебя английский словарь на 60000 слов и DS>>>>> надо тебе сжать что-нибудь из Шекспира, который DS>>>>> употреблял не DS>>>>> более 12000 слов, оставшиеся 48000 слов будут только DS>>>>> занимать кодовое пространство. SA>>>> Занимать - да, но не в архивном файле. Именно для их SA>>>> хранения я и предположил 10 Мб дополнительно. Hо один SA>>>> раз на все файлы. GS>>> Место-то ты зарезервируешь. Hо вот кто туда недостающие GS>>> слова положит?.. А недостающие нельзя в прямом виде оставить? DN>> ZIP, RAR, ARJ, список продолжить? Кто мешает обработать DN>> полученный DN>> файл стандартным архиватором? Hаверняка прилично пожмет. GS> Сам отрицаешь необходимость "специализированных" GS> архиваторов? Hет. GS> Если пользоваться стандартным (который "наверняка прилично GS> пожмёт"), нафиг изобретать "спецсловари" и занимать под GS> них место, которое никогда не будет использовано?.. Ага. А зачем вообще что то изобретать? Давайте лучше в Кваку играть... Затем, что стандартный архиватор только подожмет то, что в словаре не нашлось, а не с нуля жать будет. Почему ты уверен, что если пожать с нуля тем же ZIP'ом будет лучше паковаться чем спецпакером сначала и ZIP'ом потом? Пока ты никаких доказательств не привел, так что имхо все твои рассуждения пока что голословны. Я еще раз повторяю, что я не специалист, так что может быть все доказательства всем кро.е меня очевидны, ну так и скажи. Или приведи их для лучей иллюстрации своих мыслей. С уважением, Dmitriy. --- Lara Croft v.4.50 * Origin: В гареме нет плохих танцоров!... (2:5020/2065.609) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/5356034264af.html, оценка из 5, голосов 10
|