|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Oleg Goodyckov 2:5020/400 10 Jan 2002 18:04:00 To : vitus@ice.ru Subject : Re: UTF-8 --------------------------------------------------------------------------------
On Wed, Jan 09, 2002 at 03:40:08PM +0000, vitus@ice.ru wrote:
> Denis Smirnov <mithraen@freesource.info> wrote:
> DS>vitus@ice.ru wrote:
>
> vir>> Во-первых, Microsoft этим знанием худо-бедно делится. Hа msdn формат
> vir>> 97 и выше ворда опубликован. Более ранние - зажаты. Hо на
> vir>> www.wotsit.org какая-то дока есть, и wvware.sf.net как-то работает.
>
> DS>Как ты считаешь -- насколько легко написать более-менее приличный конвертор
> DS>doc->LaTeX, так, чтобы после этого ещё и результат годился для работы с ним
> DS>человеком?
>
> Думаю, что невозможно. Поэтому при разработке catdoc я сразу зарекся на
> то, что все форматирование убивать нафиг - все равно потом переделывать
> с нуля.
>
> Проблема тут даже не в несоответствии моделей разметки. Проблема в том,
> что в вордовых файлах крайне редко встречается осмысленная разметка.
> Т.е. как обычно PEBKC. Hа том компьютере, где этот вордовый файл
> делался.
Я, конечно, не знаю предмета (внутреннего устройтсва вордовских файлов),
но позволь поделиться идеей.
Есть такая программулина (точнее, программище) greenstone (www.gsdl.org).
Это - коллектор документов. Оно собирает в себе документы в разных форматах
(и вордовском тоже). Так вот, если я правильно понял, все файлы сложных
форматов (ворд, пдф) они преобразуют в хтмл и так хранят.
Добавлю сюда еще ту примечательную стремительность, с которой МС воспылала
к ХМЛ любовью и решила все нафиг перевести на рельсы ХМЛ и жить только в
нем.
Сюда же. Как известно, хтмл есть подмножество ХМЛ.
Что из всего этого я решаюсь предполагать? То, что, вероятно, структура
вордовского документа с минимальными усилиями превращается в ХМЛ-документ.
Такое предположение хорошо объясняет и успех GreenStone в преобразовании
вордовских документов в хтмл, и внезапную страсть МС к ХМЛ (ведь
ХМЛ-документ способен выглядеть, как угодно хорошо, а близость формата
Ворда к нему предполагает минимальные затраты при переходе на максимально
универсальную платформу).
Зная, хоть и поверхностно, ХМЛ, рискну утверждать, что означенный путь -
приведения документа в его формат, а уж потом в любой другой - есть
наиболее простой и удобный. Что и составляет суть идеи по данному вопросу.
--- ifmail v.2.15dev5
* Origin: unknown (2:5020/400)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/1864380f15d7e.html, оценка из 5, голосов 10
|