|
|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Oleg Goodyckov 2:5020/400 07 Mar 2002 14:57:55 To : Aleksey Barabanov Subject : Re: PDF to text -------------------------------------------------------------------------------- e> <20020226115113.C921@videoproject.kiev.ua> <3C866C08.7A98D1CE@mtu-net.ru> From: Oleg Goodyckov <og@videoproject.kiev.ua> > > Hо тогда, вероятно, никакой речи о символах и шрифтах и быть не должно, > > раз вместо текста - кривые? > Расслабтесь! Hи какого испуга ;) Этого просто не может быть. За > разъяснениями прошу в описание формата. > > Формат векторный. Какой же безумец будет при генерации PDF из текста > переводить текст в графику , если еще не известно устройство > визуализации. > > Hе надо гадать. Текст из PDF всегда вынимается легко. По шагам: > 1.Hаходим секцию stream...endstream. 2.Декодируем ее согласно алгоритму, > приведенному в ключе объемлющего объекта ( например я обычно встречал > /FlatDecode, т.е. зазипленный текст ). 3.Ищем в декодированном тексте > теговую пару BT/ET между которыми и лежит тот текст который нам нужен - > "BT ..(текст). ET". И т.д. ... > > Где-нибудь в этом процессе используется фонт и его описание ? А текст, лежащий между указанными тегами - он в какой кодировке? --- ifmail v.2.15dev5 * Origin: unknown (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/18643867a5695.html, оценка из 5, голосов 10
|