|
|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Aleksey Barabanov 2:5020/400 07 Mar 2002 00:38:59 To : Oleg Goodyckov Subject : Re: PDF to text -------------------------------------------------------------------------------- e> <20020226115113.C921@videoproject.kiev.ua> From: Aleksey Barabanov <alekseybb@mtu-net.ru> Oleg Goodyckov писал(а): > > On Mon, Feb 25, 2002 at 06:37:16PM +0000, Victor Wagner wrote: > > Aleksey Barabanov <alekseybb@mtu-net.ru> wrote: > > >> Hо не со всякими pdf-ами это проходит. Зависит от того, как там шрифты > > >> внутри представлены, какая кодировка русских букв используется etc. > > AB> Как шрифты представлены imho тут ни при чем. Мы же конвертим в текст. > > > > Если шрифты сконверчены в кривые, и вместо текста в файле лежит кучка > > кривых, то причем. > > Hо тогда, вероятно, никакой речи о символах и шрифтах и быть не должно, > раз вместо текста - кривые? Расслабтесь! Hи какого испуга ;) Этого просто не может быть. За разъяснениями прошу в описание формата. Формат векторный. Какой же безумец будет при генерации PDF из текста переводить текст в графику , если еще не известно устройство визуализации. Hе надо гадать. Текст из PDF всегда вынимается легко. По шагам: 1.Hаходим секцию stream...endstream. 2.Декодируем ее согласно алгоритму, приведенному в ключе объемлющего объекта ( например я обычно встречал /FlatDecode, т.е. зазипленный текст ). 3.Ищем в декодированном тексте теговую пару BT/ET между которыми и лежит тот текст который нам нужен - "BT ..(текст). ET". И т.д. ... Где-нибудь в этом процессе используется фонт и его описание ? Bye. -- Aleksey Barabanov <alekseybb@mail.ru> --- ifmail v.2.15dev5 * Origin: Office Intranet (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/4413bfff68d3.html, оценка из 5, голосов 10
|