|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Valentin Nechayev 2:5020/400 18 May 2003 17:45:57 To : Konstantin Tokar Subject : Re: OpenOffice -------------------------------------------------------------------------------- >>> Konstantin Tokar wrote: SP>>> Если бы тебе пришлось обработать им текст страниц так 100, то SP>>> понял бы почему нельзя просто положить на вход графический файл, SP>>> а на выходе получить текстовый. >> А ты расскажи. Параметров надо кучу крутить, подбирая так, чтобы он >> на этой отдельно взятой странице опознал русский текст, а не бнопню с >> галамагой? Hу так на это и статистический анализатор способен, >> причём значительно эффективнее, чем человек. Или вставлять одну и ту >> же страницу в сканер 20 раз, чтобы буквы сели на нужные границы >> растра? Ещё что-то? KT> Если сканируешь толстую книгу, часто средняя часть сканируется плохо, KT> надо визуально контролировать. Автоматическое определение частей KT> страницы как картинки и текста работает плохо, тоже ручная работа нужна. KT> Hеправильно распознанные символы вроде плохо пропечатанных букв или KT> запятая, распознанная как точка. В общем попробуй пораспознавать, сам KT> поймёшь. И что же тут не укладывается в метод получить откуда-то готовый результат сканирования и выдать содержащийся в нём текст? Hеважно с какой оболочкой? Я ж спрашивал про какие-то настроечные действия _внутри_ процесса перевода одной страницы из снимка в текст, а ты мне рассказываешь про действия _снаружи_ него, типа подправить настройки сканера и толкнуть процесс ещё раз. В общем, я понял - возражения против реализации фильтром на самом деле нет. -netch- --- ifmail v.2.15dev5 * Origin: Dark side of coredump (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/7368888dc57c.html, оценка из 5, голосов 10
|