|
|
ru.unix.bsd- RU.UNIX.BSD ------------------------------------------------------------------ From : Dmitrij Lystsov 2:5020/400 26 Jul 2006 16:06:02 To : Dmitry Karasik Subject : Re: html to txt? --------------------------------------------------------------------------------
> Dmitrij> Привет всем! Столкнулся с задачей переделывания _большого_ HTML
> Dmitrij> файла в обычный текст. Взял textproc/html2text Все бы хорошо, но
> Dmitrij> либо файл кривой, либо конвертатор так срабатывает.
>
> Dmitrij> Я больше склоняюсь к кривому файлу ...
>
> Dmitrij> В некоторых словах произходит удвоение одних и тех же букв,
> Dmitrij> например слово HАЧИСЛЕHИЕ преобразуется в HА АЧ ЧИ ИСЛЕ ЕHИ ИЕ А
> Dmitrij> между буквами пробелы (в винде это квадратики :)
>
> Dmitrij> Что посоветуете? -- Чем больше узнаю, тем больше понимаю, что ни
> Dmitrij> чего не знаю ...
>
> man html2text :
>
> -nobs By default, html2text renders underlined letters with sequences
> like "underscore-backspace-character" and boldface letters like
> "character-backspace-character", which works fine when the out-
> put is piped into more(1), less(1), or similar. For other appli-
> cations, or when redirecting the output into a file, it may be
> desirable not to render character attributes with such backspace
> sequences, which can be accomplished with this command line
> option.
Спасибо, помогло.
Hе внимательно курил мануал :)
По умолчанию (без этой опции) получается удобно для more(1), less(1) и т.п.
--
Чем больше узнаю, тем больше понимаю, что ни чего не знаю ...
Отправлено через сервер Форумы@mail.ru - http://talk.mail.ru
--- ifmail v.2.15dev5.3
* Origin: Talk.Mail.Ru (2:5020/400)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.unix.bsd/6488d1e20104.html, оценка из 5, голосов 10
|