|
|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Denis Smirnov 2:5020/400 08 Jan 2002 22:12:37 To : vitus@ice.ru Subject : Re: linux and koi8-r -------------------------------------------------------------------------------- vitus@ice.ru wrote: vir> 1. iconv иногда выдает illegal input sequence, тогда когда символ вполне vir> легальный. Такое впечатление, что в качестве основы для таблиц брались vir> не файлы с unicode.org а что-то другое. Как правило, страдают vir> небуквенные символы. Угу, но речь-то шла о перекодировании между UTF-8 и UTF-16. Или там тоже что-то проверяется? vir> 2. Хотелось бы более гибкого поведения в случае, когда в выходной vir> кодировке входной символ действительно не представим. vir> см, например, как это сделано в catdoc. Я об этом думал. И собирался написать свой перекодировщик (заодно привнеся опыт, наработаный в DCplus -- автоматическое определение исходной кодировки вещь весьма полезная нынче). Hо, видимо, с алгоритмикой у меня слабо. Проблема в том, что делать поддержку UCS-2 уже как-то неразумно, надо UCS-4. А код более-менее шустрого перекодировщика из UCS-4 в любую 8-и битную кодировку я просто не представляю. Особенно с учётом того, что заменять надо не код на символ, а код на группу символов (как для того же \copyright). При этом делать надо разные варианты отображения неперекодируемых символов. То-есть (с) может выглядеть как (с), и как \copyright. Причём надо учитывать, что это делается не только для русских кодировок, но это потом могут и какие-нибудь китайцы использовать, и база данных может быть действительно большой. -- С уважением, Denis --- ifmail v.2.15dev5 * Origin: MTU-Intel ISP (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/9104342435dd.html, оценка из 5, голосов 10
|