|
|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Denis Smirnov 2:5020/400 09 Jan 2002 17:18:45 To : vitus@ice.ru Subject : Re: linux and koi8-r -------------------------------------------------------------------------------- vitus@ice.ru wrote: vir> Еще раз - см, как это сделано в catdoc. Там, правда, поддерживается vir> UCS-2, но зато программа сделана в расчете на 16-битную систему. vir> Hельзя, конечно, сказать, что ее производительность на 286/12MHz меня vir> устраивала (а именно такой была система, на которой была написана vir> основная часть catdoc-0.90) Ага, вижу. Ты просто строишь дерево. Я тормоз. vir> Вот с китайцами у меня хуже. catdoc до сих пор не понимает не 8-битных vir> выходных charset-ов. А я собирался вообще никак не завязываться на то, что у нас в потоке. То есть в каждом charset'е описывается соответствие между юникодным номером и некоей последовательностью символов, о которой перекодировщий не знает ничего. А кроме этого отдельная таблица соответствий, в которой для некоторых символов описывается вариант их представления также в уникоде. Соответственно последовательсть действий такая -- если для символа нет прямого соответствия в destiation кодировке, то он заменяется на эту самую последовательность, и всё повторяется рекурсивно. vir> А "действительно большую базу данных" можно в чем-то типа dbm хранить. vir> Озаботившись, естественно, кэшированием наиболее употребительных vir> заменяющих последовательностей. Ага, об этом я думал. Hо это уже надо будеть сравнивать вживую. -- С уважением, Denis --- ifmail v.2.15dev5 * Origin: MTU-Intel ISP (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/9104ad4aae75.html, оценка из 5, голосов 10
|