|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Sergey Cheban 2:5030/553.1 18 Apr 2006 23:25:40 To : Alex Korchmar Subject : Сугубо "провокативный" пост -------------------------------------------------------------------------------- 17 Apr 06 12:19, you wrote to me: SS>>>> винда - это уникод в именах, и к этому надо быть готовым AK>>> винда - это где уникод, а где и cp866 банальная. SC>> Hасколько я помню, в винде не уникод (в котором вполне существуют AK> в винде именно unicode-16, строго двухбайтовая кодировка. http://msdn.microsoft.com/library/default.asp?url=/library/en-us/intl/unicode_2 bj9.asp WideCharToMultiByte In Windows Vista and later versions of Windows, this function is fully conformant with the Unicode 4.1 specification for UTF-8 and UTF-16. Earlier releases would encode or decode lone surrogate halves or mismatched surrogate pairs. Code written in earlier versions of Windows that relied on this behavior to encode random non-text binary data can run into problems. However, code that used this function on valid UTF-16 will behave the same way under Windows Vista or later versions as under earlier Windows releases. Т.е. по крайней мере в Висте эта функция рассматривает WCHAR* как UTF-16. До Висты - тоже рассматривала (хоть и не без глюков), но в документации об этом упомянуто не было. Из той же оперы: http://msdn.microsoft.com/library/default.asp?url=/library/en-us/intl/unicode_9 i79.asp New Windows applications should use Unicode (UTF-16) as their internal data representation. Чуть выше этой цитаты рассказывается про surrogate pairs. AK> К мертворожденному порождению чьих-то вывихнутых мозгов под названием AK> utf-16 действительно ни малейшего отношения не имеет - язык Майя AK> винда, по-моему, не поддерживает. А китайский? Что ты имеешь против диапазона "CJK Ideographs Ext. B"? AK>>> И при этом unicode и utf-8 между собой общего ничего не имеют. SC>> Хм. Мне казалось, что кодировка utf-8 предназначена для SC>> однозначного представления символов из набора unicode. Я не прав? AK> символы из набора unicode вполне однозначно представляются в кодировке AK> unicode. Садись, два. Чувствую, мы с тобой на разных языках говорим. Hа моем - кодировка это отображение набора символов на множество цепочек октетов. А unicode - это отображение набора символов на множество целых неотрицательных чисел: http://www.unicode.org/standard/WhatIsUnicode.html What is Unicode? Unicode provides a unique number for every character, no matter what the platform, no matter what the program, no matter what the language. (Загляни на http://www.unicode.org/standard/translations/russian.html - посмеемся вместе над переводом). Sergey --- 866 Code Page --- * Origin: Что HЕ делается - все к лучшему. (2:5030/553.1) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/1601944453d7b.html, оценка из 5, голосов 10
|