在MSVC 上将 utf-16转换为utf-32非常简单 - 使用C11的codecvt_utf16语言环境方面.但是在GCC(gcc(Debian 4.7.2-5)4.7.2)中,这个新功能似乎还没有实现.有没有办法在没有iconv的情况下在Linux上执行这种转换(最好使用std库的转换工具)?
将UTF-16解码为UTF-32非常容易.
您可能希望在编译时检测您正在使用的libc版本,并在检测到损坏的libc(没有您需要的功能)时部署转换例程.
输入:
一个指向源UTF-16的数据(char16_t *
,ushort *
, -为了方便UTF16 *
);
它的大小;
一个指针到UTF-32的数据(char32_t *
,uint *
-为了方便起见UTF32 *
).
代码如下:
void convert_utf16_to_utf32(const UTF16 *input, size_t input_size, UTF32 *output) { const UTF16 * const end = input + input_size; while (input < end) { const UTF16 uc = *input++; if (!is_surrogate(uc)) { *output++ = uc; } else { if (is_high_surrogate(uc) && input < end && is_low_surrogate(*input)) *output++ = surrogate_to_utf32(uc, *input++); else // ERROR } } }
剩下错误处理.您可能希望U+FFFD
在流中插入¹并继续前进,或者只是拯救,真的取决于您.辅助功能是微不足道的:
int is_surrogate(UTF16 uc) { return (uc - 0xd800u) < 2048u; } int is_high_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xd800; } int is_low_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xdc00; } UTF32 surrogate_to_utf32(UTF16 high, UTF16 low) { return (high << 10) + low - 0x35fdc00; }
¹Cf.统一:
§3.3Unicode编码表单(使用U + FFFD的最佳实践)
§5.22U + FFFD替代的最佳实践
²还要考虑到!is_surrogate(uc)
最常见的分支(以及第二个if中的非错误路径),您可能希望使用__builtin_expect
或类似地优化分支.