如何在带有std库的Linux上将utf-16转换为utf-32?

 继续不插电的名单 发布于 2023-01-12 18:14

在MSVC 上将 utf-16转换为utf-32非常简单 - 使用C11的codecvt_utf16语言环境方面.但是在GCC(gcc(Debian 4.7.2-5)4.7.2)中,这个新功能似乎还没有实现.有没有办法在没有iconv的情况下在Linux上执行这种转换(最好使用std库的转换工具)?

1 个回答
  • 将UTF-16解码为UTF-32非常容易.

    您可能希望在编译时检测您正在使用的libc版本,并在检测到损坏的libc(没有您需要的功能)时部署转换例程.

    输入:

    一个指向源UTF-16的数据(char16_t *,ushort *, -为了方便UTF16 *);

    它的大小;

    一个指针到UTF-32的数据(char32_t *,uint *-为了方便起见UTF32 *).

    代码如下:

    void convert_utf16_to_utf32(const UTF16 *input, 
                                size_t input_size, 
                                UTF32 *output) 
    {
        const UTF16 * const end = input + input_size;
        while (input < end) {
            const UTF16 uc = *input++;
            if (!is_surrogate(uc)) {
                *output++ = uc; 
            } else {
                if (is_high_surrogate(uc) && input < end && is_low_surrogate(*input))
                    *output++ = surrogate_to_utf32(uc, *input++);
                else
                    // ERROR
            }
        }
    }
    

    剩下错误处理.您可能希望U+FFFD在流中插入¹并继续前进,或者只是拯救,真的取决于您.辅助功能是微不足道的:

    int is_surrogate(UTF16 uc) { return (uc - 0xd800u) < 2048u; }
    int is_high_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xd800; }
    int is_low_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xdc00; }
    
    UTF32 surrogate_to_utf32(UTF16 high, UTF16 low) { 
        return (high << 10) + low - 0x35fdc00; 
    }
    

    ¹Cf.统一:

    §3.3Unicode编码表单(使用U + FFFD的最佳实践)

    §5.22U + FFFD替代的最佳实践

    ²还要考虑到!is_surrogate(uc)最常见的分支(以及第二个if中的非错误路径),您可能希望使用__builtin_expect或类似地优化分支.

    2023-01-12 18:16 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有