热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

utf8编码规则会受制于Unicode实际的字符对应吗?

我用python写

我用python 写




1
'\xF5\x90\x90\x90'.decode('utf8')

但是报错了:

1
UnicodeDecodeError: 'utf8' codec can't decode byte 0xf5 in position 0: invalid start byte

问题是:




1
\xF5\x90\x90\x90

是个标准的四字节的utf8编码的字符啊
转换成二进制就是

1
11110101 10010000 10010000 10010000

完全符合utf8编码规则:

1
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

我把\xF5换成\xF2就没有问题了,也就是

1
11110010

开头,难道是因为Unicode实际上没有用到这么多的字符,所以不能decode('utf8')?但是规则是对的呀,万一哪天Unicode又扩充了很多字符集,那python的decode()函数岂不是要更新了?


   



推荐阅读
author-avatar
mobiledu2502900597
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有