热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

UnicodeBOM类型编码的文件处理

文章标题:UnicodeBOM类型编码的文件处理。Linux是中国IT实验室的一个技术频道。包含桌面应用,Linux系统管理,内核研究,嵌入式系统和开源等一些基本分类

  最近遇到一个问题,在Ubuntu 10.04系统下,使用vi无法查看Unicode BOM类型编码格式的中文文件内容。

  系统信息:

  Ubunt 10.04

  环境变量:

  ~$ echo $LANG

  en_US.utf8

  相关软件版本:

  ~$ vim --version

  VIM - Vi IMproved 7.2 (2008 Aug 9, compiled Apr 16 2010 12:47:47)

  Included patches: 1-330

  Compiled by buildd@

  $ enca --version

  enca 1.12

  ~$ iconv --version

  iconv (Ubuntu EGLIBC 2.11.1-0ubuntu7) 2.11.1

  使用vim查看文件,发现文件的中文内容显示为乱码,使用enca查看文件编码格式:

  ~$ enca -L none test.cgi

  Universal transformation format 8 bits; UTF-8

  "none"参数表示不知道编码格式,让enca确定。从enca的结果看,test.cgi文件是UTF-8编码格式,于是使用iconv工具转换:

  ~$ iconv -l  | grep UTF-8

  ISO-10646/UTF-8/

  UTF-8//

  先查看iconv是否支持UTF-8,结果显示支持。开始转换:

  ~$ iconv -f UTF-8 -t GB2312 test.cgi

  iconv: illegal input sequence at position 0

  iconv报错,文件的0位置编码格式错误,无法识别,所以转换失败。

  百思不解,查google,未果。

  最后想到用file查看文件类型:

  ~$ file test.cgi

  test.cgi: UTF-8 Unicode (with BOM) text

  问题找到了,不适简单的UTF-8格式,还带了个BOM,查了一下BOM:

  http://unicode.org/faq/utf_bom.html

  可以参考这个介绍,简单说,BOM就是一个标签,在UTF-8编码格式的文件前多了两个字节,就是这两个字节

  导致vim无法显示中文。

  知道问题就可以修改了,在win7可以有好多工具,在Ubuntu也可以有好多工具,简单点,使用vim修改吧。

  ~$ vim -b test.cgi

  可以看到,文件内容的开头多了两个字节,vim使用16进制显示出来了,

  #!/bin/sh

  <>中的内容就是16进制的BOM标签,删除再保存文件就行。

  再次查看文件编码类型:

  ~$ file test.cgi

  test.cgi: POSIX shell script text executable

  ~$ enca -L none test.cgi

  Universal transformation format 8 bits; UTF-8

  file工具可以识别test.cgi文件是个脚本了,enca比较傻,结果和原来一样,关键是iconv转换:

  ~$ iconv -f UTF-8 -t GB2312 test.cgi -o test1.cgi

  转换没问题,无任何报错,转换成功,再次使用vim查看,中文内容正常。

  PS:要说的是,前提是你的系统要安装中文支持才行。


推荐阅读
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
  • Ubuntu 9.04中安装谷歌Chromium浏览器及使用体验[图文]
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 成功安装Sabayon Linux在thinkpad X60上的经验分享
    本文分享了作者在国庆期间在thinkpad X60上成功安装Sabayon Linux的经验。通过修改CHOST和执行emerge命令,作者顺利完成了安装过程。Sabayon Linux是一个基于Gentoo Linux的发行版,可以将电脑快速转变为一个功能强大的系统。除了作为一个live DVD使用外,Sabayon Linux还可以被安装在硬盘上,方便用户使用。 ... [详细]
  • Ubuntu安装常用软件详细步骤
    目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]
  • mac php错误日志配置方法及错误级别修改
    本文介绍了在mac环境下配置php错误日志的方法,包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别,以及相应的错误级别参考链接。 ... [详细]
  • 分享css中提升优先级属性!important的用法总结
    web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ... [详细]
  • 本文介绍了如何在使用emacs时去掉ubuntu的alt键默认功能,并提供了相应的操作步骤和注意事项。 ... [详细]
  • 本文介绍了在Ubuntu下制作deb安装包及离线安装包的方法,通过备份/var/cache/apt/archives文件夹中的安装包,并建立包列表及依赖信息文件,添加本地源,更新源列表,可以在没有网络的情况下更新系统。同时提供了命令示例和资源下载链接。 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
author-avatar
3e83owut
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有