当前位置: 开发笔记 > 编程语言 > 正文

UnicodeBOM类型编码的文件处理

作者：3e83owut | 来源：互联网 | 2017-10-29 03:44

文章标题：UnicodeBOM类型编码的文件处理。Linux是中国IT实验室的一个技术频道。包含桌面应用，Linux系统管理，内核研究，嵌入式系统和开源等一些基本分类

　　最近遇到一个问题，在Ubuntu 10.04系统下，使用vi无法查看Unicode BOM类型编码格式的中文文件内容。

　　系统信息：

　　Ubunt 10.04

　　环境变量：

　　~$ echo $LANG

　　en_US.utf8

　　相关软件版本：

　　~$ vim --version

　　VIM - Vi IMproved 7.2 (2008 Aug 9, compiled Apr 16 2010 12:47:47)

　　Included patches: 1-330

　　Compiled by buildd@

　　$ enca --version

　　enca 1.12

　　~$ iconv --version

　　iconv (Ubuntu EGLIBC 2.11.1-0ubuntu7) 2.11.1

　　使用vim查看文件，发现文件的中文内容显示为乱码，使用enca查看文件编码格式：

　　~$ enca -L none test.cgi

　　Universal transformation format 8 bits; UTF-8

　　"none"参数表示不知道编码格式，让enca确定。从enca的结果看，test.cgi文件是UTF-8编码格式，于是使用iconv工具转换：

　　~$ iconv -l | grep UTF-8

　　ISO-10646/UTF-8/

　　UTF-8//

　　先查看iconv是否支持UTF-8，结果显示支持。开始转换：

　　~$ iconv -f UTF-8 -t GB2312 test.cgi

　　iconv: illegal input sequence at position 0

　　iconv报错，文件的0位置编码格式错误，无法识别，所以转换失败。

　　百思不解，查google，未果。

　　最后想到用file查看文件类型：

　　~$ file test.cgi

　　test.cgi: UTF-8 Unicode (with BOM) text

　　问题找到了，不适简单的UTF-8格式，还带了个BOM，查了一下BOM：

　　http://unicode.org/faq/utf_bom.html

　　可以参考这个介绍，简单说，BOM就是一个标签，在UTF-8编码格式的文件前多了两个字节，就是这两个字节

　　导致vim无法显示中文。

　　知道问题就可以修改了，在win7可以有好多工具，在Ubuntu也可以有好多工具，简单点，使用vim修改吧。

　　~$ vim -b test.cgi

　　可以看到，文件内容的开头多了两个字节，vim使用16进制显示出来了，

　　#!/bin/sh

　　<>中的内容就是16进制的BOM标签，删除再保存文件就行。

　　再次查看文件编码类型：

　　~$ file test.cgi

　　test.cgi: POSIX shell script text executable

　　~$ enca -L none test.cgi

　　Universal transformation format 8 bits; UTF-8

　　file工具可以识别test.cgi文件是个脚本了，enca比较傻，结果和原来一样，关键是iconv转换：

　　~$ iconv -f UTF-8 -t GB2312 test.cgi -o test1.cgi

　　转换没问题，无任何报错，转换成功，再次使用vim查看，中文内容正常。

　　PS：要说的是，前提是你的系统要安装中文支持才行。

推荐阅读

html
Linux 正则表达式基础及使用注意事项

本文介绍了Linux系统中正则表达式的基础知识，包括正则表达式的简介、字符分类、普通字符和元字符的区别，以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别，并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式，并提供了学习的参考资料。 ... [详细]

蜡笔小新 2023-12-13 14:24:45
html
Ubuntu 9.04中安装谷歌Chromium浏览器及使用体验[图文]

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-12-13 13:30:30
html
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
request
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
command
解决Docker中volume的权限问题的方法

在Docker中，将主机目录挂载到容器中作为volume使用时，常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法，包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法，可以避免在使用Docker时出现无写权限的情况。 ... [详细]

蜡笔小新 2023-12-14 18:48:02
command
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
select
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
function
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
select
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
uri
Open judge C16H: Magical Balls 快速幂+逆元问题解析

本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法，并给出了问题的解析和解决方法。详细介绍了问题的背景和规则，并给出了相应的算法解析和实现步骤。通过本文的解析，读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]

蜡笔小新 2023-12-14 12:03:27
uri
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
tree
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
stream
mac php错误日志配置方法及错误级别修改

本文介绍了在mac环境下配置php错误日志的方法，包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别，以及相应的错误级别参考链接。 ... [详细]

蜡笔小新 2023-12-12 11:59:08
search
如何在使用emacs时去掉ubuntu的alt键默认功能

本文介绍了如何在使用emacs时去掉ubuntu的alt键默认功能，并提供了相应的操作步骤和注意事项。 ... [详细]

蜡笔小新 2023-12-11 10:51:20
search
5个基本Linux命令行工具的现代化替代品

本文介绍了5个基本Linux命令行工具的现代化替代品，包括du、top和ncdu。这些替代品在功能上进行了改进，提高了可用性，并且适用于现代化系统。其中，ncdu是du的替代品，它提供了与du类似的结果，但在一个基于curses的交互式界面中，重点关注占用磁盘空间较多的目录。 ... [详细]

蜡笔小新 2023-12-09 20:30:48

3e83owut

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章