当前位置: 开发笔记 > 运维 > 正文

基于Linux核心的汉字显示的尝试

作者：牧童的伙伴_168 | 来源：互联网 | 2017-08-15 19:50

基于Linux核心的汉字显示的尝试--Linux通用技术-Linux编程与内核信息，下面是详情阅读。

在阐述基于Linux核心的汉字显示的技术细节之前，有必要介绍一下原有linux的工作机制。这里主要涉及到两部分的知识，就是Linux下终端和帧缓冲的实现．

控制台（console）

通常我们在linux下看到的控制台(console)是由几个设备完成的。分别是/dev/ttyN（其中tty0就是/dev/console，tty1，tty2就是不同的虚拟终端（virtual console））.通常使用热键alt+Fn来在这些虚拟终端之间进行切换。所有的这些tty设备都是由linux/drivers/char/console.c和vt.c对应。其中console.c负责绘制屏幕上的字符，vt.c负责管理不同的虚拟终端，并且负责提供console.c需要绘制的内容。Vt.c把不同虚拟终端下需要交给console.c绘制的内容放到不同的缓存中去。Vt.c管理着这样一个缓冲区的数组，并且负责在其间切换，以指定哪一个缓冲区是被激活的。你所看到的虚拟终端就对应着被激活的缓冲区。Console.c同时也负责接收终端的输入，然后把接收到的输入放到缓冲区。

帧缓冲（framebuffer）

Framebuffer是把显存抽象后的一种设备，可以通过这个设备的读写直接对显存进行操作。这种操作是抽象的，统一的。用户不必关心物理显存的位置、换页机制等等具体细节。这些都是由Framebuffer设备驱动来完成的。

Framebuffer对应的源文件在linux/drivers/video/目录下。总的抽象设备文件为fbcon.c，在这个目录下还有与各种显卡驱动相关的源文件。在使用帧缓冲时，Linux是将显卡置于图形模式下的．

试验

我们以一个简单的例子来说明字符显示的过程。我们假设是在虚拟终端1（/dev/tty1）下运行一个如下的简单程序。

main ( )

{

puts("hello, world.\n");

}

puts函数向缺省输出文件(/dev/tty1)发出写的系统调用write(2)。系统调用到linux核心里面对应的核心函数是console.c中的con_write()，con_write()最终会调用do_con_write( )。在do_con_write( )中负责把"hello, world.\n"这个字符串放到tty1对应的缓冲区中去。

do_con_write( )还负责处理控制字符和光标的位置。让我们来看一下do_con_write()这个函数的声明。

static int do_con_write(struct tty_struct * tty, int

from_user, const unsigned char *buf, int count) 其中tty是指向tty_struct结构的指针，这个结构里面存放着关于这个tty的所有信息（请参照linux/include/linux/tty.h）。Tty_struct结构中定义了通用（或高层）tty的属性（例如宽度和高度等）。

在do_con_write( )函数中用到了tty_struct结构中的driver_data变量。

driver_data是一个vt_struct指针。在vt_struct结构中包含这个tty的序列号（我们正使用tty1，所以这个序号为1）。Vt_struct结构中有一个vc结构的数组vc_cons，这个数组就是各虚拟终端的私有数据。

static int do_con_write(struct tty_struct * tty, int

from_user,const unsigned char *buf, int count)

{

struct vt_struct *vt = (struct vt_struct *)tty->

driver_data;//我们用到了driver_data变量

. . . . .

currcOns= vt->vc_num; file://我们在这里的vc_nums就是1

. . . . .

}

要访问虚拟终端的私有数据，需使用vc_cons〔currcons〕.d指针。这个指针指向的结构含有当前虚拟终端上光标的位置、缓冲区的起始地址、缓冲区大小等等。

"hello, world.\n"中的每一个字符都要经过conv_uni_to_pc( )

这个函数转换成８位的显示字符。这要做的主要目的是使不同语言的国家能把１６位的UniCode码映射到8位的显示字符集上，目前还是主要针对欧洲国家的语言，映射结果为8位，不包含对双字节（double byte）的范围。

这种UNICODE到显示字符的映射关系可以由用户自行定义。在缺省的映射表上，会把中文的字符映射到其他的字符上，这是我们不希望看到也是不需要的。所以我们有两个选择∶

1不进行conv_uni_to_pc( )的转换。

2加载符合双字节处理的映射关系，即对非控制字符进行1对1的不变映射。我们自己定制的符合这种映射关系的UNICODE码表是direct.uni。

要想查看/装载当前系统的unicode映射表，可使外部命令loadunimap。

经过conv_uni_to_pc( )转换之后，"hello, world.\n"中的字符被一个一个地填写到tty1的缓冲区中。然后do_con_write( )调用下层的驱动，把缓冲区中的内容输出到显示器上（也就相当于把缓冲区的内容拷贝到VGA显存中去）。

sw->con_putcs(vc_cons〔currcons〕.d, (u16 *)draw_from, (u16

*)draw_to-(u16 *)draw_from, y, draw_x);

之所以要调用底层驱动，是因为存在不同的显示设备，其对应VGA显存的存取方式也不一样。

上面的Sw->con_putcs( )就会调用到fbcon.c中的fbcon_putcs()函数（con_putcs是一个函数的指针，在Framebuffer模式下指向fbcon_putcs()函数）。也就是说在do_con_write( )函数中是直接调用了fbcon_putcs()函数来进行字符的绘制。比如说在256色模式下，真正负责输出的函数是void fbcon_cfb8_putcs(struct vc_data *conp, struct display *p,const unsigned short *s, int count, int

yy, int xx)

显示中文

比如说我们试图输出一句中文∶putcs(你好\n );（你好的内码为0xc4,0xe3,0xba,0xc3）。这时候会怎么样呢，有一点可以肯定，＂你好＂肯定不会出现在屏幕上，原因有∶核心中没有汉字字库，中文显示就是无米之炊了．

1在负责字符显示的void fbcon_cfb8_putcs( )函数中，原有操作如下∶对于每个要显示的字符，依次从虚拟终端缓冲区中以WORD为单位读取（低位字节是ASCII码，高8位是字符的属性），由于汉字是双字节编码方式，所以这种操作是不可能显示出汉字的，只能显示出xxxx_putcs()是一个一个VGA字符．

要解决的问题∶

确保在do_con_write( )时uni□pc转换不会改变原有编码。一个很直接的实现方式就是加载一个我们自己定制的UNICODE映射表，loadunimapdirect.uni，或者直接把direct.uni置为核心的缺省映射表。

针对如上问题，我们要做的第一个尝试方案是如下。

首先需要在核心中加载汉字字库，然后修改fbcon_cfb8_putcs()函数，在fbcon_cfb8_putcs( )中一次读两个WORD，检查这两个WORD的低位字节是否能拼成一个汉字，如果发现能拼成一个汉字，就算出这个汉字在汉字字库中的偏移，然后把它当成一个16 x 16的VGA字符来显示。

试验的结果表明∶

1能够输出汉字，但仍有许多不理想的地方，比如说，输出以半个汉字开始的一串汉字，则这半个汉字后面的汉字都会是乱码。这是半个汉字的问题。

2光标移动会破坏汉字的显示。表现为，光标移动过的汉字会变成乱码。这是因为光标的更新是通过xxxx_putc( )函数来完成的。

xxxx_putc( )函数与xxxx_putcs( )函数实现的功能类似，但是xxxx_putc()函数只刷新一个字符而不是一个字符串，因而xxxx_putc()的输入参数是一个整数，而不是一个字符串的地址。Xxxx_putc( )函数的声明如下∶void fbcon_cfb8_putc(struct vc_data *conp, struct display *p, int c, int yy, int xx)

下一个尝试方案就是同时修改xxxx_putcs( )函数和xxxx_putc()函数。为了解决半个汉字的问题，每一次输出之前，都从屏幕当前行的起始位置开始扫描，以确定要输出的字符是否落在半个汉字的位置上。如果是半个汉字的位置，则进行相应的调整，即从向前移动一

个字节的位置开始输出。

这个方案有一个困难，即xxxx_putc( )函数不用缓冲区的地址，而是用一个整数作为参数。所以xxxx_putc( )无法直接利用相邻的字符来判别该定符是否是汉字。

解决方案是，利用xxxx_putc( )的光标位置参数（yy, xx），可以逆推出该字符在缓冲区中的位置。但仍有一些小麻烦，在Linux的虚拟终端下，用户可能会上卷该屏幕（shift + pageup），导致光标的y座标和相应字符在缓冲区的行数不一致。相应的解决方案是，在逆推的过程中，考虑卷屏的参量。

这样一来，我们就又进了一步，得到了一个相对更好的版本。但仍有问题没有解决。敲入turbonetcfg，会发现菜单的边框字符也被当成汉字显示。这是因为，这种边框字符是扩展字符，也使用了字符的第8位，因而被当作汉字来显示。例如，单线一的制表符内码为0xC4，当连成一条长线就是由一连串0xC4组成，而0xC4C4正是汉字哪。于是水平的制表符被一连串的哪字替代了。要解决这个问题就非常不容易了，因为制表符的种类比较多，而且垂直制表符与其后面字符的组合型式又多种多样，因而很难判断出相应位置的字符是不是制表符，从理论上说，无论采取什么样的排除算法，都必然存在误判的情况，因为总存在二义性，没有充足的条件来推断出当前字符究竟是制表符还是汉字。

我们一方面寻找更好的排除组合算法，一方面试图寻找其它的解决方案。要想从根本上解决定个问题，必须利用其它的辅助信息，仅仅从缓冲区的字符来判断是不够的。

经过一番努力，我们发现，在UNIX中使用扩展字符时，都要先输出字符转义序列（Escape sequence）来切换当前字符集。字符转义序列是以控制字符Esc为首的控制命令，在UNIX的虚拟终端中完成终端控制命令，这种命令包括，移动光标座标、卷屏、删除、切换字符集等等。也就是说在输出代表制表符的字符串之前，通常是要先输出特定的字符转义序列。在console.c里，有根据字符转义序列命令来记录字符状态的变量。结合该变量提供的信息，就可以非常干净地把制表符与汉字区别开来。

在如上思路的指引下，我们又产生了新的解决方案。经过改动得到了另一各版本．

在这个新版本上，turbonetcfg在初次绘制的时候，制表符与汉字被清晰地区分开来，结果是非常正确的。但还有新的问题存在∶turbonetcfg在重绘的时候（如切换虚拟终端或是移动鼠标光标的时候），制表符还是变成了汉字，因为重绘完全依赖于缓冲区，而这时用来记录字符集状态的变量并不反映当前字符集状态。问题还是没有最终解决。我们又回到了起点。∶( 看来问题的最终解决手段必须是把字符集的状态伴随每一个字符存在缓冲区中。让我们来研究一下缓冲区的结构。

每一个字符占用16bit的缓冲区，低8位是ASCII值，完全被利用，高8位包含前景颜色和背景颜色的属性，也没有多余的空间可以利用。因而只能另外开辟新的缓冲区。为了保持一致性，我们决定在原来的缓冲区后面添加相同大小的缓冲区，用来存放是否是汉字的信息。

也许有读者会问，我们只需要为每个字符添加一bit的信息来标志是否是汉字就足够了，为什么还要开辟与原缓冲区大小相同的双倍缓冲区，是不是太浪费呢？

我们先放下这个问题，稍后再作回答。

其实，如果再添加一bit来标志是当前字符是汉字的左半边还是右半边的话，就会省去扫描屏幕上当前整行字符串的工作，这样一来，编程会更简单。但是有读者会问，即使是这样，使用8bit总够用了吧？为什么还要使用16bit呢？

我们的作法是∶用低8位来存放汉字另外一半的内码，用高8位中的2 bit来存放上面所讲的辅助信息，高8位的剩余6位可以用来存放汉字或其它编码方式（如BIG5或日文、韩文）的信息，从而使我们可以实现同屏显示多种双字节语言的字符而不会有相互干扰。另外，在编程时，双倍缓冲也比较容易计算。

这样我们就回答了如上的两个问题。

迄今为止，我们有了一套彻底解决汉字和制表符相互干扰、半个汉字的刷新、重绘等问题的方案。剩下的就是具体编程实现的问题了。

但是，由于Framebuffer的驱动很多，修改每一个驱动的xxxx_putc()函数和xxxx_putcs( )函数会是一项不小的工作，而且，改动驱动程序后，每种驱动的测试也是很麻烦的，尤其是对于有硬件加速的显卡，修改和测试会更不容易。

那么，存不存在一种不需要修改显卡驱动程序的方法呢？

经过一番努力，我们发现，可以在调用xxxx_putcs( )或xxxx_putc()函数输出汉字之前，修改vga字库的指针使其指向所需显示的汉字在汉字字库中的位置，即把一个汉字当成两个vga ASCII字符输出。也就是说，在内核中存在两个字库，一个是原有的vga字符字库，另一个是汉字字库，当我们需要输出汉字的时候，就把vga字库的指针指向汉字字库的相应位置，汉字输出完之后，再把该指针指向vga字库的原有位置。

这样一来，我们只需要修改fbcon.c和console.c，其中console.c负责维护双倍缓冲区，把每一个字符的信息存入附加的缓冲区；而fbcon.c负责利用双倍缓冲区中附加的信息，调整vga字库的指针，调用底层的显示驱动程序。

这里还有几个需要注意的地方∶

1．由于屏幕重绘等原因，调用底层驱动xxxx_putc( )和xxxx_putcs()的地方有多处。我们作了两个函数分别包装这两个调用，完成替换字库、调用xxxx_putcs( )或xxxx_putc( )、恢复字库等功能。

2．为了实现向上滚屏（shift + pageup）时也能看到汉字，我们需要作另外的修改。

Linux在设计虚拟终端的时候，提供了回顾被卷出屏幕以外的信息的功能，这就是用热键来向上滚屏（shift + pageup）。当前被使用的虚拟终端拥有一个公共的缓冲区（soft back），用来存放被滚出屏幕以外的信息。当切换虚拟终端的时候，公共缓冲区的内容会被清除而被新的虚拟终端使用。向上滚屏的时候，显示的是公共缓冲区中的内容。因此，如果我们想在向上滚屏的时候看到汉字，公共缓冲区也必须加倍，以确保没有信息丢失。当滚出屏幕的信息向公共缓冲区填写的时候，必须把相应的附加信息也填写进公共缓冲区的附加区域。这就要求fbcon.c必须懂得利用公共缓冲区的附加信息。

当然，有另外一种偷懒的方法，那就是不允许用户向上滚屏，从而避免对公区缓冲区的处理。

3.把不同的编码方式（GB、BIG5、日文和韩文）写成不同的module，以实现动态加载，从而使得扩展新的编码方式不需要重新编译核心。

小结

通过这次针对Linux核心的探索，我们发现，目前Linux的核心设计中，完全没有考虑到双字节编码字符的显示。我们在这种情况下摸索出一套解决核心下汉字显示的方法，并编码实现了该方案．

遵循核心的GPL版权声明，我们同时公布了实现这一技术的源代码，当然，这些改动仍然是GPL的．如果能对研究核心的朋友有所帮助，减少一些大家对核心的神秘感，将是我们最大的收获。

但是对核心和中文化来说，这仅仅是一种尝试，远不是终点．这种改动多少带有一些hack的色彩，不太可能融合进权威的核心里去．我们仍在积极探索圆满解决这一问题的方法，相信这一结果必然需要通过国内外Linux群体的共同努力才能实现．我们也非常欢迎大家和我们共同讨论这一问题．

测试

本文实现的Kernel Patch文件（patch.kernel.chinese）可以从http://www.turbolinux.com.cn下载。Cd /usr/src/（该目录下应有Linux核心源程序所在的目录linux/） patch -p0 -b
〔*〕 Double Byte Character Display Support(EXPERIMENTAL)

〔*〕 Double Byte GB encode (module only)

〔*〕 VESA VGA graphics console

<*> Virtual Frame Buffer support (ONLY FOR TESTING!)

<*> 8 bpp packed pixels support

<*> 16 bpp packed pixels support

<*> VGA characters/attributes support

〔*〕 Select compiled-in fonts

〔*〕VGA 8x8 font

〔*〕VGA 8x16 font

make dep

make bzImage

make modules

make install

make modules_install

然后用新的核心启动。

Insmod encode-gb.o

linux
算法

推荐阅读

shell
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
shell
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
运维
大数据就业前景及人才需求

近年来，大数据成为互联网世界的新宠儿，被列入阿里巴巴、谷歌等公司的战略规划中，也在政府报告中频繁提及。据《大数据人才报告》显示，目前全国大数据人才仅46万，未来3-5年将出现高达150万的人才缺口。根据领英报告，数据剖析人才供应指数最低，且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示，未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中，60%以上的招聘职位都是针对大数据人才的。 ... [详细]

蜡笔小新 2023-12-14 16:25:20
运维
提升Python编程效率的十点建议

本文介绍了提升Python编程效率的十点建议，包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间，提高编程效率。同时，还提供了相关参考链接供读者深入学习。 ... [详细]

蜡笔小新 2023-12-14 21:51:04
运维
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
运维
JavaScript疑难杂症系列相称性推断的知识点详解

本文详细解析了JavaScript中相称性推断的知识点，包括严厉相称和宽松相称的区别，以及范例转换的规则。针对不同类型的范例值，如差别范例值、统一类的原始范例值和统一类的复合范例值，都给出了具体的比较方法。对于宽松相称的情况，也解释了原始范例值和对象之间的比较规则。通过本文的学习，读者可以更好地理解JavaScript中相称性推断的概念和应用。 ... [详细]

蜡笔小新 2023-12-14 19:12:10
apache
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
centos
CentOS7.0 U盘刻录工具使用方法详解

本文介绍了使用CentOS7.0 U盘刻录工具进行安装的详细步骤，包括使用USBWriter工具刻录ISO文件到USB驱动器、格式化USB磁盘、设置启动顺序等。通过本文的指导，用户可以轻松地使用U盘安装CentOS7.0操作系统。 ... [详细]

蜡笔小新 2023-12-14 18:55:14
centos
JS进修笔记——闭包的运转机制和作用域

本文介绍了闭包的定义和运转机制，重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则，闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]

蜡笔小新 2023-12-14 18:45:00
centos
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
centos
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
运维
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
运维
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
运维
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
运维
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36

牧童的伙伴_168

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章