热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

中文分词之最大匹配

转载:http:apps.hi.baidu.comsharedetail15014495中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还

转载:http://apps.hi.baidu.com/share/detail/15014495


中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地 位。中文分词入门最简单应该是最大匹配法了,当年师兄布置给我的第一个学习任务就是实现最大匹配 法的分词算法(正向、逆向)。记得当时对自己参考学习最有帮助的是北大詹卫东老师“中文信息处理基础”的课件和源程序,不过他实现的是mfc程序,词表存 储在数据库里。自己实现时用纯c++实现,利用hash_map存储词表。这里我介绍一下相关的知识和一个简单的程序示例,部分参考自詹老师的讲义。
正向最大匹配法算法如下所示:
最大匹配法图
(注:以上最大匹配算法图来自于詹老师讲义)
逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子:
输入例句:S1=”计算语言学课程有意思” ;
定义:最大词长MaxLen = 5;S2= ” “;分隔符 = “/”;
假设存在词表:…,计算语言学,课程,意思,…;
最大逆向匹配分词算法过程如下:
(1)S2=”";S1不为空,从S1右边取出候选子串W=”课程有意思”;
(2)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有意思”;
(3)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有意思”;
(4)查词表,W不在词表中,将W最左边一个字去掉,得到W=”意思”
(5)查词表,“意思”在词表中,将W加入到S2中,S2=” 意思/”,并将W从S1中去掉,此时S1=”计算语言学课程有”;
(6)S1不为空,于是从S1左边取出候选子串W=”言学课程有”;
(7)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程有”;
(8)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程有”;
(9)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有”;
(10)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有”,这W是单字,将W加入到S2中,S2=“ /有 /意思”,并将W从S1中去掉,此时S1=”计算语言学课程”;
(11)S1不为空,于是从S1左边取出候选子串W=”语言学课程”;
(12)查词表,W不在词表中,将W最左边一个字去掉,得到W=”言学课程”;
(13)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程”;
(14)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程”;
(15)查词表,“意思”在词表中,将W加入到S2中,S2=“ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=”计算语言学”;
(16)S1不为空,于是从S1左边取出候选子串W=”计算语言学”;
(17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=”";
(18)S1为空,输出S2作为分词结果,分词过程结束。

相应程序示例:
准备文件:建立一个词表文件wordlexicon,格式如下
计算语言学
课程
意思
输入文件:test,格式如下
计算语言学课程有意思
编译后执行如下:SegWord.exe test
输出分词结果文件:SegmentResult.txt
源代码如下:
// Dictionary.h
#include
#include
#include
#include
#include

using namespace std;
using namespace stdext;

class CDictionary
{
public:
CDictionary(); //将词典文件读入并构造为一个哈希词典
~CDictionary();
int FindWord(string w); //在哈希词典中查找词

private:
string strtmp; //读取词典的每一行
string word; //保存每个词
hash_map wordhash; // 用于读取词典后的哈希
hash_map::iterator worditer; //
typedef pair sipair;
};

//将词典文件读入并构造为一个哈希词典
CDictionary::CDictionary()
{
ifstream infile(“wordlexicon”); // 打开词典
if (!infile.is_open()) // 打开词典失败则退出程序
{
cerr <<"Unable to open input file: " <<"wordlexicon"
<<" -- bailing out!" < exit(-1);
}
while (getline(infile, strtmp, &#39;n&#39;)) // 读入词典的每一行并将其添加入哈希中
{
istringstream istr(strtmp);
istr >> word; //读入每行第一个词
wordhash.insert(sipair(word, 1)); //插入到哈希中
}
}

CDictionary::~CDictionary()
{
}

//在哈希词典中查找词&#xff0c;若找到&#xff0c;则返回&#xff0c;否则返回
int CDictionary::FindWord(string w)
{
if (wordhash.find(w) !&#61; wordhash.end())
{
return 1;
}
else
{
return 0;
}
}

// 主程序main.cpp
#include “Dictionary.h”

# define MaxWordLength 10 // 最大词长为个字节&#xff08;即个汉字&#xff09;
# define Separator “/ ” // 词界标记

CDictionary WordDic; //初始化一个词典

//对字符串用最大匹配法&#xff08;正向或逆向&#xff09;处理
string SegmentSentence(string s1)
{
string s2 &#61; “”; //用s2存放分词结果

while(!s1.empty())
{
int len &#61;(int) s1.length(); // 取输入串长度
if (len > MaxWordLength) // 如果输入串长度大于最大词长
{
len &#61; MaxWordLength; // 只在最大词长范围内进行处理
}

//string w &#61; s1.substr(0, len); // &#xff08;正向用&#xff09;将输入串左边等于最大词长长度串取出作为候选词
string w &#61; s1.substr(s1.length() – len, len); //逆向用
int n &#61; WordDic.FindWord(w); // 在词典中查找相应的词
while(len > 2 && n &#61;&#61; 0) // 如果不是词
{
len -&#61; 2; // 从候选词右边减掉一个汉字&#xff0c;将剩下的部分作为候选词
//w &#61; w.substr(0, len); //正向用
w &#61; s1.substr(s1.length() – len, len); //逆向用
n &#61; WordDic.FindWord(w);
}
//s2 &#43;&#61; w &#43; Separator; // (正向用&#xff09;将匹配得到的词连同词界标记加到输出串末尾
w &#61; w &#43; Separator; // (逆向用)
s2 &#61; w &#43; s2 ; // (逆向用)
//s1 &#61; s1.substr(w.length(), s1.length()); //(正向用)从s1-w处开始
s1 &#61; s1.substr(0, s1.length() – len); // (逆向用)
}
return s2;
}

//对句子进行最大匹配法处理&#xff0c;包含对特殊字符的处理
string SegmentSentenceMM (string s1)
{
string s2 &#61; “”; //用s2存放分词结果
int i;
int dd;
while(!s1.empty() )
{
unsigned char ch &#61; (unsigned char)s1[0];
if (ch <128) // 处理西文字符
{
i &#61; 1;
dd &#61; (int)s1.length();
while (i

{
i&#43;&#43;;
}
if ((ch !&#61; 32) && (ch !&#61; 10) && (ch !&#61; 13)) // 如果不是西文空格或换行或回车符
{
s2 &#43;&#61; s1.substr(0,i) &#43; Separator;
}
else
{
if (ch &#61;&#61; 10 || ch &#61;&#61; 13) // 如果是换行或回车符&#xff0c;将它拷贝给s2输出
{
s2 &#43;&#61; s1.substr(0, i);
}
}
s1 &#61; s1.substr(i,dd);
continue;
}
else
{
if (ch <176) // 中文标点等非汉字字符
{
i &#61; 0;
dd &#61; (int)s1.length();
while(i
&#61; 161)
&& (!((unsigned char)s1[i] &#61;&#61; 161 && ((unsigned char)s1[i&#43;1] >&#61; 162 && (unsigned char)s1[i&#43;1] <&#61; 168)))
&& (!((unsigned char)s1[i] &#61;&#61; 161 && ((unsigned char)s1[i&#43;1] >&#61; 171 && (unsigned char)s1[i&#43;1] <&#61; 191)))
&& (!((unsigned char)s1[i] &#61;&#61; 163 && ((unsigned char)s1[i&#43;1] &#61;&#61; 172 || (unsigned char)s1[i&#43;1] &#61;&#61; 161)
|| (unsigned char)s1[i&#43;1] &#61;&#61; 168 || (unsigned char)s1[i&#43;1] &#61;&#61; 169 || (unsigned char)s1[i&#43;1] &#61;&#61; 186
|| (unsigned char)s1[i&#43;1] &#61;&#61; 187 || (unsigned char)s1[i&#43;1] &#61;&#61; 191)))
{
i &#61; i &#43; 2; // 假定没有半个汉字
}
if (i &#61;&#61; 0)
{
i &#61; i &#43; 2;
}
if (!(ch &#61;&#61; 161 && (unsigned char)s1[1] &#61;&#61; 161)) // 不处理中文空格
{
s2&#43;&#61;s1.substr(0, i) &#43; Separator; // 其他的非汉字双字节字符可能连续输出
}
s1 &#61; s1.substr(i, dd);
continue;
}
}

// 以下处理汉字串
i &#61; 2;
dd &#61; (int)s1.length();
while(i

&#61; 176)
{
i &#43;&#61; 2;
}
s2 &#43;&#61; SegmentSentence(s1.substr(0, i));
s1 &#61; s1.substr(i,dd);
}

return s2;
}

int main(int argc, char *argv[])
{
string strtmp; //用于保存从语料库中读入的每一行
string line; //用于输出每一行的结果

ifstream infile(argv[1]); // 打开输入文件
if (!infile.is_open()) // 打开输入文件失败则退出程序
{
cerr <<"Unable to open input file: " < <<" -- bailing out!" < exit(-1);
}

ofstream outfile1("SegmentResult.txt"); //确定输出文件
if (!outfile1.is_open())
{
cerr <<"Unable to open file&#xff1a;SegmentResult.txt"
<<"--bailing out!" < exit(-1);
}

while (getline(infile, strtmp, &#39;n&#39;)) //读入语料库中的每一行并用最大匹配法处理
{
line &#61; strtmp;
line &#61; SegmentSentenceMM(line); // 调用分词函数进行分词处理
outfile1 < }

return 0;
}

补充说明&#xff1a;如果使用正向匹配法&#xff0c;请将源代码中的相关注释 “//"互换。





推荐阅读
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • 本文介绍了C++中省略号类型和参数个数不确定函数参数的使用方法,并提供了一个范例。通过宏定义的方式,可以方便地处理不定参数的情况。文章中给出了具体的代码实现,并对代码进行了解释和说明。这对于需要处理不定参数的情况的程序员来说,是一个很有用的参考资料。 ... [详细]
  • 本文介绍了一种划分和计数油田地块的方法。根据给定的条件,通过遍历和DFS算法,将符合条件的地块标记为不符合条件的地块,并进行计数。同时,还介绍了如何判断点是否在给定范围内的方法。 ... [详细]
  • 本文介绍了解决二叉树层序创建问题的方法。通过使用队列结构体和二叉树结构体,实现了入队和出队操作,并提供了判断队列是否为空的函数。详细介绍了解决该问题的步骤和流程。 ... [详细]
  • 本文介绍了C函数ispunct()的用法及示例代码。ispunct()函数用于检查传递的字符是否是标点符号,如果是标点符号则返回非零值,否则返回零。示例代码演示了如何使用ispunct()函数来判断字符是否为标点符号。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 本文介绍了在mac环境下使用nginx配置nodejs代理服务器的步骤,包括安装nginx、创建目录和文件、配置代理的域名和日志记录等。 ... [详细]
  • 本文介绍了一个题目的解法,通过二分答案来解决问题,但困难在于如何进行检查。文章提供了一种逃逸方式,通过移动最慢的宿管来锁门时跑到更居中的位置,从而使所有合格的寝室都居中。文章还提到可以分开判断两边的情况,并使用前缀和的方式来求出在任意时刻能够到达宿管即将锁门的寝室的人数。最后,文章提到可以改成O(n)的直接枚举来解决问题。 ... [详细]
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • 3.223.28周学习总结中的贪心作业收获及困惑
    本文是对3.223.28周学习总结中的贪心作业进行总结,作者在解题过程中参考了他人的代码,但前提是要先理解题目并有解题思路。作者分享了自己在贪心作业中的收获,同时提到了一道让他困惑的题目,即input details部分引发的疑惑。 ... [详细]
  • 开发笔记:实验7的文件读写操作
    本文介绍了使用C++的ofstream和ifstream类进行文件读写操作的方法,包括创建文件、写入文件和读取文件的过程。同时还介绍了如何判断文件是否成功打开和关闭文件的方法。通过本文的学习,读者可以了解如何在C++中进行文件读写操作。 ... [详细]
  • 本文介绍了解决Netty拆包粘包问题的一种方法——使用特殊结束符。在通讯过程中,客户端和服务器协商定义一个特殊的分隔符号,只要没有发送分隔符号,就代表一条数据没有结束。文章还提供了服务端的示例代码。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的,最大不能超过XX ... [详细]
author-avatar
机智的树獭
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有