热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

KMP算法实现原理

KMP算法,是由Knuth,Morris,Pratt共同提出的模式匹配算法,其对于任何模式和目标序列,都可以在线性时间内完成匹配查找,而不会发生退化,是一个非常优秀的模式匹配算法。其算法的主要功能就是

KMP算法,是由Knuth,Morris,Pratt共同提出的模式匹配算法,其对于任何模式和目标序列,都可以在线性时间内完成匹配查找,而不会发生退化,是一个非常优秀的模

式匹配算法。其算法的主要功能就是寻找在给定的母串中寻找是否含有一个给定的连续字符串。下面举个例子,如图一所示:


图一:


我们需要在上面的目标串中寻找是否存在一个ABCDABD的字串,在这里我们将图一的长串称为目标串,短串叫做搜索串。图一示例了一般的寻找过程:我们从第一个字符

串开始寻找,如果第一个字符串不匹配,我们就继续检查下一个字符串是否匹配,如图2所示:

图二:


但是假设我们如果在目标串中找到了部分匹配字符,如下图所示:

图三:


从上图可以看出只有D字符与上面的目标串不一样,遇到这样的情况,如果我们还是将比较串向后移动一位的话,那么我们之前的ABCDAB就会重复搜索,这样效率就会降

低。当我们确定D不匹配时,前面6个字符是匹配的,那么我们可不可以利用这个信息来避免将搜索串一位一位向右移动以期待寻找在目标串中和搜索串第一个字符匹配的位

置,因为要确定搜索串是否存在于目标串中的第一步就是要找到两个字符串的公共字符,在上述的例子中就是字符A。那么为了解决这个问题,Knuth,Morris,Pratt利用一张

表来存放一个叫部分匹配值的数组,如下:

图四:


这个表的得到方法我们暂且不讨论,上表是基于“前缀”和“后缀”这两个概念,“前缀”是除了最后一个字符串意外,从第一个字符串开始长度依次递增1的字符串序列;“后

缀”则刚好相反;一下是前缀串和后缀串集合的产生过程:

图五:


那么知道了部分匹配数组是怎么来的,它的作用究竟是什么?在写博客之前,看过不少的人写文章来分析这个算法,但是觉得写得好的可能只有

http://www.ruanyifeng.com/blog/2013/05/Knuth–Morris–Pratt_algorithm.html,这篇博客很详细的介绍了算法的原理和部分匹配值数组的来历。下面就结合这篇博客和个人理解

来说说部分匹配值数组的作用。对于这种问题,我们一般的解决方案是将搜索串ABCDABD相对于目标串向右一位一位地移动,如果找在目标串中找到一个和搜索串的第一个字

符A相等的位置的话,我们会暂停将搜索串继续向右移动,而是继续比较它们的第二个字符串B,如果搜索串从头到尾都存在于目标串中,那么算法结束,否则继续将搜索串向右

移动。但在图三所示的情况,如果继续将搜索串向右一位一位移动以期待寻找在目标串中和搜索串第一个字符匹配的位置(因为要确定搜索串是否存在于目标串中的第一步就是

要找到两个字符串的公共字符)的话效率很低。为了确定搜索串的第一个字符在目标串的下一次出现位置(在常规的算法中,我们向右一位一位移动搜索串就是认为它们的公共字

符A在下一个位置出现),我们利用部分匹配值表来标记。还是上面的例子,我么匹配到D的时候失败了,但ABCDAB这些是匹配的,那么从部分匹配值表中可以知道,ABCDAB

这个符串中最后匹配位B的值为2,然后搜索串向后移动的位数=当前匹配的位数(6)-最后匹配字符的部分匹配值(B,2),这是什么意思????结合前面的前缀和后缀来看,2代表在

ABCDAB中,从第一个字符A开始与包含最后一个字符B为止的所有字符串集合中,它们所形成的最大公共子符串长度为2.移动的位数(4)=当前匹配的位数(6)-最后匹配字符的部

分匹配值(B,2)这个公式就代表将搜索串向后移动4个位置后又可以使目标串和搜索串的第一个字符相等(这样我们就可以后续的比较)。下面就用一张图来解释:


我们可以看到左右方框的字符长度相等且内容相等,那么将左边方框子符串向右移动(黑色区域的总长-方框字符长度)个单位后,就会重合。重合的位置的起点刚好是搜索串

的起点,这个起点的位置也是下一次搜索串的首字符和目标串当前位置相等的字符。所以现在关键的任务是求出部分匹配值表!!!!!

算法实现(c++):

vectorget_partial_match_table(string &s){
int size = s.size(),pre;
vectortab(size,0);
if (size == 1)return tab;
if (s[0] == s[1])tab[1] = 1;
else tab[1] = 0;
for (int i = 2; i if (s[i] == s[tab[i - 1]])tab[i] = tab[i - 1] + 1;
else{
if (s[i] == s[0])tab[i] = 1;
}

}
return tab;
}

算法利用动态规划方法。一开始我么将表的所有元素都置为0,我们还是用ABCDABD为例子:

index 0 1 2 3 4 5 6
char A B C D A B D
value 0 0 0 0 1 2 0

可以看到假设我们i=5,那么tab[i-1]=1,那么截止到i=4它的前缀集合是:
A,AB,ABC,ABCD
它的后缀集合是:
A,DA,CDA,BCDA,因为有一个A是一样的,所以tab[4]=1;
如果这时候我们把B(i=5)加进来,那么对于前缀来说就是增加了一项ABCDA,那么现在的前缀变成:
A,AB,ABC,ABCD,ABCDA;
后缀变成:
B,AB,DAB,CDAB,BCDAB;
那么他们的公共最长字符串就是AB,所以tab[5]=2;
总结来说就是:如果第i-1项的值为n,可以知道截止到第i-1位为止,它们的公共字符串长度为n,那么在新形成的后缀集
合中所有的字串的后面都加第i个字符,且增加一个以第i个字符单个形成的子集(以上面的字符B为例子),在新形成的前缀结

合中增加一个ABCDA即可。

下面是完整代码:

#include
#include
#include
#include
#include
#include
#include
using namespace std;


vectorget_partial_match_table(string &s){
int size = s.size(),pre;
vectortab(size,0);
if (size == 1)return tab;
if (s[0] == s[1])tab[1] = 1;
else tab[1] = 0;
for (int i = 2; i if (s[i] == s[tab[i - 1]])tab[i] = tab[i - 1] + 1;
else{
  if (s[i] == s[0])tab[i] = 1;
}

}
return tab;
}

int main(){
ifstream fin("C:\\Users\\Dell\\Desktop\\data.txt");
string tar, search;
vectortab;
while (fin >> tar >> search){
int size1 = tar.size(), size2 = search.size(), count = 0, begin = -1, pre_i;
int start = 0;//从下标start开始比较
tab = get_partial_match_table(search);
for (int i = 0; i count = 0;
start = 0;
pre_i = i;
while (start <= size2&&istart++;
count++;
i++;
}
if (count == size2){
begin = pre_i;
break;
}
else{//没有完全匹配
if (count>0)i = pre_i + count - tab[count - 1];
else i = pre_i + 1;
}
}
if (begin == -1)cout <<"Not Exist!" <else cout <<"The index of the first match char is: " <tab.clear();
}
return 0;
}

测试用例:

BBBBBBBBBBBB
AAAA
BBBBBB
BB
BBCABCDABABCDABCDABDE
ABCDABD
测试结果:





推荐阅读
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • 本文详细介绍了GetModuleFileName函数的用法,该函数可以用于获取当前模块所在的路径,方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释,帮助读者理解和使用该函数。同时,还提供了相关的API函数声明和说明。 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • 本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题,并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息,同时也提到了相关的警告信息和函数的替代方案。通过阅读本文,读者可以了解到如何解决Python连接服务器失败的问题,并对aiohttp模块有更深入的了解。 ... [详细]
  • 怎么在PHP项目中实现一个HTTP断点续传功能发布时间:2021-01-1916:26:06来源:亿速云阅读:96作者:Le ... [详细]
  • 解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法
    本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法,包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时,还介绍了修改nginx的error.log日志级别为debug,以便查看详细日志信息。 ... [详细]
  • 本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期,包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时,还介绍了一段使用正则表达式的代码,可以支持中文日期和一些特殊的时间识别,例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
  • 纠正网上的错误:自定义一个类叫java.lang.System/String的方法
    本文纠正了网上关于自定义一个类叫java.lang.System/String的错误答案,并详细解释了为什么这种方法是错误的。作者指出,虽然双亲委托机制确实可以阻止自定义的System类被加载,但通过自定义一个特殊的类加载器,可以绕过双亲委托机制,达到自定义System类的目的。作者呼吁读者对网上的内容持怀疑态度,并带着问题来阅读文章。 ... [详细]
  • 基于Socket的多个客户端之间的聊天功能实现方法
    本文介绍了基于Socket的多个客户端之间实现聊天功能的方法,包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息,而客户端通过输入流接收消息。同时,还介绍了相关的实体类和Socket的基本概念。 ... [详细]
  • 本文整理了315道Python基础题目及答案,帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者,这些题目将是一个不错的选择。请注意,答案在视频中,本文不提供答案。 ... [详细]
author-avatar
mobiledu2502863723
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有