9赞
720
当前位置:  开发笔记 > 编程语言 > 正文

详解小白之KMP算法及python实现

在看子串匹配问题的时候,书上的关于KMP的算法的介绍总是理解不了。看了一遍代码总是很快的忘掉,后来决定好好分解一下KMP算法,算是给自己加深印象。感兴趣的朋友跟随小编一起看看吧

在看子串匹配问题的时候,书上的关于KMP的算法的介绍总是理解不了。看了一遍代码总是很快的忘掉,后来决定好好分解一下KMP算法,算是给自己加深印象。

在将KMP字串匹配问题的时候,我们先来回顾一下字串匹配的暴力解法:

假设字符串str为: "abcgbabcdh",  字串substr为: "abcd"

 从第一个字符开始比较,显然两个字符串的第一个字符相等('a'=='a'),然后比较第二个字符也相等('b'=='b'),继续下去,我们发现第4个字符不相等了('g'!='d'),这时候我们让'g'和字串的开头'a'比较,若两者相同,则同时后移一位比较下一个字母,不同则将str中比较的字符后移一位,然后和字串中开始的'a'比较。以此类推....我们可以在str中找到substr字串,并返回字串的位置。

这种暴力搜索方法很显然时间复杂度是O(m*n) n,m分别表示str字符串和substr字串的长度。m*n的复杂度显然是比较大的,当m或者n很大的时候,时间开销会很大。KMP算法则可以将时间复杂度下降到O(m+n),和O(m*n)相比明显下降。

KMP算法和暴力搜索方法之间的差别在于KMP算法在出现字符串不相等的情况时,不需要返回到字串的开头重新比较。

如何保证字符串不相等的情况出现时,字串不从最开始开始比较呢,这时候临时数组就登场了。

书本上总是介绍说是,判断此时字串中是否有相同前缀和后缀,懵逼脸......

看完临时数组是如何构造的你应该差不多就知道前后缀问题了。

** 临时数组 ** : 我们假设子串为 'abcabg', 开始时j指向第一个字符,i指向第二个字符(j=0, i=1)。并且令pnext[0] = 0,如下图所示:

1)  由于substr[j] != substr[i] 并且j=0, 令pnext[i] = 0 , i往后移一位。(步骤1后,j=0, i=2)

2)  由于substr[j] != substr[i] 并且j=0, 令pnext[i] = 0 , i往后移一位。(步骤2后,j=0, i=3)

3)  此时substr[j] == substr[i], 令pnext[i] = j + 1, 并且 i , j 都后移一位。(步骤3后,j=1,i=4)

这时候我们来看一下临时数组的状态:

4)  substr[j] == substr[i] 还是成立, 令pnext[i] = j+1,  并且i, j都后移一位。(j=2,  i=5)

5)  此时 substr[j] != substr[i],由于j=2(不为0),令j = pnext[j-1]  (由于pnext[j-1] = pnext[1] = 0 ==> j=0, 保持 i=5)

6)  substr[j] != substr[i], 并且j=0, 令pnext[i] = 0, 并使i后移一位。(j=0, i=6)

7)  substr[j] == substr[i],  同理pnext[i] = j+1 ,并且i, j都向后移动一位。(j=1, i=7)

8)  substr[j] != substr[i], j != 0, j = pnext[j-1] = pnext[0] = 0。 (j=0, i=7)

9)  substr[j] != substr[i], 且j=0, 令pnext[i] = 0。(此时i到达最后一个位置,并且pnext数组全部赋值完毕。pnext数组构造结束)

临时数组构造完毕之后,就可以使用 KMP算法 了。

还是假设 字符串str = 'abgabcabgacyf', 子串 substr = 'abcabgac'.

令i指向str的第一个字符,j指向substr第一个字符。KMP算法的详细运行步骤如下:

><1>

str[i] == substr[j], i = i+1,  j = j+1. (步骤1之后: i=1, j=1)

><2>

str[i] == substr[j], i = i+1, j = j+1. (i=2, j=2)

><3>

str[i] != substr[j], 此时j != 0, 所以临时数组pnext就派上用场了。令 j = pnext[j-1].  (i=2,  j = pnext[2-1] = 0)

如果存在前后缀的话(即pnext[j-1]!=0),由于此步骤之前的substr与str相同(要不然 j 也不会往后移动了),这里举一个例子帮助理解:

如图,当i和j位于图中时刻,字符j与p不相等。(p之前的abcdab肯定和上面相等,要不然j不会移动到字符p上),按照暴力搜索的方法是不是要让j和子串的第一个字符a比较呢。KMP算法就不需要,我们可以看到子串中p之前的字符存在最大相等前后缀为'ab', 那在下一次比较的时候‘ab'是不是就不用比较了呢。从而直接比较j和c呢??(如下图)这就是KMP算法的精髓所在

<4> 这时候str[i] != substr[j], 但是和步骤<3>不一样的是,此时j=0(由于pnext[-1]不存在,j不能等于pnext[j-1]了)。所以子串开头只能和str中下一个字符比较,即i = i+1。(i=3, j=0)

<5> str[i] == substr[j] ==> i = i+1, j = j+1. (i=4, j=1)

<6> 以此类推。这一过程存在两种方法中止,即i或者j不能再加1(加1就会发生越界的时候)。假设str的长度为n,substr的长度为m。当j==m时,说明找到了子串,否则没有找到。

def KMP_algorithm(string, substring):
  '''
  KMP字符串匹配的主函数
  若存在字串返回字串在字符串中开始的位置下标,或者返回-1
  '''
  pnext = gen_pnext(substring)
  n = len(string)
  m = len(substring)
  i, j = 0, 0
  while (i

 代码结果返回子串开始时的坐标位置。

看到这里如果还是没有懂得话,那就说明我表述的还不够好,推荐看看视频。

快速传送门:戳我

总结

以上所述是小编给大家介绍的详解小白之KMP算法及python实现,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对网站的支持!

推荐阅读
  • 原文地址:http:msdn.microsoft.comen-usmagazinecc163791.aspx 原文发布日期:9192005 原文已经被Microsoft删除了,收集过程中发现很多文章图都不全,那是因为原文的图都不全,所以特收集完整全文。 目录 前言 CLR启动程序(Bootstrap)创建的域 系统域(SystemDomain) 共享域(SharedD ... [详细]
  • 当删除多个元素时,程序会出现崩溃。原因是通过迭代器删除指定的元素时,指向那个元素的迭代器将失效,如果再次对失效的迭代器进行++操作,则会带来未定义行为,程序崩溃。解决方法有二,还是以上面的map容器为例,示例删除操作的正确实现 ... [详细]
  • 这篇文章主要介绍了Python的加密模块md5、sha、crypt使用实例,本文给出了MD5和crypt模块的代码实例,需要的朋友可以参考下 ... [详细]
  • 这篇文章主要介绍了通过C++学习Python,通过对比分析,让我们能够更好的学习python. ... [详细]
  • 用Python从零实现贝叶斯分类器的机器学习的教程
    这篇文章主要介绍了用Python从零实现贝叶斯分类器的教程,朴素贝叶斯算法属于机器学习中的基础内容、实用而高效,本文详细展示了用Python语言实现的步骤,需要的朋友可以参考下 ... [详细]
  • python编码最佳实践之总结,帮助大家整理了python编码最佳实践的相关知识点,重点从性能角度出发对python的一些惯用法做一个简单总结,感兴趣的小伙伴们可以参考一下 ... [详细]
  • 这篇文章主要介绍了Django返回json数据用法,结合实例形式分析了jQuery通过前端ajax发送get请求及后台使用Django接收GET请求并返回处理的json数据相关技巧,需要的朋友可以参考下 ... [详细]
  • 这篇文章主要介绍了Python正则表达式分组概念与用法,结合具体实例形式较为详细的分析了Python正则表达式中分组、引用、断言等概念与相关使用技巧,需要的朋友可以参考下 ... [详细]
  • K-近邻算法的python实现代码分享
    这篇文章主要介绍了K-近邻算法的python实现代码分享,具有一定借鉴价值,需要的朋友可以参考下。 ... [详细]
  • 这篇文章主要给大家介绍了关于利用python解决mysql视图导入导出依赖的问题,文中通过示例代码介绍的非常详细,对大家学习或者使用python具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧。 ... [详细]
devbox
凌子的夏天_952
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved PHP1.CN 第一PHP社区 版权所有 京ICP备19059560号-4