热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

朴素的模式匹配算法与KMP模式匹配算法

串的模式匹配:子串的定位操作例如要从主串Sgoodgoogle中找到google这个子串T的位置(第一个字符的位置)。朴素的模式匹配算法:也就

    串的模式匹配:子串的定位操作

    例如要从主串S "goodgoogle"中找到"google"这个子串T的位置(第一个字符的位置)。

 

朴素的模式匹配算法:

也就是从主串的第一个元素开始循环一个子串的长度逐个比较,直到匹配成功或无法完成一个子串长度的循环。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16

 

 

KMP模式匹配算法:

与朴素模式匹配算法的不同就是根据第一次比较后的子串T中的某些信息(某个子串中前缀与后缀的最大相似度k,k=前缀与后缀相等部分+1),然后让子串T直接移动 j-k 位,不用像朴素模式匹配算法一样每次只移动一位。

 

前缀:总是以其主串第一个字符开始的子串

比如:google的前缀有 g go goo goog googl

 

后缀:总是以其主串最后一个字符结束的子串

比如:google的后缀有 e le gle ogle oogle

 

那么如何看最大相似度k呢?

举个例子还是主串S "goodgoogle"串"google",首先从主串的第一个元素开始比较。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16

 找到第一个不相等的位置j=4,'d'不等与'g'。

然后找其前面的每个子串 g go goo 的前缀与后缀的最大相似度k。

可以用next[j]函数来计算k,j=每个子串的长度。

next[j]={

             0,   j=1时

             Max{k|1

                        P(j-k+1)···P(j-1)}!=NULL

             1,  其他情况(没有前缀与后缀或者

                     前缀与后缀没有相等部分)

}

什么意思?

我们来演示一遍,找j=4之前的子串 g go goo

next[1],因为j=1,所以next[1]=0。

next[2],子串go ,看其前面的子串 g 的前缀与后缀的相等部分,因为 g 没有前缀与后缀,所以属于其他情况,所以next=1。

next[3],子串goo,前缀有 g go ,后缀 o oo,

前缀与后缀没有共同部分属于其他情况,所以

next[3]=1;

 

所以最大相似度k=1,所以子串T直接移动(4-1)位。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16

 这样节省了2步,当然因为之前就已经判断过g!=d 了,这里又重复了,这是kMP模式匹配的缺点,当然,有改进版,等下会说。

 

再来看几个例子熟悉一下next[j]函数

T="abcabx"

它的各个子串的相似度k的值

next[1],j=1,next[1]=1

next[2],a 无前缀与后缀,next[2]=1

next[3],ab 前缀a与后缀b没有相等部分

                 next[3]=1

next[4],abc前缀a ab与后缀c bc没有相等部分

                next[4]=1

next[5],abca前缀 a 与后缀 a 相等,长度为1

                k=相等部分长度+1,所以next[5]=2

next[6],abcab,前缀ab 与后缀 ab 相等

                长度为2,k=2+1=3,next[6]=3

 

如何使用next[j]函数呢?

比如在主串"abcdefgh"中找到该子串T"abcabx"

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16

 首先找到 j=4,然后算出k=next[4]=1,然后直接移动 j-k=3 步。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16

注意 j 的变化,由4变1,next[4]=1,所以

next[1]函数的值就是 j 值回溯。

 

再来看从主串S"abcababc"中寻找子串T"abcabx"的位置。首先比较一次。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16

 j=6,next[6]=3,移动(6-3)位

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16

 注意,j由6变成3了 (next[6]=3)

 

也可以这样理解KPM模式匹配算法

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16

求出子串T每个位置之前的前缀与后缀的最大相似度k,然后与主串比较,遇到第一个不相等的字符时,记下其在子串T中的位置 j,然后直接移动( j-next[j] )位。

 

由上图可知,其实就是用了置换法,第一次比较时,该后缀已经与主串对应部分相匹配,因为该前缀等于该后缀,所以可以直接移动到该位置,并且该公共部分无需再比较也是相等的,直接从其公共部分的下一位开始比较。

 

KMP模式匹配算法改进版

就拿刚才所说的例子,主串"goodgoogle"和

子串"google"。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16

 按KMP模式匹配算法移动后

 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16 

 注意,移动前的 j=4 对应的字符与移动后 j =1

的字符相等都是g,并且第一次比较时已经判断了j=4的字符与主串不相等,按该方法移动后则重复比较了。

 

也可以这样子看:

按原本的KMP法,移动后直接从前后缀公共部分的下一位开始比较

 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5pel5L2c5pyI5oGv,size_20,color_FFFFFF,t_70,g_se,x_16 

 若移动后j1-next[j1]的 j2的字符与移动前的 j1的字符相等,则又要按KMP法继续移动

j2-next[j2] ··· 直到移动前后的 j 的字符不相等为止。KMP改进法就是一步到位,直接把这么多步加起来的算法也就是nextval[j]算法。

 

nextval[j]算法:首先也需要算next[j],为了比较移动前后j位置的字符是否相等。

    j=1时,nextval[1]=0

    后面的:

    若移动前后的 j 的字符不相等,说明只需移动一次,则nextval[j]=next[j]。

    若移动前后的 j 的字符相等,则说明需移动多次,可以用类似于迭代法来计算,

nextval[j]=nextval[next[j]]。

 

举个例子:T串"ababaaaba"

next[j]=011234223,则

 

nextval[1]=0

 

nextval[2]:移动前的 j 的字符为b,移动后

j=next[2]=1 的字符为a,不相等,

则nextval[2]=next[2]=1。

 

nextval[3]:移动前的 j 的字符为a,移动后

j=next[3]=1 的字符为a,相等,

则nextval[3]=nextval[next[3]]=nextval[1]=0。

 

nextval[4]:移动前的 j 的字符为b,移动后

j=next[4]=2 的字符为b,相等,

则nextval[4]=nextval[next[4]]=nextval[2]=1。

 

nextval[5]:移动前的 j 的字符为a,移动后

j=next[5]=3 的字符为a,相等,

则nextval[5]=nextval[next[5]]=nextval[3]=0。

 

nextval[6]:移动前的 j 的字符为a,移动后

j=next[6]=4 的字符为b,不相等,

则nextval[6]=next[6]=4。

 

nextval[7]:移动前的 j 的字符为a,移动后

j=next[7]=2 的字符为b,不相等,

则nextval[7]=next[7]=2。

 

nextval[8]:移动前的 j 的字符为b,移动后

j=next[8]=2 的字符为b,相等,

则nextval[8]=nextval[next[8]]=nextval[2]=1。

 

nextval[9]:移动前的 j 的字符为a,移动后

j=next[9]=3 的字符为a,相等,

则nextval[9]=nextval[next[9]]=nextval[3]=0。

 

所以nextval[j]=010104210

 

回到最初的问题,"google",首先先计算它的

next[j]函数,再算nextval[j]函数,然后找到第一个出现不等符号的位置 j,然后直接用移动

j-nextval[j]个位置就行了。

 

"google"

next[j]=011121

nextval[j]=011021

第一次比较得到j=4,则移动4-0=4位,相当于

原KMP法执行了两次之和 3+1。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • 生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍
    一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks(论文下载链接arxiv:[h ... [详细]
  • 提升Python编程效率的十点建议
    本文介绍了提升Python编程效率的十点建议,包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间,提高编程效率。同时,还提供了相关参考链接供读者深入学习。 ... [详细]
  • Echarts图表重复加载、axis重复多次请求问题解决记录
    文章目录1.需求描述2.问题描述正常状态:问题状态:3.解决方法1.需求描述使用Echats实现了一个中国地图:通过选择查询周期&#x ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • IhaveconfiguredanactionforaremotenotificationwhenitarrivestomyiOsapp.Iwanttwodiff ... [详细]
  • Python字典推导式及循环列表生成字典方法
    本文介绍了Python中使用字典推导式和循环列表生成字典的方法,包括通过循环列表生成相应的字典,并给出了执行结果。详细讲解了代码实现过程。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • 本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度,要求从最低点跳跃到最高点,每次跳跃的距离不超过D,并且不能改变给定的顺序。通过建立差分约束系统,将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法,并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ... [详细]
author-avatar
允思顾我在
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有