热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

java实现apriori算法_KMP算法的JAVA实现

什么是KMP算法Knuth-Morris-Pratt算法(简称KMP)是常用的字符串匹配算法之一。假设现在有一个模式串a="ABACABAD"和一个主串b="BBC ABACABACABAD ABCD
7910e6022019111997ac0b0f3d8e1817.png

什么是KMP算法

Knuth-Morris-Pratt算法(简称KMP)是常用的字符串匹配算法之一。

假设现在有一个模式串a="ABACABAD"和一个主串b="BBC ABACABACABAD ABCDABDE",要判断主串b是否包含模式串a,如果包含,则返回出模式串在主串的位置下标。

易知使用暴力匹配算法的时间复杂度为O(m*n),其中m和n为模式串和主串的长度。而使用KMP算法,则能在线性时间O(m+n)中完成匹配工作。

KMP算法实现逻辑

使用暴力匹配算法时,每次不匹配,都需要从主串下一个位置从头匹配一次模式串,这种回溯工作,导致效率低下。KMP算法核心思想是充分利用上次不匹配时的计算结果,避免"一切重新开始"的计算工作。

以下通过一个简单的例子进行说明:

1、首先,使用主串的第一位与模式串的第一位进行比较,如果不同,则将主串的第二位与模式串的第一位进行比较,以此类推。

19d4fe8774f3534474891407ee139d80.png
比较主串第一位与模式串第一位的字符
92b74f1c3ed20d2921dddb739ff28880.png
比较主串第二位与模式串第一位的字符

2、直到主串有一个字符与模式串的第一位相同,则比较主串下一个位置的字符,是否与模式串的第二位相同,以此类推。

db148a89217c7385b1d2a435880d4dab.png
主串中的字符匹配到模式串的第一位字符
462b0d6c5a82dee8cd3582c52b277c14.png
比较主串的下一个字符与模式串的第二位字符

3、当匹配到某个位置,主串与模式串的字符不同时,此时不直接从主串下一个位置,再从头逐个比较。因为在比较过程中,我们可以知道两个细节:

(1)模式串的前面部分的字符串内容是与主串的部分字符是相同的。

(2)在该模式串"ABACABAD"中,下标0~2的字符是与下标4~6的字符是相同的。

因此,我们直接使用下标位置为3的字符与主串进行比较,这样就能大大提高效率了。

89b74caf6058f137dfda7a7fd618bc53.png
主串字符C与模式串D不匹配
bd2657a9df71b80f7f2aba1969bc0aba.png
模式串下标0~2的字符是与下标4~6的字符相同,因此也与主串的前三个位置的字符是匹配的
0ab7e086d01972303c6072a49fb7af3d.png
不重头开始比较,而是比较模式串下标3的字符与主串中的字符是否相同

4、以此类推,直到匹配到模式串的最后一位,或者扫描完主串。

cd8e7b6bb8dae085e69b30280085bbf2.png
匹配到模式串的最后一位

部分匹配表

在匹配步骤3中,其实利用了模式串本身字符的组合顺序信息,在KMP算法中,我们需要将该字符组合顺序信息记录起来,称之为"部分匹配表"。

"部分匹配表"是如何产生的呢?首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符,一个字符串的全部头部组合,"后缀"指除了第一个字符,一个字符串的全部尾部组合。

例如字符串a="ABCAB",前缀字符串集合为[A, AB, ABC,ABCA],后缀字符串集合为[B, AB, CAB,BCAB],可以看到前缀和后缀有相同的子串[AB]。

部分匹配值,其实就是计算出下标在0~i的子字符串中(i<=a.length),前缀与后缀最长相同子串的长度

"部分匹配表"计算规则可参考阮一峰老师的日志“字符串匹配的KMP算法”。

我们根据这个规则,可计算模式串a="ABACABAD"的部分匹配表,如下:

be8cd4f5b3c5569b90e2eb59379ded47.png

KMP算法的JAVA 代码实现

1.计算部分匹配值。

public static int[] kmpnext(String dest){
int[] next = new int[dest.length()];
next[0] = 0;
for(int i = 1,j = 0; i while(j > 0 && dest.charAt(j) != dest.charAt(i)){
j = next[j - 1];
}
if(dest.charAt(i) == dest.charAt(j)){
j++;
}
next[i] = j;
}
return next;
}

代码说明:

1)声明部分匹配表数组,用于存储匹配值。

2)当字符串为空字符串str="",没有前后缀字符串,因此最长匹配值为0,next[0] = 0。

3)循环字符串,计算出下标在0~i的字符串的部分匹配表,i初始化为1。j用于记录前缀与后缀最长相同子串的长度。

(a) 如果在0~i的子字符串,j=0,并且dest.charAt(j) != dest.charAt(i)时,表示在0~i这一段中,前后缀字符串集合中没有相同字符串,因此next[i]=j(即next[i]=0)。

(b) 如果在0~i的子字符串,j=0,dest.charAt(j) == dest.charAt(i)时,表示在0~i这一段中,前后缀字符串集合中有一个字符串相同,因此j++;next[i]=j;(即next[i]=1)。

(c) 如果在0~i的子字符串,dest.charAt(j) == dest.charAt(i)时,如果j>0,则表示上一轮比较,在0~i-1的子字符串中,前缀与后缀有相同子串。因此在0~i这一段中,前缀与后缀也有相同子串,并且最长的共有字符串长度为j++。因此j++;next[i]=j。

(d) 如果在0~i的子字符串,j>0,dest.charAt(j) != dest.charAt(i)时,则表示上一轮比较时,字符串[0~j-1]是字符串[0~i-1]中,前后缀的最长相同字符串,如果我们找到在字符串[0~j-1]中的最长前后缀相同字符串(记作maxComStr),继续比较maxComStr下一位与dest.charAt(i),则能减少比较次数。通过部分匹配表中可见,next[j-1]为[0~j-1]中前后缀最长相同字符串的长度,我们也可以理解为是最长相同字符串下一个字符的下标,因此j=next[j-1],举例说明:

8c0bfa93df25fe56528f9b94e3498cd0.png
dest.charAt(j) != dest.charAt(i)
b92c48d888485f18ef5a797160fcdc58.png
字符串[0~j-1]中,前缀字符串集合为[A,AB],后缀字符串集合为[A,BA],最长共有元素为A,j=next[j-1],则j移动到了该最长前缀字符串下一位
fccc568e00b89a098bca82fbae327b11.png
继续比较该最长前缀字符串下一位与dest.charAt(i)

2.比较模式串和主串。

public static int kmp(String str, String dest){
//1.首先计算出部分匹配表
int[] next = kmpnext(dest);
//2.查找匹配位置
for(int i = 0, j = 0; i while(j > 0 && str.charAt(i) != dest.charAt(j)){
j = next[j-1];
}
if(str.charAt(i) == dest.charAt(j)){
j++;
}
if(j == dest.length()){
return i-j+1;
}
}
return -1;
}

代码说明:

1)计算部分匹配表。

2)j为模式串a下标,i为主串b下标。循环主串,查找匹配位置。

(1) 如果j=0,并且str.charAt(i) != dest.charAt(j)时,则移动主串下标位置,比较主串下一位字符是否与模式串第一位字符相同。

(2) 如果str.charAt(i) == dest.charAt(j)时,则同时移动主串下标位置和模式串下标位置,依次比较下一位。

(3) 如果比较到模式串某个位置(j>0),str.charAt(i) != dest.charAt(j)时,则根据部分匹配表,移动到[0~j-1]字符串的前后缀最长相同字符串的后一位,继续进行比较。如在该模式串dest ="ABACABAD"中,当j=7时,dest.charAt(7)与主串的字符不同。而dest[0~6]这部分字符串是与主串str[i-6~i-1]匹配的,dest[0~2]字符是与dest[4~6]的字符是相同的,由此可以推断出dest[0~2]的字符也与主串str[i-3~i-1]的字符是相同的。通过部分匹配表中可见,next[j-1]为前后缀最长相同字符串的长度,我们也可以理解为是最长相同字符串下一个字符的下标,因此j=next[j-1]。

(4) 当j == dest.length()时,表明完成模式串的比较,返回匹配起始位置(i-j+1)。

完整代码如下:

public


推荐阅读
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 本文介绍了如何在给定的有序字符序列中插入新字符,并保持序列的有序性。通过示例代码演示了插入过程,以及插入后的字符序列。 ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • 本文介绍了一个Java猜拳小游戏的代码,通过使用Scanner类获取用户输入的拳的数字,并随机生成计算机的拳,然后判断胜负。该游戏可以选择剪刀、石头、布三种拳,通过比较两者的拳来决定胜负。 ... [详细]
  • JavaSE笔试题-接口、抽象类、多态等问题解答
    本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征,以及Java中实现多态的机制。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • JVM 学习总结(三)——对象存活判定算法的两种实现
    本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法:引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活,虽然简单高效,但无法解决循环引用的问题;可达性分析算法通过判断对象是否可达来确定存活对象,是主流的Java虚拟机内存管理算法。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 本文介绍了Java高并发程序设计中线程安全的概念与synchronized关键字的使用。通过一个计数器的例子,演示了多线程同时对变量进行累加操作时可能出现的问题。最终值会小于预期的原因是因为两个线程同时对变量进行写入时,其中一个线程的结果会覆盖另一个线程的结果。为了解决这个问题,可以使用synchronized关键字来保证线程安全。 ... [详细]
  • 动态规划算法的基本步骤及最长递增子序列问题详解
    本文详细介绍了动态规划算法的基本步骤,包括划分阶段、选择状态、决策和状态转移方程,并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中,在以后尽可能多地利用这些子问题的解,从而提高算法的效率。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • 本文探讨了C语言中指针的应用与价值,指针在C语言中具有灵活性和可变性,通过指针可以操作系统内存和控制外部I/O端口。文章介绍了指针变量和指针的指向变量的含义和用法,以及判断变量数据类型和指向变量或成员变量的类型的方法。还讨论了指针访问数组元素和下标法数组元素的等价关系,以及指针作为函数参数可以改变主调函数变量的值的特点。此外,文章还提到了指针在动态存储分配、链表创建和相关操作中的应用,以及类成员指针与外部变量的区分方法。通过本文的阐述,读者可以更好地理解和应用C语言中的指针。 ... [详细]
author-avatar
nct6778550
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有