热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

c++bm算法

参考资料:【极客时间.王峥】https:time.geekbang.orgcolumnarticle71525文中图片均来自极客时间截图。BM算法思想的本质上就是在

参考资料:【极客时间.王峥】https://time.geekbang.org/column/article/71525
文中图片均来自极客时间截图。

BM算法思想的本质上就是在进行模式匹配的过程中,当模式串与主串的某个字符不匹配的时候,能够跳过一些肯定不会匹配的情况,将模式串往后多滑动几位。

BM算法寻找是否能多滑动几位的原则有两种,分别是 坏字符规则 和 好后缀规则

坏字符规则:
我们从模式串的末尾往前倒着匹配,当我们发现某个字符无法匹配时,我们把这个无法匹配的字符叫做坏字符(主串中的字符)。此时记录下坏字符在模式串中的位置si,然后拿坏字符在模式串中查找,如果模式串中并不存在这个字符,那么可以将模式串直接向后滑动m位,如果坏字符在模式串中存在,则记录下其位置xi,那么模式串向后移动的位数就是si-xi,(可以在确保si>xi,执行减法,不会出现向前移动的情况)。如果坏字符在模式串中多次出现,那我们在计算xi的时候,选择最靠后的那个,这样不会因为让模式串滑动过多,导致本来可能匹配的情况被略过。

好后缀规则:
在我们反向匹配模式串时,遇到不匹配时,记录下当前位置j位坏字符位置。把已经匹配的字符串叫做好后缀,记作{u}。我们拿它在模式串中查找,如果找到了另一个跟{u}相匹配的字串{u*}, 那么我们就将模式串滑动到字串{u*}与主串{u}对齐的位置。如下图所示:
找到匹配的字串时的操作

如果在模式串中找不到另一个等于{u}的子串,我们就直接将模式串滑动到主串中{u}的后面,因为之前的任何一次往后滑动,都没有匹配主串中{u}的情况。但是这种滑动做法有点太过头了,可以看下面的例子,如果直接滑动到好后缀的后面,可能会错过模式串与主串可以匹配的情况。如下图:

当模式串滑动到前缀与主串中{u}的后缀有部分重合的时候,并且重回部分相等的时候,就可能会存在完全匹配的情况。所以针对这种情况我们不仅要看好后缀在模式串中,是否有另一个匹配的字串,我们还要考察好后缀的后缀字串是否存在跟模式串的前缀字串匹配的情况。如下图所示:

最后总结如何确定模式串向后滑动的位数,我们可以分别计算好后缀和坏字符往后滑动的位数,然后取两个数中最大的。

BM算法性能分析
BM算法的内存消耗:整个算法使用了三个额外数组,其中bc数组的大小和字符集大小有关,suffix数组和prefix数组的大小和模式串长度m有关。
如果我们处理字符集很大的模式匹配问题,bc数组对内存消耗会比较多。好后缀规则和坏字符规则是独立的,如果对内存要求苛刻,那么可以只使用好后缀规则。不过效率也会下降一些。
BM 算法的时间复杂度分析很复杂,原文中作者给出了两篇参考文章。我也没看,(捂脸)
A new proof of the linearity of the Boyer-Moore string searching algorithm
Tight bounds on the complexity of the Boyer-Moore string matching algorithm

下面给出了BM算法的C++实现

#include
#include
#include
using namespace std;
const int size = 256;
//将模式串字符使用hash表示
void generateBC(char b[], int m, int bc[]){
//b是模式串, m是模式串的长度, bc是散列表
//bc的下标是字符集的ASCII码,数组值是每个字符在模式串中出现的位置。
for(int i=0; ibc[i]=-1;
}
for(int i=0; iint ascii = (int)b[i];
bc[ascii] = i;
}
}
/*
求suffix数组和prefix数组
suffix数组的下标K表示后缀字串的长度,数组值对应存储的是,在模式串中跟好后缀{u}相匹配的子串{u*}
的起始下标值。
prefix数组是布尔型。来记录模式串的后缀字串是否能匹配模式串的前缀子串。*/
void generateGS(char b[], int m, int suffix[], bool prefix[]){
for(int i=0; isuffix[i] = -1;
prefix[i] = false;
}
for(int i=0; iint j = i;
int k =0; //公共后缀字串长度
while(j >=0 && b[j] == b[m-1-k]){
//与b[0, m-1]求公共后缀字串
--j;
++k;
suffix[k] = j+1; //j+1表示公共后缀字串在b[0,i]中的起始下标
}
if(j == -1) prefix[k] = true;//如果公共后缀字串也是模式串的前缀字串}
}//j表示坏字符对应的模式串中的字符下标,m是模式串的长度
//计算在好后缀规则下模式串向后移动的个数
int moveByGS(int j, int m, int suffix[], bool prefix[]){
int k= m-1-j; //好后缀的长度
if(suffix[k] != -1) return j - suffix[k] +1;
for(int r &#61; j&#43;2; r<&#61; m-1; &#43;&#43;r){
if(prefix[m-r] &#61;&#61; true){
return r;
}
}
return m;
}//BM算法
int BM(char a[], int n, char b[], int m){
int suffix[m];
bool prefix[m];int bc[size];//bc记录模式串中每个字符最后出现的位置generateBC(b,m,bc); //构建字符串hash表
generateGS(b,m, suffix,prefix); //计算好后缀和好前缀数组int i&#61;0; //表示主串与模式串对齐的第一个字符
while(i<&#61;n-m){
int j;
for(j&#61;m-1; j>&#61;0; j--){ //模式串从后往前匹配
if(a[i&#43;j]!&#61; b[j]) break; //坏字符对应的模式串下标是j,即i&#43;j 位置是坏字符的位置si        
}
if(j <0){
return i; //匹配成功&#xff0c;返回主串与模式串第一个匹配的字符的位置
}
//这里x等同于将模式串往后滑动j-bc[(int)a[i&#43;j]]位
//bc[(int)a[i&#43;j]]表示主串中坏字符在模式串中出现的位置xi
int x &#61; i &#43; (j - bc[(int)a[i&#43;j]]); int y &#61;0;
if(j y &#61; moveByGS(j, m, suffix, prefix);
}
i &#61; i &#43; max(x, y); //i更新位可以后移较多的位置}
return -1;
}int main(){
char a[] &#61; "aaaabaaba";
char b[] &#61; "aaaa";
int i &#61; BM(a,9,b,2);
printf("%d\n", i);
return 0;
}


推荐阅读
  • 动态规划算法的基本步骤及最长递增子序列问题详解
    本文详细介绍了动态规划算法的基本步骤,包括划分阶段、选择状态、决策和状态转移方程,并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中,在以后尽可能多地利用这些子问题的解,从而提高算法的效率。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • 前景:当UI一个查询条件为多项选择,或录入多个条件的时候,比如查询所有名称里面包含以下动态条件,需要模糊查询里面每一项时比如是这样一个数组条件:newstring[]{兴业银行, ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • 本文详细介绍了GetModuleFileName函数的用法,该函数可以用于获取当前模块所在的路径,方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释,帮助读者理解和使用该函数。同时,还提供了相关的API函数声明和说明。 ... [详细]
  • 电话号码的字母组合解题思路和代码示例
    本文介绍了力扣题目《电话号码的字母组合》的解题思路和代码示例。通过使用哈希表和递归求解的方法,可以将给定的电话号码转换为对应的字母组合。详细的解题思路和代码示例可以帮助读者更好地理解和实现该题目。 ... [详细]
  • 本文介绍了解决Netty拆包粘包问题的一种方法——使用特殊结束符。在通讯过程中,客户端和服务器协商定义一个特殊的分隔符号,只要没有发送分隔符号,就代表一条数据没有结束。文章还提供了服务端的示例代码。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • Webpack5内置处理图片资源的配置方法
    本文介绍了在Webpack5中处理图片资源的配置方法。在Webpack4中,我们需要使用file-loader和url-loader来处理图片资源,但是在Webpack5中,这两个Loader的功能已经被内置到Webpack中,我们只需要简单配置即可实现图片资源的处理。本文还介绍了一些常用的配置方法,如匹配不同类型的图片文件、设置输出路径等。通过本文的学习,读者可以快速掌握Webpack5处理图片资源的方法。 ... [详细]
  • 本文介绍了如何在给定的有序字符序列中插入新字符,并保持序列的有序性。通过示例代码演示了插入过程,以及插入后的字符序列。 ... [详细]
  • 本文介绍了P1651题目的描述和要求,以及计算能搭建的塔的最大高度的方法。通过动态规划和状压技术,将问题转化为求解差值的问题,并定义了相应的状态。最终得出了计算最大高度的解法。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 猜字母游戏
    猜字母游戏猜字母游戏——设计数据结构猜字母游戏——设计程序结构猜字母游戏——实现字母生成方法猜字母游戏——实现字母检测方法猜字母游戏——实现主方法1猜字母游戏——设计数据结构1.1 ... [详细]
author-avatar
换言
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有