热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

双数组Trie树与AC自动机简要总结

这部分的内容比较多,面面俱到不太现实,所以这里只是简单的概要描述,对需要了解的详细细节的

这部分的内容比较多,面面俱到不太现实,所以这里只是简单的概要描述,对需要了解的详细细节的可以去看下文中推荐的链接。每个细节都去讲到又需要很多时间,但又想要总结一下。于是有了本文。

Trie 树

又称单词查找树,Trie 树,是一种树形结构,是一种哈希树的变种。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,能在常数时间 O(len)内实现插入和查询操作,是一种以空间换取时间的数据结构,广泛用于词频统计和输入统计领域。

Trie 树的结构一般如下图:

关于单数组 Trie 树的实现方式这里不再多讲,只需要知道在 Trie 树单数组实现过程中,每个节点均需要一个数组来存储 next 节点,非常占用存储空间,空间复杂度大。一般不予选用。而双数组 Trie 树很好地解决了这个问题,这也是我们主要要讲的。

双数组 Trie (Double-Array Trie)结构由日本人 JUN-ICHI AOE 于 1989 年提出的,是 Trie 结构的压缩形式,仅用两个线性数组来表示 Trie 树,该结构有效结合了数字搜索树(Digital Search Tree)检索时间高效的特点和链式表示的 Trie 空间结构紧凑的特点。双数组 Trie 的本质是一个确定有限状态自动机(DFA),每个节点代表自动机的一个状态,根据变量不同,进行状态转移,当到达结束状态或无法转移时,完成一次查询操作。在双数组所有键中包含的字符之间的联系都是通过简单的数学加法运算表示,不仅提高了检索速度,而且省去了链式结构中使用的大量指针,节省了存储空间。虽然双数组 Trie 树能高速 O(n)完成单串匹配,并且内存消耗可控,但是软肋在于多模式匹配,如果要匹配多个模式串,必须先实现前缀查询,然后频繁截取文本后缀才可多匹配,这样一份文本要回退扫描多遍,性能极低。

使用两个数组 base 和 check 来维护 Trie 树,base 负责记录状态,check 负责检查各个字符串是否是从同一个状态转移而来,当 check[i]为负值时,表示此状态为字符串的结束。关于双数组 Trie 树的实现,这里也不准备讲太多,java 版开源的实现可以看下:https://github.com/komiya-atsushi/darts-java,有兴趣深入学习的可以去翻一翻这篇博客,会有不少惊喜:http://www.hankcs.com/program/java/双数组trie树doublearraytriejava实现.html

AC 自动机

AC 自动机能高速完成多模式匹配,然而具体实现聪明与否决定最终性能高低。大部分实现都是一个 Map了事,无论是 TreeMap 的对数复杂度,还是 HashMap 的巨额空间复杂度与哈希函数的性能消耗,都会降低整体性能。一般的做法是基于 Trie 树来实现 AC 自动机。

如果想看具体实现分析,可以翻翻这篇:http://www.hankcs.com/program/algorithm/implementation-and-analysis-of-aho-corasick-algorithm-in-java.html,里面有详细的讲解。

这里我们主要看一下一个开源 AC 自动机实现的介绍,开源地址为:https://github.com/robert-bor/aho-corasick

大多数自由文本搜索都基于类似于 Lucene 的方法,其中,搜索文本被解析成其各个组成部分。对于每个关键字,都会进行查找以查看其发生位置。当寻找几个关键字时,这种方法很棒,但是当搜索 100,000 个单词时,这种方法非常慢(例如,检索字典)。

查找多个单词时,Aho-Corasick 算法会发光。它使用所有关键字来构建 Trie 结构,而不是将搜索文本切碎。Aho-Corasick 的关键组件包括:

  • goto 表

  • fail 表

  • output 表

遇到的每个字符都会呈现给 goto 结构内的一个状态对象 。如果存在匹配状态,则将其提升到新的当前状态。

但是,如果没有匹配状态,该算法将发出失败信号(fail 表), 并退回到深度较小的状态(即匹配时间较短),然后从那里继续进行,直到找到匹配状态或达到根状态为止。

只要达到与整个关键字匹配的状态,就会将其发送到输出集(output 表),在整个扫描完成后可以读取该输出集。

该算法为 O(n)。不管给出多少个关键字,或者搜索文本有多大,性能都会线性下降。

Aho-Corasick 算法可以帮助:

  • 在文本中找到要链接到或重点强调的单词;

  • 在纯文本中添加语义;

  • 检查字典以查看是否存在语法错误。

关于 AC 自动机的详细实现,强烈推荐:http://www.hankcs.com/program/algorithm/implementation-and-analysis-of-aho-corasick-algorithm-in-java.html




推荐阅读
  • 如何压缩网站页面以减少页面加载时间
    本文介绍了影响网站打开时间的两个因素,即网页加载速度和网站页面大小。重点讲解了如何通过压缩网站页面来减少页面加载时间。具体包括图片压缩、Javascript压缩、CSS压缩和HTML压缩等方法,并推荐了相应的压缩工具。此外,还提到了一款Google Chrome插件——网页加载速度分析工具Speed Tracer。 ... [详细]
  • 程序员如何选择机械键盘轴体?红轴和茶轴对比
    本文介绍了程序员如何选择机械键盘轴体,特别是红轴和茶轴的对比。同时还介绍了U盘安装Linux镜像的步骤,以及在Linux系统中安装软件的命令行操作。此外,还介绍了nodejs和npm的安装方法,以及在VSCode中安装和配置常用插件的方法。最后,还介绍了如何在GitHub上配置SSH密钥和git的基本配置。 ... [详细]
  • 部署solr建立nutch索引
    2019独角兽企业重金招聘Python工程师标准接着上篇nutch1.4的部署应用,我们来部署一下solr,solr是对lucene进行了封装的企 ... [详细]
  • 开发笔记:使用JavaScript解决网页图片拉伸问题
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了使用JavaScript解决网页图片拉伸问题相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • 本文介绍了一些好用的搜索引擎的替代品,包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外,还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]
  • camel_使用Camel在来自不同来源的Solr中索引数据
    camelApacheSolr是建立在Lucene之上的“流行的,快速的开源企业搜索平台”。为了进行搜索(并查找结果),通常需要从不同的源(例如内容管理 ... [详细]
  • 一:什么是solrSolr是apache下的一个开源项目,使用Java基于lucene开发的全文搜索服务器;Lucene是一个开放源代 ... [详细]
  • asp.net 有什么框架,有什么技术
    原文地址:http:www.cnblogs.comvirusswbarchive201201102318169.html文章写的很好,转载一些到自己的博 ... [详细]
author-avatar
吻过彩虹的脸_378
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有