热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Go语言实现布隆过滤器

1布隆过滤器原理布隆过滤器一般用来判断一个数据是否在一个很大的数据集合里面。当然可以用数组,集合,树等数据结构和各种查找法都可以做同样的

1 布隆过滤器原理

布隆过滤器一般用来判断一个数据是否在一个很大的数据集合里面。当然可以用数组,集合,树等数据结构和各种查找法都可以做同样的事情,但是布隆过滤器有更好的时间效率和空间效率。比特币实现SPV节点时使用了布隆过滤器来查询交易。布隆过滤器可以判断一个数在不在集合里,但存在一定的误判率。

布隆过滤器的核心是一个超大的位数组和几个哈希函数。假设位数组的长度为m,哈希函数的个数为k。

 

以上图为例,在这里维数组长度为18,哈希函数个数为3个。首先将维数组所有位全部置0。集合中有的3个数据x,y,z,通过3个哈希函数对每一个数据进行计算,得到该数据的哈希值,这个哈希值对应维数组上面的一个点,然后将对应位数组的位置1。这样3个数据会生成9个点。对于另外一个数据w,查询它 在不在集合中的方法是对w通过3个哈希函数映射到位数组上,判断3个映射位置是否为1。只要有一个位置为0,就能说明w一定不在集合中。反之如果3个点都为1,则说明这个元素可能在集合中。此处不能判断元素一定在集合中,因为存在一定的误判率。比如对于上图中的4,5,6这3个位置都为1,但是它是不同的数据映射到的点。如果有一个数据刚好映射到这3个位置,虽然它不在集合中,但是我们也会误判它。

添加元素

  • 将要添加的元素给k个哈希函数进行计算
  • 得到位于位数组上面的k个位置
  • 将位数组上对应位置1

查询元素

  • 将要查询的元素给k个哈希函数
  • 得到对应于位数组上的k个位置
  • 如果k个位置有一个为0,则肯定不在集合中
  • 如果k个位置全部为1,则可能在集合中

2 go语言实现

package main
import (
"github.com/willf/bitset"
"fmt"
)
const DEFAULT_SIZE &#61; 2<<24
var seeds &#61; []uint{
7, 11, 13, 31, 37, 61}
type BloomFilter struct {
set *bitset.BitSet
funcs [6]SimpleHash
}
func NewBloomFilter() *BloomFilter {
bf :&#61; new(BloomFilter)
for i:&#61;0;i bf.funcs[i] &#61; SimpleHash{
DEFAULT_SIZE,seeds[i]}
}
bf.set &#61; bitset.New(DEFAULT_SIZE)
return bf
}
func (bf BloomFilter) add(value string){
for _,f:&#61;range(bf.funcs){
bf.set.Set(f.hash(value))
}
}
func (bf BloomFilter) contains(value string) bool {
if(value &#61;&#61; ""){
return false
}
ret :&#61; true
for _,f:&#61;range(bf.funcs){
ret &#61; ret && bf.set.Test(f.hash(value))
}
return ret
}

type SimpleHash struct{
cap uint
seed uint
}
func (s SimpleHash) hash(value string) uint{
var result uint &#61; 0
for i:&#61;0;i result &#61; result*s.seed&#43;uint(value[i])
}
return (s.cap-1)&result
}
func main(){
filter :&#61; NewBloomFilter()
fmt.Println(filter.funcs[1].seed)
str1 :&#61; "hello,bloom filter!"
filter.add(str1)
str2 :&#61; "A happy day"
filter.add(str2)
str3 :&#61; "Greate wall"
filter.add(str3)
fmt.Println(filter.contains(str1))
fmt.Println(filter.contains(str2))
fmt.Println(filter.contains(str3))
fmt.Println(filter.contains("blockchain technology"))
}

这里位数组用了一个第三方的bitset库&#xff0c;见github&#xff1a;github.com/willf/bitset

打印结果&#xff1a;

11
true
true
true
false

推荐阅读
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度,要求从最低点跳跃到最高点,每次跳跃的距离不超过D,并且不能改变给定的顺序。通过建立差分约束系统,将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法,并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 本文介绍了P1651题目的描述和要求,以及计算能搭建的塔的最大高度的方法。通过动态规划和状压技术,将问题转化为求解差值的问题,并定义了相应的状态。最终得出了计算最大高度的解法。 ... [详细]
  • Java学习笔记之面向对象编程(OOP)
    本文介绍了Java学习笔记中的面向对象编程(OOP)内容,包括OOP的三大特性(封装、继承、多态)和五大原则(单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则)。通过学习OOP,可以提高代码复用性、拓展性和安全性。 ... [详细]
  • Go Cobra命令行工具入门教程
    本文介绍了Go语言实现的命令行工具Cobra的基本概念、安装方法和入门实践。Cobra被广泛应用于各种项目中,如Kubernetes、Hugo和Github CLI等。通过使用Cobra,我们可以快速创建命令行工具,适用于写测试脚本和各种服务的Admin CLI。文章还通过一个简单的demo演示了Cobra的使用方法。 ... [详细]
  • 电话号码的字母组合解题思路和代码示例
    本文介绍了力扣题目《电话号码的字母组合》的解题思路和代码示例。通过使用哈希表和递归求解的方法,可以将给定的电话号码转换为对应的字母组合。详细的解题思路和代码示例可以帮助读者更好地理解和实现该题目。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • c语言\n不换行,c语言printf不换行
    本文目录一览:1、C语言不换行输入2、c语言的 ... [详细]
  • 本文介绍了UVALive6575题目Odd and Even Zeroes的解法,使用了数位dp和找规律的方法。阶乘的定义和性质被介绍,并给出了一些例子。其中,部分阶乘的尾零个数为奇数,部分为偶数。 ... [详细]
  • Linux环境变量函数getenv、putenv、setenv和unsetenv详解
    本文详细解释了Linux中的环境变量函数getenv、putenv、setenv和unsetenv的用法和功能。通过使用这些函数,可以获取、设置和删除环境变量的值。同时给出了相应的函数原型、参数说明和返回值。通过示例代码演示了如何使用getenv函数获取环境变量的值,并打印出来。 ... [详细]
  • ALTERTABLE通过更改、添加、除去列和约束,或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]
author-avatar
我是一颗菠菜
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有