热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于B+tree(附python模拟代码)

前几天我写了点btree的东西(thuhak.blog.51cto.com28915951261783),今天继续这个思路,继续写b+tree。而且b+tree才是我的目的,更加深入理解文件和数

前几天我写了点btree的东西(http://thuhak.blog.51cto.com/2891595/1261783),今天继续这个思路,继续写b+tree。而且b+tree才是我的目的,更加深入理解文件和数

前几天我写了点btree的东西(),今天继续这个思路,继续写b+tree。

而且b+tree才是我的目的,更加深入理解文件和数据库索引的基本原理。


在之前,我一直只把b+tree当成是btree的一种变形,或者说是在某种情况下的一种优化,另外一些情况可能还是btree好些。但是做完之后才发现,b+tree在各种情况都可以完全取代btree,香港虚拟主机,并能够让索引性能得到比btree更好的优化。因为b+tree设计的核心要点,是为了弥补btree最大的缺陷。


btree最大的缺陷是什么?

首先,我们知道对于btree和b+tree这种多路搜索树来说,一个很重要的特点就是树的度数非常大。因为只有这样才能够降低树的深度,减少磁盘读取的次数。而树的度数越大,叶子节点在树中的比例就越大。假设度数为1000,那么叶子节点比他上一层内部节点的数量至少要多1000倍,在上一层就更加可以忽略不计了。可以说树种99.9%的节点都是叶子节点。 但是对于btree来说,所有节点都是一样的结构,都含有一定数量的数据和指向节点的指针。这两项数据占据btree节点的几乎全部的空间。一个节点内的数据的数量比硬盘指针的数量少一,可以说和指针的数量几乎相等。对于python这种动态类型语言感觉不出来,但是对于C这种固定类型语言来说,即使这个children list数组为空,这个数组的空间也都是预留出去的。导致的结果就是占绝大多数的叶子节点的children list指针数组所占的磁盘空间完全浪费。

一个数据的大小和硬盘指针的大小取决于key-value中key和value大小的比值。假如说这个比值是2:1。那么btree浪费了几乎1/3的空间。

b+tree针对这个问题的,把叶子节点和内节点的数据结构分开设计,让叶子节点不存放指针。因此同样大小的叶子节点,b+tree所能包含数据数量要比btree大。按照上面的假设就是大1/2。数的深度很可能比btree矮,大范围搜索或遍历所需要的载入磁盘的次数也少。


另外,b+tree还有一个特点是所有数据都存放在叶子节点,这些叶子节点也可以组成一个链表,并把这个链表的表头拿出来,方便直访问数据。有些文章认为这对于范围搜索来说是个巨大的优化。但是就我的看法,这个特性最大的作用仅仅是让代码更容易一些,性能上,只会比树的遍历差,而不会比树的遍历好。因为不管是用指向叶子节点的指针搜,还是用树的遍历搜,所搜索的节点的数量都是几乎相同的。在相同大小的范围搜索的性能,只取决于访问顺序的连续性。从树根向下遍历,那么一次可以取得大量的子节点的范围,并针对这些节点做访问排序,得到更好的访问连续性。如果是沿着指向兄弟节点的指针搜索,一是兄弟节点也许是后插入的,存放并不一定和自己是连续的,二是只有每次从硬盘中将改节点载入到内存,才知道兄弟节点放在硬盘哪个位置,这又变成了对硬盘的一个随机的同步操作,性能的下降可想而知。

说b+tree因为有指向兄弟节点的指针方便数据库扫库这种结论,是不正确的。


还是上代码吧,依旧只是在内存对数据结构插入删除查找的模拟

#!/usr/bin/env python from random import randint,choice from bisect import bisect_right,bisect_left from collections import deque class InitError(Exception): pass class ParaError(Exception): pass class KeyValue(object): __slots__=('key','value') def __init__(self,key,value): self.key=key self.value=value def __str__(self): return str((self.key,self.value)) def __cmp__(self,key): if self.key>key: return 1 elif self.key==key: return 0 else: return -1 class Bptree_InterNode(object): def __init__(self,M): if not isinstance(M,int): raise InitError,'M must be int' if M<=3: raise InitError,'M must greater then 3' else: self.__M=M self.clist=[] self.ilist=[] self.par=None def isleaf(self): return False def isfull(self): return len(self.ilist)>=self.M-1 def isempty(self): return len(self.ilist)<=(self.M+1)/2-1 @property def M(self): return self.__M class Bptree_Leaf(object): def __init__(self,L): if not isinstance(L,int): raise InitError,'L must be int' else: self.__L=L self.vlist=[] self.bro=None self.par=None def isleaf(self): return True def isfull(self): return len(self.vlist)>self.L def isempty(self): return len(self.vlist)<=(self.L+1)/2 @property def L(self): return self.__L class Bptree(object): def __init__(self,M,L): if L>M: raise InitError,'L must be less or equal then M' else: self.__M=M self.__L=L self.__root=Bptree_Leaf(L) self.__leaf=self.__root @property def M(self): return self.__M @property def L(self): return self.__L def insert(self,key_value): node=self.__root def split_node(n1): mid=self.M/2 newnode=Bptree_InterNode(self.M) newnode.ilist=n1.ilist[mid:] newnode.clist=n1.clist[mid:] newnode.par=n1.par for c in newnode.clist: c.par=newnode if n1.par is None: newroot=Bptree_InterNode(self.M) newroot.ilist=[n1.ilist[mid-1]] newroot.clist=[n1,newnode] n1.par=newnode.par=newroot self.__root=newroot else: i=n1.par.clist.index(n1) n1.par.ilist.insert(i,n1.ilist[mid-1]) n1.par.clist.insert(i+1,newnode) n1.ilist=n1.ilist[:mid-1] n1.clist=n1.clist[:mid] return n1.par def split_leaf(n2): mid=(self.L+1)/2 newleaf=Bptree_Leaf(self.L) newleaf.vlist=n2.vlist[mid:] if n2.par==None: newroot=Bptree_InterNode(self.M) newroot.ilist=[n2.vlist[mid].key] newroot.clist=[n2,newleaf] n2.par=newleaf.par=newroot self.__root=newroot else: i=n2.par.clist.index(n2) n2.par.ilist.insert(i,n2.vlist[mid].key) n2.par.clist.insert(i+1,newleaf) newleaf.par=n2.par n2.vlist=n2.vlist[:mid] n2.bro=newleaf def insert_node(n): if not n.isleaf(): if n.isfull(): insert_node(split_node(n)) else: p=bisect_right(n.ilist,key_value) insert_node(n.clist[p]) else: p=bisect_right(n.vlist,key_value) n.vlist.insert(p,key_value) if n.isfull(): split_leaf(n) else: return insert_node(node) def search(self,mi=None,ma=None): result=[] node=self.__root leaf=self.__leaf if mi is None and ma is None: raise ParaError,'you need setup searching range' elif mi is not None and ma is not None and mi>ma: raise ParaError,'upper bound must be greater or equal than lower bound' def search_key(n,k): if n.isleaf(): p=bisect_left(n.vlist,k) return (p,n) else: p=bisect_right(n.ilist,k) return search_key(n.clist[p],k) if mi is None: while True: for kv in leaf.vlist: if kv<=ma: result.append(kv) else: return result if leaf.bro==None: return result else: leaf=leaf.bro elif ma is None: index,leaf=search_key(node,mi) result.extend(leaf.vlist[index:]) while True: if leaf.bro==None: return result else: leaf=leaf.bro result.extend(leaf.vlist) else: if mi==ma: i,l=search_key(node,mi) try: if l.vlist[i]==mi: result.append(l.vlist[i]) return result else: return result except IndexError: return result else: i1,l1=search_key(node,mi) i2,l2=search_key(node,ma) if l1 is l2: if i1==i2: return result else: result.extend(l.vlist[i1:i2]) return result else: result.extend(l1.vlist[i1:]) l=l1 while True: if l.bro==l2: result.extend(l2.vlist[:i2+1]) return result else: result.extend(l.bro.vlist) l=l.bro def traversal(self): result=[] l=self.__leaf while True: result.extend(l.vlist) if l.bro==None: return result else: l=l.bro def show(self): print 'this b+tree is:\n' q=deque() h=0 q.append([self.__root,h]) while True: try: w,hei=q.popleft() except IndexError: return else: if not w.isleaf(): print w.ilist,'the height is',hei if hei==h: h+=1 q.extend([[i,h] for i in w.clist]) else: print [v.key for v in w.vlist],'the leaf is,',hei def delete(self,key_value): def merge(n,i): if n.clist[i].isleaf(): n.clist[i].vlist=n.clist[i].vlist+n.clist[i+1].vlist n.clist[i].bro=n.clist[i+1].bro else: n.clist[i].ilist=n.clist[i].ilist+[n.ilist[i]]+n.clist[i+1].ilist n.clist[i].clist=n.clist[i].clist+n.clist[i+1].clist n.clist.remove(n.clist[i+1]) n.ilist.remove(n.ilist[i]) if n.ilist==[]: n.clist[0].par=None self.__root=n.clist[0] del n return self.__root else: return n def tran_l2r(n,i): if not n.clist[i].isleaf(): n.clist[i+1].clist.insert(0,n.clist[i].clist[-1]) n.clist[i].clist[-1].par=n.clist[i+1] n.clist[i+1].ilist.insert(0,n.ilist[i]) n.ilist[i]=n.clist[i].ilist[-1] n.clist[i].clist.pop() n.clist[i].ilist.pop() else: n.clist[i+1].vlist.insert(0,n.clist[i].vlist[-1]) n.clist[i].vlist.pop() n.ilist[i]=n.clist[i+1].vlist[0].key def tran_r2l(n,i): if not n.clist[i].isleaf(): n.clist[i].clist.append(n.clist[i+1].clist[0]) n.clist[i+1].clist[0].par=n.clist[i] n.clist[i].ilist.append(n.ilist[i]) n.ilist[i]=n.clist[i+1].ilist[0] n.clist[i+1].clist.remove(n.clist[i+1].clist[0]) n.clist[i+1].ilist.remove(n.clist[i+1].ilist[0]) else: n.clist[i].vlist.append(n.clist[i+1].vlist[0]) n.clist[i+1].vlist.remove(n.clist[i+1].vlist[0]) n.ilist[i]=n.clist[i+1].vlist[0].key def del_node(n,kv): if not n.isleaf(): p=bisect_right(n.ilist,kv) if p==len(n.ilist): if not n.clist[p].isempty(): return del_node(n.clist[p],kv) elif not n.clist[p-1].isempty(): tran_l2r(n,p-1) return del_node(n.clist[p],kv) else: return del_node(merge(n,p),kv) else: if not n.clist[p].isempty(): return del_node(n.clist[p],kv) elif not n.clist[p+1].isempty(): tran_r2l(n,p) return del_node(n.clist[p],kv) else: return del_node(merge(n,p),kv) else: p=bisect_left(n.vlist,kv) try: pp=n.vlist[p] except IndexError: return -1 else: if pp!=kv: return -1 else: n.vlist.remove(kv) return 0 del_node(self.__root,key_value) def test(): mini=2 maxi=60 testlist=[] for i in range(1,10): key=i value=i testlist.append(KeyValue(key,value)) mybptree=Bptree(4,4) for kv in testlist: mybptree.insert(kv) mybptree.delete(testlist[0]) mybptree.show() print '\nkey of this b+tree is \n' print [kv.key for kv in mybptree.traversal()] #print [kv.key for kv in mybptree.search(mini,maxi)] if __name__=='__main__': test()


实现过程和btree很像,不过有几点显著不同。

1.内节点不存储key-value,只存放key

2.沿着内节点搜索的时候,香港服务器租用,查到索引相等的数要向树的右边走。所以二分查找要选择bisect_right

推荐阅读
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的详细步骤
    本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的步骤,包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]
  • Centos7.6安装Gitlab教程及注意事项
    本文介绍了在Centos7.6系统下安装Gitlab的详细教程,并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时,还强调了使用阿里云服务器时的特殊配置需求,以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术,可以实现在输入某个id后,通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用,以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况,并解释了JavaScript等待服务器响应的机制。 ... [详细]
  • PHP设置MySQL字符集的方法及使用mysqli_set_charset函数
    本文介绍了PHP设置MySQL字符集的方法,详细介绍了使用mysqli_set_charset函数来规定与数据库服务器进行数据传送时要使用的字符集。通过示例代码演示了如何设置默认客户端字符集。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 本文介绍了在Hibernate配置lazy=false时无法加载数据的问题,通过采用OpenSessionInView模式和修改数据库服务器版本解决了该问题。详细描述了问题的出现和解决过程,包括运行环境和数据库的配置信息。 ... [详细]
  • 如何使用Java获取服务器硬件信息和磁盘负载率
    本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务,并获取服务器的磁盘信息,并将结果输出。然后在本地使用JS编写一个AJAX脚本,远程请求服务端的程序,得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]
  • 本文介绍了如何找到并终止在8080端口上运行的进程的方法,通过使用终端命令lsof -i :8080可以获取在该端口上运行的所有进程的输出,并使用kill命令终止指定进程的运行。 ... [详细]
  • 禁止程序接收鼠标事件的工具_VNC Viewer for Mac(远程桌面工具)免费版
    VNCViewerforMac是一款运行在Mac平台上的远程桌面工具,vncviewermac版可以帮助您使用Mac的键盘和鼠标来控制远程计算机,操作简 ... [详细]
  • 本文详细介绍了云服务器API接口的概念和作用,以及如何使用API接口管理云上资源和开发应用程序。通过创建实例API、调整实例配置API、关闭实例API和退还实例API等功能,可以实现云服务器的创建、配置修改和销毁等操作。对于想要学习云服务器API接口的人来说,本文提供了详细的入门指南和使用方法。如果想进一步了解相关知识或阅读更多相关文章,请关注编程笔记行业资讯频道。 ... [详细]
author-avatar
kissbye1993
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有