当前位置: 开发笔记 > 后端 > 正文

pythonxapian存储结构

作者：新洋之家140 | 来源：互联网 | 2017-05-14 02:44

在项目中为了支持搜索服务,我们使用xapian作为后端的搜索引擎.其因性能良好以及易用受到大家欢迎.下面是基本代码:importxapianimportposixpathdefget_db_path():XAPIAN_ROOTtmpxapian_user_database_pathposixpath.join(XAPIAN_ROOT...

在项目中为了支持搜索服务,我们使用xapian作为后端的搜索引擎.其因性能良好以及易用受到大家欢迎.下面是基本代码:

import xapian
import posixpath
def get_db_path():
    XAPIAN_ROOT = &＃39;/tmp/&＃39;
    xapian_user_database_path = posixpath.join(XAPIAN_ROOT, u&＃39;user_index&＃39;)
    return xapian_user_database_path
def add_document(database, words):
    doc = xapian.Document()
    for w in words:
        doc.add_term(w)
    database.add_document(doc)
def build_index():
    user_database = xapian.WritableDatabase(get_db_path(), xapian.DB_CREATE_OR_OPEN)
    words = [&＃39;a&＃39;, &＃39;b&＃39;, &＃39;c&＃39;]
    add_document(user_database, words)
def search(words, offset=0, length=10):
    user_database = xapian.Database(get_db_path())
    enquire = xapian.Enquire(user_database)
    query = xapian.Query(xapian.Query.OP_AND, words)
    enquire.set_query(query)
    return enquire.get_mset(int(offset), int(length))
def _show_q_results(matches):
    print &＃39;%i results found.&＃39; % matches.get_matches_estimated()
    print &＃39;Results 1 - %i:&＃39; % matches.size()
    for match in matches:
        print &＃39;%i: %i%% docid=%i [%s]&＃39; % (match.rank + 1,
                                          match.percent,
                                          match.docid,
                                          match.document.get_data()
                                          )
if __name__ == &＃39;__main__&＃39;:
    #index 
    build_index()
    
    #search
    _show_q_results(search([&＃39;a&＃39;,&＃39;b&＃39;]))

虽然使用起来很简单,但是我一直对于他的存储引擎有些好奇,所以看了一下最新的存储引擎brass的实现.下面是整个数据目录的层次结构:
/tmp/user_index
flintlock
iamchert
postlist.baseA
postlist.baseB
postlist.DB //存储所有term 到 docid的映射.
record.baseA
record.baseB
record.DB //存储所有docid 到相应的数据的映射
termlist.baseA
termlist.baseB
termlist.DB //存储所有docid 到相应的 term的映射.

brass存储引擎采用的数据结构是BTree.所以上面每个*.DB都是存储一个BTree的.*.baseA/B则是存储相应的.DB的meta信息.包括这个大的数据文件有哪些数据块已经被使用,哪些空闲的bitmap,以及版本号等等相关信息.
BTree在xapian中表示为N Level.每个level对应于BTree的一层.并且维护这一层的一个cursor.用于指向当前正在访问的某一个数据块,以及数据块中的某一个位置.其中每个数据块的数据结构如下:

from @brass_table.cc
/* A B-tree comprises (a) a base file, containing essential information (Block
   size, number of the B-tree root block etc), (b) a bitmap, the Nth bit of the
   bitmap being set if the Nth block of the B-tree file is in use, and (c) a
   file DB containing the B-tree proper. The DB file is pided into a sequence
   of equal sized blocks, numbered 0, 1, 2 ... some of which are free, some in
   use. Those in use are arranged in a tree.
   Each block, b, has a structure like this:
     R L M T D o1 o2 o3 ... oN  [item] .. [item] .. [item] ...
     <---------- D ----------> <-M->
   And then,
   R = REVISION(b)  is the revision number the B-tree had when the block was
                    written into the DB file.
   L = GET_LEVEL(b) is the level of the block, which is the number of levels
                    towards the root of the B-tree structure. So leaf blocks
                    have level 0 and the one root block has the highest level
                    equal to the number of levels in the B-tree.
   M = MAX_FREE(b)  is the size of the gap between the end of the directory and
                    the first item of data. (It is not necessarily the maximum
                    size among the bits of space that are free, but I can&＃39;t
                    think of a better name.)
   T = TOTAL_FREE(b)is the total amount of free space left in b.
   D = DIR_END(b)   gives the offset to the end of the directory.
   o1, o2 ... oN are a directory of offsets to the N items held in the block.
   The items are key-tag pairs, and as they occur in the directory are ordered
   by the keys.
   An item has this form:
           I K key x C tag
             <--K-->
           <------I------>
   A long tag presented through the API is split up into C tags small enough to
   be accommodated in the blocks of the B-tree. The key is extended to include
   a counter, x, which runs from 1 to C. The key is preceded by a length, K,
   and the whole item with a length, I, as depicted above.

上面来自于xapian的注释已经很清楚的说明了每个block的数据构成.除了数据元信息,就是由item组成的小的数据单元.其中每个小的item包括I(整个数据单元的长度),K(数据单元key的长度+x(key标示符)),C(表示对应的这个key有多少个item组成,因为某一个key对应的value太大的话,会进行value切分.所以C就表示总计有多少分.而之前的那个x则表示这个单元是第几份数据,这个如果需要读取这个key的整个大value就可以根据序号x进行合并.),tag就是我们刚才说的key对应的value,只不过xapian把它定义为tag.因为他是一个通用存储结构,所以这样定义也比较说的通.比如说在一颗BTree的非叶子节点tag存储的是下一层数据块的地址.对于叶子节点来说则存储相关的数据.现在整个树的存储结构已经清晰的展示出来了.

这里面有一个问题比较有意思的是postlist的存储,设想某一个热点词包含有很多很多的docid,比如说有100w个.那么当我们进行增量更新的时候,想要把某个docid从这个term删除掉,那么怎么才能尽快查找到这个docid在哪个数据块中呢？作者采用了term+docid作为BTree的key的方式来解决这个问题.value则是所有的大于这个docid的docid.并且每个块设定一个大小.这样就能让我们能尽快的定位一个docid在哪个block中,而不用读取所有的block然后再去查找了.

xapian还支持多个reader,单线程writer的方式进行增量更新.采用的类似数据库中的MVCC的方式,这样就不会因为更新把读操作阻塞住了.

目前作者正在开发replication方式,可以支持增量更新到其他机器.这样就能做到数据可靠(不会应为单机磁盘损坏导致数据丢失)以及高可用性(单机不可用,应用层可以切换到备用机器上)了.

BTW:我这两天看了xapian devel的邮件列表,虽然没有提交问题,但是看了作者(Olly Betts)对于每个问题都会给出耐心又详尽的答复,他人真的是很好.很是佩服.

推荐阅读

上传
MVC设计模式的介绍和演化过程

本文介绍了MVC设计模式的基本概念和原理，以及在实际项目中的演化过程。通过分离视图、模型和控制器，实现了代码的解耦和重用，提高了项目的可维护性和可扩展性。详细讲解了分离视图、分离模型和分离控制器的具体步骤和规则，以及它们在项目中的应用。同时，还介绍了基础模型的封装和控制器的命名规则。该文章适合对MVC设计模式感兴趣的读者阅读和学习。 ... [详细]

蜡笔小新 2023-12-11 14:58:14
php
MySQL中的MVVC多版本并发控制机制的应用及实现

本文介绍了MySQL中MVCC的应用及实现机制。MVCC是一种提高并发性能的技术，通过对事务内读取的内存进行处理，避免写操作堵塞读操作的并发问题。与其他数据库系统的MVCC实现机制不尽相同，MySQL的MVCC是在undolog中实现的。通过undolog可以找回数据的历史版本，提供给用户读取或在回滚时覆盖数据页上的数据。MySQL的大多数事务型存储引擎都实现了MVCC，但各自的实现机制有所不同。 ... [详细]

蜡笔小新 2023-12-11 13:09:19
php
从坚持到喜欢——我对软件工程的选择和学习经历

本文讲述了作者从最初对软件工程的选择迷茫到逐渐喜欢并坚持学习的经历。作者在大学期间通过学习专业课和参与项目开发，不断挑战自己并取得成就感。虽然曾考虑过转专业和复读，但最终决定坚持学习软件工程，并为自己的未来努力奋斗。作者还提到了大学生活与自己最初的预期不同，但对此并没有太多抱怨。 ... [详细]

蜡笔小新 2023-12-10 13:30:14
php
使用J2SE模拟MVC模式开发桌面应用程序的工程包的介绍

以我开发过的一个娱乐管理系统为例：下图为我系统的业务逻辑的MVC流程：下图为以Eclipse开发中各包的说明：转载于:https:blog ... [详细]

蜡笔小新 2023-12-10 13:16:52
timeout
wpf+mvvm代码组织结构及实现方式

本文介绍了wpf+mvvm代码组织结构的由来和实现方式。作者回顾了自己大学时期接触wpf开发和mvvm模式的经历，认为mvvm模式使得开发更加专注于业务且高效。与此同时，作者指出mvvm模式相较于mvc模式的优势。文章还提到了当没有mvvm时处理数据和UI交互的例子，以及前后端分离和组件化的概念。作者希望能够只关注原始数据结构，将数据交给UI自行改变，从而解放劳动力，避免加班。 ... [详细]

蜡笔小新 2023-12-10 10:07:44
http
shiro java配置问题：加入Shiro listener后启动失败

本文讨论了在shiro java配置中加入Shiro listener后启动失败的问题。作者引入了一系列jar包，并在web.xml中配置了相关内容，但启动后却无法正常运行。文章提供了具体引入的jar包和web.xml的配置内容，并指出可能的错误原因。该问题可能与jar包版本不兼容、web.xml配置错误等有关。 ... [详细]

蜡笔小新 2023-12-10 09:43:05
asp.net
ASP.global_asax不存在于命名空间ASP中的问题

本文讨论了在ASP中创建RazorFunctions.cshtml文件时出现的问题，即ASP.global_asax不存在于命名空间ASP中。文章提供了解决该问题的代码示例，并详细解释了代码中涉及的关键概念，如HttpContext、Request和RouteData等。通过阅读本文，读者可以了解如何解决该问题并理解相关的ASP概念。 ... [详细]

蜡笔小新 2023-12-09 19:22:03
http
SpringMVC工作流程概述

SpringMVC工作流程概述 ... [详细]

蜡笔小新 2023-12-09 18:43:26
timeout
数据库锁的分类和应用

本文介绍了数据库锁的分类和应用，包括并发控制中的读-读、写-写、读-写/写-读操作的问题，以及不同的锁类型和粒度分类。同时还介绍了死锁的产生和避免方法，并详细解释了MVCC的原理以及如何解决幻读的问题。最后，给出了一些使用数据库锁的实际场景和建议。 ... [详细]

蜡笔小新 2023-12-09 10:28:49
php
php simplemvc,学习猿地一个简单的 PHPsimplemvc （提供基本的功能）

ps:写的第一个，不足之处，欢迎拍砖---只是想用自己的方法一步步去实现一些框架看似高大上的小功能(比如说模型中的toArraytoJsonsetAtt ... [详细]

蜡笔小新 2023-10-17 20:32:19
php
springmvc学习指南之—第41篇关于Anno

今天写一篇blog，已经多长时间没有更了，两个月了吧，没办法，现在银行开发，不能连外网，天天用虚拟机，真烦今天随手写点东西，主要是这两天对于springboot启动的分析，有所领悟 ... [详细]

蜡笔小新 2023-10-17 19:09:43
api
Django + Ansible 主机管理(有源码)

本文给大家介绍如何利用DjangoAnsible进行Web项目管理。Django介绍一个可以使Web开发工作愉快并且高效的Web开发框架，能够以最小的代价构建和维护高 ... [详细]

蜡笔小新 2023-10-17 18:59:15
上传
从壹开始前后端分离【 .NET Core2.0 +Vue2.0 】框架之六 || API项目整体搭建 6.1 仓储模式

代码已上传Github+Gitee，文末有地址　　书接上文：前几回文章中，我们花了三天的时间简单了解了下接口文档Swagger框架，已经完全解放了我们的以前的Word说明文档，并且可以在线进行调 ... [详细]

蜡笔小新 2023-10-17 18:25:42
session
java开发中常用框架优缺点

一、Struts2是一个基于MVC设计模式的Web应用框架在MVC设计模式中，Struts2作为控制器(Controller)来建立模型与视图的数据交互。Struts2优点1、实现 ... [详细]

蜡笔小新 2023-10-17 16:19:02
asp.net
MVC中的自定义控件

怎么样创建自定义控 ... [详细]

蜡笔小新 2023-10-17 15:31:43

新洋之家140

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章