热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

把lucene作为数据库

小旋风垂直搜索平台,包括多线程的爬虫系统,中文分词等。目前涉及一个数据存储系统,当然需要支持多样数据库,比如accessex

小旋风垂直搜索平台,包括多线程的爬虫系统,中文分词等。

目前涉及一个数据存储系统,当然需要支持多样数据库,比如access/excel/mssql/mysql/orcal等等。

既然称之为垂直搜索平台,则包括数据的索引,索引使用的是lucene.net2.3.

考虑到数据的一次爬取后可以重复利用,则考虑把数据预先统一索引到lucene,然后通过索引管理模块将数据读出,存储到相应的数据库。

有一个问题需要考虑,lucene与数据库不同。lucene以document为单位,而传统的关系数据库以记录为单位,每条数据记录的格式是相同的(有些字段可以为空)

lucene则可以随意扩展你的字段。

这就需要规范存储入lucene的document必段包含的字段,以备后续读取之用。一是document的更新时间,二是数据的来源(字符串形式,可以是网站,比如58.com,比如是从其它数据库中导入的,可以定义一个相关字段)

转:https://www.cnblogs.com/jerry-weijb/archive/2008/12/27/1363704.html



推荐阅读
author-avatar
天天火火红红
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有