Lucene+Hadoop分布式搜索运行框架Nut1.0a9转自http://www.linuxidc.com/Linux/201202/53113.htm...

作者：一生的牵扯 | 来源：互联网 | 2023-09-15 10:00

1、概述不管程序性能有多高，机器处理能力有多强，都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则，以此原则形成以分布式并

1、概述
不管程序性能有多高&＃xff0c;机器处理能力有多强&＃xff0c;都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则&＃xff0c;以此原则形成以分布式并行计算为核心的架构设计。以分布式并行计算为核心的架构设计是Nut区别于Solr、Katta的地方。

Nut是一个Lucene&＃43;Hadoop分布式并行计算搜索框架&＃xff0c;能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。

Nut开发环境&＃xff1a;jdk1.6.0.23&＃43;lucene3.0.3&＃43;eclipse3.6.1&＃43;hadoop0.20.2&＃43;zookeeper3.3.2&＃43;hbase0.20.6&＃43;memcached&＃43;mongodb&＃43;linux

2、特新
a、热插拔
b、可扩展
c、高负载
d、易使用,与现有项目无缝集成
e、支持排序
f、7*24服务
g、失败转移

3、搜索流程
Nut由Index、Search、Client、Cache和DB五部分构成。(Cache实现了对memcached的支持,DB实现了对hbase,mongodb的支持)
Client 处理用户请求和对搜索结果排序。Search对请求进行搜索&＃xff0c;Search上只放索引&＃xff0c;数据存储在DB中&＃xff0c;Nut将索引和存储分离。Cache缓存的是搜索条件和结果文档id。DB存储着数据&＃xff0c;Client根据搜索排序结果,取出当前页中的文档id从DB上读取数据。

用户发起搜索请求给由Nut Client构成的集群&＃xff0c;由某个Nut Client根据搜索条件查询Cache服务器是否有该缓存&＃xff0c;如果有缓存根据缓存的文档id直接从DB读取数据&＃xff0c;如果没有缓存将随机选择一组搜索服务器组 (Search Group i),将查询条件同时发给该组搜索服务器组里的n台搜索服务器&＃xff0c;搜索服务器将搜索结果返回给Nut Client由其排序&＃xff0c;取出当前页文档id&＃xff0c;将搜索条件和当前文档id缓存&＃xff0c;同时从DB读取数据。

4、索引流程
Hadoop Mapper/Reducer 建立索引。再将索引从HDFS分发到各个索引服务器。
对索引的更新分为两种&＃xff1a;删除和添加&＃xff08;更新分解为删除和添加&＃xff09;。
a、删除
在HDFS上删除索引&＃xff0c;将生成的*.del文件分发到所有的索引服务器上去或者对HDFS索引目录删除索引再分发到对应的索引服务器上去。
b、添加
新添加的数据用另一台服务器来生成。
删除和添加步骤可按不同定时策略来实现。

5、Nut分布式并行计算特点
Nut分布式并行计算虽然也是基于M/R模型&＃xff0c;但是与Hadoop M/R模型是不同的。在Hadoop M/R模型中 Mapper和Reducer是一个完整的流程&＃xff0c;Reducer依赖于Mapper。数据源通过Mapper分发本身就会消耗大量的I/O&＃xff0c;并且是消耗I /O最大的部分。所以Hadoop M/R 并发是有限的。
Nut M/R模型是将Mapper和Reducer分离&＃xff0c;各自独立存在。在Nut中索引以及索引管理构成M,搜索以及搜索服务器组构成 R。
以一个分类统计来说明Nut分布式并行计算的流程。假设有10个分类&＃xff0c;对任意关键词搜索要求统计出该关键词在这10个分类中的总数。同时假设有10组搜索服务器。索引以及索引管理进行索引数据的Mapper&＃xff0c;这块是后台独自运行管理的。Nut Client将这10个分类统计分发到10组搜索服务器上&＃xff0c;每组搜索服务器对其中一个分类进行Reducer&＃xff0c;并且每组搜索服务器可进行多级 Reducer。最后将最终结果返回给Nut Client。

6、设计图

7、Zookeeper服务器状态管理策略

在架构设计上通过使用多组搜索服务器可以支持每秒处理100万个搜索请求。
每组搜索服务器能处理的搜索请求数在1万—1万5千之间。如果使用100组搜索服务器&＃xff0c;理论上每秒可处理100万个搜索请求。

假如每组搜索服务器有100份索引放在100台正在运行中搜索服务器(run)上&＃xff0c;那么将索引按照如下的方式放在备用中搜索服务器 (bak)上&＃xff1a;index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10放在B 1 上&＃xff0c;index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15放在B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1放在最后一台备用搜索服务器上。那么每份索引会存在3台机器中&＃xff08;1份正在运行中&＃xff0c;2份备份中&＃xff09;。
尽管这样设计每份索引会存在3台机器中&＃xff0c;仍然不是绝对安全的。假如运行中的index 1,index 2,index 3同时宕机的话&＃xff0c;那么就会有一份索引搜索服务无法正确启用。这样设计&＃xff0c;作者认为是在安全性和机器资源两者之间一个比较适合的方案。

备用中的搜索服务器会定时检查运行中搜索服务器的状态。一旦发现与自己索引对应的服务器宕机就会向lock申请分布式锁&＃xff0c;得到分布式锁的服务器就将自己加入到运行中搜索服务器组&＃xff0c;同时从备用搜索服务器组中删除自己&＃xff0c;并停止运行中搜索服务器检查服务。

为能够更快速的得到搜索结果&＃xff0c;设计上将搜索服务器分优先等级。通常是将最新的数据放在一台或几台内存搜索服务器上。通常情况下前几页数据能在这几台搜索服务器里搜索到。如果在这几台搜索服务器上没有数据时再向其他旧数据搜索服务器上搜索。
优先搜索等级的逻辑是这样的&＃xff1a;9最大为搜索全部服务器并且9不能作为level标识。当搜索等级level为1&＃xff0c;搜索优先级为1的服务器&＃xff0c;当level为2时搜索优先级为1和2的服务器&＃xff0c;依此类推。

转:https://www.cnblogs.com/1130136248wlxk/p/5034552.html

推荐阅读

io
开发笔记:Memcached高性能内存对象缓存系统

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Memcached高性能内存对象缓存系统相关的知识，希望对你有一定的参考价值。一、Memcached概述 ... [详细]

蜡笔小新 2023-10-13 19:08:11
io
es的分布式原理？es是如何实现分布式的？

Elasticsearch设计的理念是分布式搜索引擎，底层其实是基于lucene。核心思 ... [详细]

蜡笔小新 2023-10-12 18:29:23
client
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
client
camel_使用Camel在来自不同来源的Solr中索引数据

camelApacheSolr是建立在Lucene之上的“流行的，快速的开源企业搜索平台”。为了进行搜索(并查找结果)，通常需要从不同的源(例如内容管理 ... [详细]

蜡笔小新 2023-10-15 11:20:39
jsp
架构设计：负载均衡层设计方案之负载场景和解决方式篇

来自：JAVA入门中https:blog.csdn.netyinwenjiearticledetails46605451在上一篇《标准Web系统的架构分层》文章中&# ... [详细]

蜡笔小新 2023-10-13 08:07:34
jsp
2015第44周六tomcat集群了解

对于WEB应用集群的技术实现而言，最大的难点就是如何能在集群中的多个节点之间保持数据的一致性，会话（Session）信息是这 ... [详细]

蜡笔小新 2023-10-13 05:50:24
jsp
Solr简介（1）

一：什么是solrSolr是apache下的一个开源项目，使用Java基于lucene开发的全文搜索服务器；Lucene是一个开放源代 ... [详细]

蜡笔小新 2023-10-12 18:15:48
io
GetWindowLong函数

今天在看一个代码里头写了GetWindowLong(hwnd,0)，我当时就有点费解，靠，上网搜索函数原型说明，死活找不到第 ... [详细]

蜡笔小新 2023-12-14 17:58:15
python
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
jsp
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
js
flowable工作流流程变量_信也科技工作流平台的技术实践

1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下：目前OA流程引擎无法满足企业特定业务流程需求，且移动端体 ... [详细]

蜡笔小新 2023-12-13 10:17:15
python
一名微博架构师的年终总结

2019独角兽企业重金招聘Python工程师标准眼看着又一年结束，想想今年过的还真是快，上个画面还是去年年末各种处理故障的场景，一眨 ... [详细]

蜡笔小新 2023-10-13 10:15:00
jsp
实战项目memcached+tomcat+session+nginx在工作中的应用和配置

环境介绍：公司根据实际需要搭建一个购物网站，当用户购物时可以将不同商品，放到同一个购物车中进行同时付款。环境的搭建：外网用户IP地址：1.1.1.1主机名:fanxiaohui用户 ... [详细]

蜡笔小新 2023-10-13 07:29:54
io
孙玄达叔：年薪75万的真实技术面试实践攻略（篇章二）

文章目录1、解决问题能力2、沟通与协作能力3、成长潜力4、文化匹配度5、彩蛋孙玄：毕业于浙江大学，现任转转公司首席架构师，技术委员会主席& ... [详细]

蜡笔小新 2023-10-13 07:07:19
io
网易数帆 Curve 加入 PolarDB 开源数据库社区

网,易,数,帆,curve,加入,polardb ... [详细]

蜡笔小新 2023-10-13 03:36:21

一生的牵扯

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章