热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Solrinaction学习笔记第十三章SolrCloud

13.1GettingstartedwithSolrCloud13.1.1StartingSolrincloudmode单机建立一个集群应用,一个端口模拟一个solrcd$SOLR

13.1 Getting started with SolrCloud

13.1.1Starting Solr in cloud mode

单机建立一个集群应用,一个端口模拟一个solr

cd $SOLR_INSTALL/
cp -r example/ shard1/

13.1.2 Motivation behind the SolrCloud architecture

■ Scalability
■ High availability
■ Consistency
■ Simplicity
■ Elasticity

----------------------------------------

■ Scalability

*replication可以提高容错性,并且提供query的并行性

我们的目标是linearly scalable,但实际上增加资源要增加额外的管理开销,所以只能接近这个目标

一个Solr的index至多21亿的文档(int64的ID),解决方法是索引分片shard

大文档和多field需要更多的内存和更快的磁盘IO,解决:Add RAM and faster disks

Index吞吐量:需要每秒索引数千文档,解决:分布式索引

query量:使用“复制”并行query

query复杂性(facet,sort等):使用shard和replication

-----------------------------------------------------------------

■ High availability(高可靠性)

从商业的角度考虑问题:How much you can spend

failover失败备缓

数据冗余:失败时不用复制数据到正常机器

1 Unexpected outages that affect a subset of the nodes in your cluster due to issues
such as hardware faults and loss of network connectivity
2 Planned outages due to upgrades and system maintenance tasks
3 Degraded service due to heavy system load
4 Disasters that take your entire cluster/data center offline

Solr提供单数据中心的高可靠性,多数据中心还未提供支持

服务的两种架构:1.所有的node都提供index和query2.master nodes提供index,slave nodes提供query

minimize downtime during upgrades:rolling restart

另一种outage:过载,query返回过慢,在用户端是不能容许的!

  解决:可靠的管理系统,快速添加node的能力

高级话题:硬件层优化,如RAID等

--------------------------------------------

■ Consistency

根据CAP原则,可用性与一致性不可兼得?

更新操作必须在所有replicas上成功,否则整个操作失败。solr不允许replicas上的query返回不同版本的文档。

Solr目前对不一致性是0容忍的。

-----------------------------------------------

■ SIMPLICITY

*一但集群启动,操作不比单机复杂

*fail node恢复简单:自动同步

Zookeeper可以看成黑盒技术,处理初始化就不用太管了。

ELASTICITY

扩展系统的能力:shard继续分成更小的shard,增加replica

---------------------------------------------------------------

13.2 Core concepts

13.2.1 Collections vs. cores

Collections提供一个schema的整个服务,可有多个cores组成,每个core是一个shard或replica?。

shard是互不相交的索引分片,replica是shard的复制,一个shard有多个replica,其中一个是leader

13.2.2 ZooKeeper

■ Centralized configuration storage and distribution
■ Detection and notification when the cluster state changes
■ Shard-leader election

成熟稳定广泛应用

 ZOOKEEPER DATA MODEL

组织数据为类似于文件系统的分层结构,每层称为znode,包含基本的元数据,每个znode最多存1mb数据。ZooKeeper不是用来做数据存储系统的,只存小的元数据。

一个中心概念:ephemeral znode,短暂的znode?由客户端连接使其保持actvie。如果客户端失去连接,短暂zndoe被自动删除。

一个Solr的node加入集群,Zookeeper会为其创建znode,如果该node失联,Zookeeper还会通知其他node

ZNODE WATCHER

任何客户端应用都可以注册为watcher,znode改变,Zookeeper就会通知watcher

PRODUCTION CONFIGURATION

对于产品来讲,配置一个独立的Zookeeper全体,有3个node组成

zkHost参数将Zookeeper的服务器和端口传给Solr

ZOOKEEPER CLIENT TIMEOUT

Zookeeper检视solr状态的超时参数,默认15秒

CENTRALIZED CONFIGURATION STORAGE AND DISTRIBUTION

solrconfig和schema都被提交到Zookeeper上!

13.2.3 Choosing the number of shards and replicas

有文档数,文档大小,index,query吞吐量,query复杂性,index增长等因素决定。12章Solr产品化有讲

13.2.4 Cluster-state management

active,inactive等

13.2.5 Shard-leader election

shard leader接受更新请求,并发布到replicas上使其同步,Specifically,

■ Accepts update requests for the shard
■ Increments the value of the _version_ field on the updated document and enforces optimistic locking
■ Writes the document to its update log
■ Sends the update (in parallel) to all replicas and blocks until a response is received

shard leader在query时没有额外的责任

13.2.6 Important SolrCloud configuration settings

solr.xml有标签

HOST:向Zookeeper提供ip和端口,产品化时最好使用host name,更可视化,并且易于更新(更新dns

具体425-426

***********************************************************

13.3 Distributed indexing

客户单的角度,index没有改变。服务器端index改变巨大,

13.3.1 Document shard assignment

document router:文档路由,决定文档分配到哪个shard

两个solr提供的策略:compositeId (default) and implicit(不讨论,路由需要客户端编程完成,定制化路由)

每个shard分配32位的hash range,范围平均分配到每个shard

该算法使用unique document ID计算hash,分配到该范围的shard中

计算需要快速且对shard公平。

使用MurmurHash算法

13.3.2 Adding documents

SolrJ提供新的SolrServer实现:CloudSolrServer,是index更鲁棒

CloudSolrServer读取zookeeper的cluster-state,直到shard leader,因为update request要先路由到leader,CloudSolrServer可以直接发给leader节省时间

 具体步骤略读P430-431

一批文档CloudSolrServer自动分组,高吞吐量index到正确的shard上

13.3.3 NRT

实际上是soft commit,略

13.3.4 Node recovery

■ Peer sync—If the outage was short-lived and the recovering node missed only a few updates, it will recover by pulling updates from the shard leader’s update log. The upper limit on missed updates is currently hardcoded to 100. If the number of missed updates exceeds this limit, the recovering node pulls a full index snapshot from the shard leader.

■ Snapshot replication—If a node is offline for an extended period of time such that it becomes too far out of sync with the shard leader, it uses Solr’s HTTPbased replication, based on the snapshot of the index. 

-----------------------------------------------------------------------------

13.4 Distributed search

Solr in action学习笔记 第十三章 SolrCloud


推荐阅读
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 本文讨论了如何优化解决hdu 1003 java题目的动态规划方法,通过分析加法规则和最大和的性质,提出了一种优化的思路。具体方法是,当从1加到n为负时,即sum(1,n)sum(n,s),可以继续加法计算。同时,还考虑了两种特殊情况:都是负数的情况和有0的情况。最后,通过使用Scanner类来获取输入数据。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 动态规划算法的基本步骤及最长递增子序列问题详解
    本文详细介绍了动态规划算法的基本步骤,包括划分阶段、选择状态、决策和状态转移方程,并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中,在以后尽可能多地利用这些子问题的解,从而提高算法的效率。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • Mac OS 升级到11.2.2 Eclipse打不开了,报错Failed to create the Java Virtual Machine
    本文介绍了在Mac OS升级到11.2.2版本后,使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题,并提供了解决方法。 ... [详细]
  • 本文介绍了通过ABAP开发往外网发邮件的需求,并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定,可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度:184字。 ... [详细]
author-avatar
mobiledu2502920277
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有