当前位置: 开发笔记 > 运维 > 正文

分布式缓存GemFire架构介绍

作者：此号我已不再用 | 来源：互联网 | 2014-11-23 09:31

1什么是GemFireGemFire是一个位于应用集群和后端数据源之间的高性能、分布式的操作数据(operationaldata)管理基础架构。它提供了低延迟、高吞吐量的数据共享和事件分发。GemFire充分利用网络中的内存和磁盘资源，形成一个实时的数据网格(datafabricorgrid)。 Ge

1什么是GemFire

GemFire是一个位于应用集群和后端数据源之间的高性能、分布式的操作数据(operational data)管理基础架构。它提供了低延迟、高吞吐量的数据共享和事件分发。GemFire充分利用网络中的内存和磁盘资源，形成一个实时的数据网格(data fabric or grid)。

GemFire的主要特性有：

? 多种网络拓扑

? 高并发的内存数据结构，避免锁争夺

? 可选的ACID

? 序列化(native serialization)和智能缓冲(smart buffering)保证消息快速分发

? 同步或异步写磁盘

? 冗余内存拷贝

2网络拓扑和缓存架构

考虑到问题多样性和架构灵活性，GemFire提供了多种选项来配置在哪(where)以及怎样(how)管理缓存数据，这就使架构师能够从P2P(peer-to-peer)、CS(client-server)、WAN三种组件构建出合适的缓存架构。

2.1 P2P拓扑

在P2P分布式系统中，应用程序使用GemFire的镜像(mirroring)功能来将大量数据跨结点分区(sharding)以及在这些结点间进行数据复制同步。下面主要讲一下GemFire的P2P拓扑中的两个主要角色：mirrored镜像结点和partitioned分区结点(具体见3.2中mirror-type的配置方式)。

因为在P2P拓扑中缓存数据与应用在一起，所以首先说一下嵌入式缓存。所谓嵌入式缓存(embedded cache)其实就是说缓存和应用程序在一起，直接利用应用服务器的内存空间。也就是我们常说的类似Ehcache的那种本地缓存(local cache)。

mirrored结点就像一块磁铁一样，将其他数据区域的数据都吸附过来，形成一块完整的数据集合。当一块数据区域被配置为mirrored的结点第一次新建或重建时，GemFire将自动执行初始镜像抓取(initial image fetch)操作，从其他结点的数据子集中还原出完整的状态。如果此时网络中存在另一个mirrored结点，那么将会执行最优直接抓取(optimal directed fetch)。

所以我们很容易看出，mirrored结点主要出于两种目的：

? 对于大量读的应用，应用程序通过保存全量数据，使客户端请求可以即时访问到想要数据，而无需经过网络传输

? 当发生故障时，mirrored结点可以用来恢复其他结点

不同于mirrored结点，每个partitioned结点都持有唯一的一块数据。应用程序就像操作本地数据一样，GemFire在幕后管理各个分区的数据，并且保证在至多一跳内(at most one network hop)完成数据访问。根据GemFire的哈希算法，分区数据会被自动放入到各个结点的bucket中。同时GemFire也会自动分配出冗余数据的位置并进行复制。当某个结点出错时，客户端请求会自动被重定向到备份结点。并且GemFire会重新复制出一份数据，从而保证数据的冗余拷贝数。最后，我们可以随时向网络中加入新的结点来对GemFire集群进行动态扩容。

P2P系统提供了低延迟、单跳(one-hop)数据访问、动态发现以及透明化的数据存储位置。但是，网络中的每个结点都要维持一个socket连接到其他每个结点。当结点增多时，连接数将成指数级增长。为了提高扩展性，GemFire提供了一种可靠的UDP多播的通信方式。在下一节中我们将看到，P2P数据同步在服务器间复制数据时的作用。

2.2 Client-Server拓扑

Client-Server缓存允许大量结点相连形成客户端-服务器结构。服务器即为客户端提供缓存，也可以为其他服务器提供数据复制或缓存。

2.3 WAN拓扑

P2P集群由于点和点之间的紧耦合而产生了扩展性问题，这种问题在数据中心有多个集群或数据中心跨城市时被放大。GemFire提供另一种模型来解决。

3 GemFire工作原理

3.1发现机制

默认GemFire使用IP多播来发现新成员，然而所有成员间的通信都采用TCP。对于部署环境禁止使用IP多播或者网络跨越多个子网时，GemFire提供备用方法：使用轻量级的定位服务器(locator server)来追踪所有成员的连接。新成员加入集群时，将询问定位服务并建立类似于IP多播的socket到socket的TCP连接。

3.2数据分发

每个成员都会创建一个或多个缓存数据区域(data region)，通过区域的划分，我们能给每个区域配置不同的分发属性、内存管理以及数据一致性模型。默认GemFire使用P2P分发模型，每个成员都能和其他任何成员通信。同时根据不同的内网特点，传输层可选TCP/IP或可靠多播(UDP)。在这些配置中，有两个属性很重要，范围(scope)和镜像类型(mirror-type)。

首先，范围(scope)有四种选项：

? Local：不分发。那为什么不直接保存到HashMap中。因为GemFire额外提供了数据自动持久化到磁盘、OQL(Object Query Language)查询数据、数据操作的事务等特性。

? Distribute-no-ack：发送数据给成员1，在发送数据给成员2时不等待成员1的响应。适用于对数据一致性要求不高，并要求低网络延迟的情况。这是GemFire的默认配置，能够提供低延迟、高吞吐，并通过尽快分发来降低数据冲突的概率。

? Distribute-ack：在发送给成员2前，发送数据并等待成员1的响应。这样每条数据都是同步分发的。

? Global：分发前在其他成员上获得锁，再分发数据。适用于悲观的应用场景，通过全局锁服务来管理锁的获得、释放和超时。

现在来看一下第二个重要的配置属性镜像类型(mirror-type)：

? none：仅当缓存中有此数据时才更新，任何其他成员发来的新数据都会被忽略掉。适用于某一数据区域仅用来保存另一区域数据的子集。

? keys：数据区域仅保存key来节约内存，当真正有请求时再从其他区域抓取数据并保存到本地，之后接受对此数据项的更新。适用于无法预测哪些数据会被某一结点访问的情况。

? keys-values：真正的镜像，将保存全量数据。适用于需要立即访问所有数据的结点，以及数据冗余备份。

这两个属性的配置对数据区域中保存的是什么数据有很大影响：

4持久化和溢出

持久化(persistence)将整个数据集拷贝到磁盘，当成员出错时可以用来还原数据。而溢出(overflow)保存key在内存中而value保存到磁盘，达到节省内存的目的。两者既可以单独使用，也可以混合使用。

4.1持久化

GemFire支持两种写磁盘选项：操作内存数据时同步写，或者固定间隔异步写。后一种只当应用在出错时能够容忍不完整的数据还原时使用。

4.2溢出

当内存不足时，GemFire使用LRU策略来决定是否对某个数据项溢出。

4.3混合使用

持久化与溢出可以混合使用。所有key-value都备份到磁盘，并且当内存不足时，只保留最近使用过的数据。由于LRU而被移除到磁盘的value不会对磁盘有影响，因为所有数据已被持久化到磁盘上了。

5事务

GemFire支持缓存事务与JTA事务两种。

5.1缓存事务

每个事务都有其私有的工作区域。事务开始时，数据将被拷贝到私有区域，直到事务提交。若提交时没有冲突，则数据从私有区域拷贝回原区域。这样事务就可以并发地修改缓存了。

对于范围(scope)配置为local的缓存数据区域，事务提交后就算是完成了。但对于分布式(scope=distributed-no-ack or distributed-ack)，则在事务提交时要进行缓存同步。

6查询

(待补充：OOL)

7数据可用性和Failover

(待补充)

推荐阅读

服务器
域名解析系统DNS

文章目录前言一、域名系统概述二、因特网的域名结构三、域名服务器1.根域名服务器2.顶级域名服务器(TLD,top-leveldomain)3.权威(Authoritative)域名 ... [详细]

蜡笔小新 2023-10-17 02:59:43
服务器
UDP千兆以太网FPGA_verilog实现（四、代码前期准备UDP和IP协议构建）

UDP：userDatagramprotocol用户数据报协议无连接的传输层协议，提供面向事务的简单不可靠信息传送服务，IETFRFC76 ... [详细]

蜡笔小新 2023-10-17 15:16:43
服务器
c# java socketn 字节流_C#Socket编程详解（一）TCP与UDP简介

一、TCP与UDP(转载)1、TCP1.1定义TCP(TransmissionControlProtocol)传输控制协议。是一种可靠的、面向连接的协议(eg:打电话)、传输效率低 ... [详细]

蜡笔小新 2023-10-16 14:46:35
linux
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
apache
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
centos
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
服务器
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
服务器
Hyperledger Fabric外部链码构建与运行的开发笔记

本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识，包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性，外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍，读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行，并且不再受限于特定的语言和部署环境。 ... [详细]

蜡笔小新 2023-12-13 21:47:39
运维
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32
linux
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
服务器
高校天文共享平台开发过程中的思考与规划

本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面，并总结了项目存在的问题，如前后端未分离、代码混乱等。作者表示希望通过记录和规划，能够理清思路，进一步完善该平台。 ... [详细]

蜡笔小新 2023-12-13 18:08:58
linux
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
服务器
iptables如何添加非对称的NAT规则段的解决方法

本文介绍了如何使用iptables添加非对称的NAT规则段，以实现内网穿透和端口转发的功能。通过查阅相关文章，得出了解决方案，即当匹配的端口在映射端口的区间内时，可以成功进行端口转发。详细的操作步骤和命令示例也在文章中给出。 ... [详细]

蜡笔小新 2023-12-13 17:13:18
linux
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
服务器
H323资料

概述H.323是由ITU制定的通信控制协议，用于在分组交换网中提供多媒体业务。呼叫控制是其中的重要组成部分，它可用来建立点到点的媒体会话和多点间媒体会议 ... [详细]

蜡笔小新 2023-10-17 19:16:37

此号我已不再用

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章