当前位置: 开发笔记 > 后端 > 正文

架构设计之数据分片

作者：毒菇求败的zyqy_654 | 来源：互联网 | 2023-06-13 20:02

数据分片技术作为目前架构设计中处理大数据的一种常规手段，当前被广泛用于缓存、数据库、消息队列等中间件的开发与使用当中，例如在数据量较大的项目当中，系统的性能瓶颈主要来自于与数据库的

数据分片技术作为目前架构设计中处理大数据的一种常规手段，当前被广泛用于缓存、数据库、消息队列等中间件的开发与使用当中，例如在数据量较大的项目当中，系统的性能瓶颈主要来自于与数据库的交互，而通过合理的设计数据库分片规则，可将系统中的数据分布在不同的物理数据库中，平衡了单点的数据量与访问压力，达到提升应用系统数据处理速度的目的，从而提高系统的整体性能；

数据库分片的概念

数据分片概念就是按照一定的规则，将数据集划分成相对独立的数据子集，然后将数据子集分布到不同的节点上，这个节点可以是逻辑上节点，也可以是物理上的节点。数据分片需要按照一定的规则，不同的分布式场景需要设计不同的规则，但基本都遵循同样的原则：按照最主要、最频繁使用的访问方式来分片。在常规的项目开发当中，一般有以下三种方式对数据进行分片:hash方式、一致性hash、按照数据范围，每种分片方式是否适用，一方面需要结合项目的实际情况与规模，另一方面也要从几个常规的维度去评估：

1、数据分片策略，也就是具体的分片方式

2、数据分片节点的动态扩展，随着数据量的逐步增长，是否能够通过增加节点来动态扩展适应

3、数据分片节点的负载均衡‘，结合分片策略能否保证数据均匀的分布在各个节点上以及各个节点的负载压力是否均衡

4、数据分片的可用性，当其中一个节点产生异常，能否将该节点的数据转移到其他节点上

下面我们就对三种常规的分片模式做个基本的介绍

hash方式

通过对数据（一般为Key值）先进行hash计算再取模的方式是一种简单且使用频繁的分片方式，也就是Hash(Key)%N，这里的N大部分情况下就是我们的结点个数，这种方式相对简单实用,一般场景下能够满足我们的要求。但Hash取模方式主要的问题是节点扩容或缩减的时候，会产生大量的数据迁移，比如从N台设备扩容到N+1台，绝大部分的数据都要在设备间进行迁移。该种方式代码实现较为简单，既可以采用jdk自带的hash方式也可以采用其他hash算法，大家可以自行搜索具体实现。

一致性hash

一致性hash是将数据按照特征值映射到一个首尾相接的hash环上，同时也将节点映射到这个环上。对于数据，从数据在环上的位置开始，顺时针找到的第一个节点即为数据的存储节点。这种模式的优点在于节点一旦需要扩容或缩减的时候只会影响到hash环上相邻的节点，不会发生大规模的数据迁移。分片方式如下图所示

但是常规的一致性hash分片模式也有缺点，一致性hash方式在增加节点的时候，只能分摊一个已存在节点的压力，在其中一个节点挂掉的时候，该节点的压力也会被全部转移到下一个节点。理想的目标是当节点动态发生变化时，已存在的所有节点都能参与进来，达到新的均衡状态。因此在实际开发中一般会引入虚拟节点（virtual node）的概念，即不是将物理节点映射在hash环上，而是将虚拟节点映射到hash环上。虚拟节点的数目远大于物理节点，因此一个物理节点需要负责多个虚拟节点的真实存储。操作数据的时候，先通过hash环找到对应的虚拟节点，再通过虚拟节点与物理节点的映射关系找到对应的物理节点。

引入虚拟节点后的一致性hash需要维护的元数据也会增加：第一，虚拟节点在hash环上的问题，且虚拟节点的数目又比较多；第二，虚拟节点与物理节点的映射关系。但带来的好处是明显的，当一个物理节点失效时，hash环上多个虚拟节点失效，对应的压力也就会发散到多个其余的虚拟节点，事实上也就是多个其余的物理节点。在增加物理节点的时候同样如此。除此之外，可以根据物理节点的性能来调整每一个物理节点对于虚拟节点的数量，充分、合理利用资源。下面看下引入虚拟节点的一致性hash的代码实现

/**
* 节点信息
*
*/
class Node {
private String host;//IP信息
private int load;//负载因子
public String getHost() {
return host;
}
public void setHost(String host) {
this.host = host;
}
public int getLoad() {
return load;
}
public void setLoad(int load) {
this.load = load;
}
public Node(String host, int load) {
super();
this.host = host;
this.load = load;
}
@Override
public String toString() {
return "Node [host=" + host + ", 负载因子=" + load + "]";
}
}
// 真实节点列表
private static List realNodes = new ArrayList();
// 虚拟节点，key是Hash值，value是虚拟节点信息
private static SortedMap virtualMap = new TreeMap();
static {
//初始化真实节点列表
realNodes.add(new Node("192.168.1.1", 5));
realNodes.add(new Node("192.168.1.2", 10));
realNodes.add(new Node("192.168.1.3", 20));
realNodes.add(new Node("192.168.1.4", 5));
for (Node node : realNodes) { //添加虚拟节点
for (int i = 0; i ) {
String server = node.getHost();
String virtualNode = server + "&&VN" + i;
int hash = getHash(virtualNode);
virtualMap.put(hash, virtualNode);
}
}
}
/**
* FNV1_32_HASH算法
*/
private static int getHash(String str) {
final int p = 16777619;
int hash = (int) 2166136261L;
for (int i = 0; i )
hash = (hash ^ str.charAt(i)) * p;
hash += hash <<13;
hash ^= hash >> 7;
hash += hash <<3;
hash ^= hash >> 17;
hash += hash <<5;
// 如果算出来的值为负数则取其绝对值
if (hash <0)
hash = Math.abs(hash);
return hash;
}
/**
* 获取被分配的节点名
*
* @param node
* @return
*/
public static Node getNode(String key) {
int hash = getHash(key);//
Integer keyNode = null;
// 得到大于该Hash值的所有Map
SortedMap subMap = virtualMap.tailMap(hash);
if (subMap.isEmpty()) {//在这里形成一个环形结构
//如果没有比该key的hash值大的，则从第一个node开始
keyNode = virtualMap.firstKey();
} else {
//获取第一个key值，也就是顺时针第一个节点
keyNode = subMap.firstKey();
}
String virtualNode = virtualMap.get(keyNode);//获取虚拟节点
String realNodeName = virtualNode.substring(0, virtualNode.indexOf("&&"));
for (Node node : realNodes) {//根据虚拟节点获取真实节点
if (node.getHost().equals(realNodeName)) {
return node;
}
}
return null;
}

按数据范围（range based）

按数据范围分片其实也就是基于数据的业务属性进行分片，如唯一编码、时间戳、使用频率等，比如在数据库层面按ID范围、按时间进行分库、分表、分片，按数据被访问频率分为热点库与历史库等方法，都是按数据范围方式的具体应用。基于数据范围的分片模式需要贴合项目实际场景，使用中需要注意以下几点：

1、分片与扩展实现比较简单，结合ID范围、时间结合业务自行实现即可；

2、较为依赖备份机制，否则某个节点发生异常无法迅速恢复，可用性较难保证；

3、对数据规模要有前瞻性的评估，例如按时间分片，需要考虑单位时间片内数据分布是否均匀；

4、注意各分片数据之间的性能平衡，因为在常规场景下，无论采用哪种基于数据范围的分片模式，都是距离当前时间点较近的数据被访问和操作的几率较大，所以要特别注意随着数据规模与时间的推移，历史数据规模不断膨胀导致的整体性能下降。

综上是对项目开发中我们使用的数据分片模式的一个简单总结，hash与一致性hash有着相对固定的实现方式，按数据范围则需要结合业务数据属性进行分析，我们要意识到数据分片在项目中不是一个孤立的问题，它关系着数据备份、一致性、可用性、负载均衡、数据访问与操作等等一系列问题，所以需要系统性的去学习与思考，本文内容只是一个基础性的阐述与总结，其中如有不足与不正确的地方还望指正与海涵，十分感谢。

关注微信公众号，查看更多技术文章。

推荐阅读

http
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
java
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
java
eclipse学习（第三章：ssh中的Hibernate）——11.Hibernate的缓存（2级缓存，get和load）

本文介绍了eclipse学习中的第三章内容，主要讲解了ssh中的Hibernate的缓存，包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]

蜡笔小新 2023-12-14 00:31:35
redis
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
server
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
server
Oracle数据库技术：如何选择cache或nocache参数来创建序列(sequence)

本文介绍了在Oracle数据库中创建序列时如何选择cache或nocache参数。cache参数可以提高序列的存取速度，但可能会导致序列丢失；nocache参数可以避免序列丢失，但在高并发访问时可能导致性能问题。文章详细解释了两者的区别和使用场景。 ... [详细]

蜡笔小新 2023-12-13 15:29:38
http
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
asp.net
利用中间件模式简化代码逻辑

在编写业务代码时，常常会遇到复杂的业务逻辑导致代码冗长混乱的情况。为了解决这个问题，可以利用中间件模式来简化代码逻辑。中间件模式可以帮助我们更好地设计架构和代码，提高代码质量。本文介绍了中间件模式的基本概念和用法。 ... [详细]

蜡笔小新 2023-12-12 15:08:23
java
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
redis
Redis的RDB文件与AOF文件的保存与还原机制

本文介绍了Redis中RDB文件和AOF文件的保存和还原机制。RDB文件用于保存和还原Redis服务器所有数据库中的键值对数据，SAVE命令和BGSAVE命令分别用于阻塞服务器和由子进程执行保存操作。同时执行SAVE命令和BGSAVE命令，以及同时执行两个BGSAVE命令都会产生竞争条件。服务器会保存所有用save选项设置的保存条件，当满足任意一个保存条件时，服务器会自动执行BGSAVE命令。此外，还介绍了RDB文件和AOF文件在操作方面的冲突以及同时执行大量磁盘写入操作的不良影响。 ... [详细]

蜡笔小新 2023-12-12 08:51:10
java
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
java
OkHttp3的基本使用及其特性

本文介绍了OkHttp3的基本使用和特性，包括支持HTTP/2、连接池、GZIP压缩、缓存等功能。同时还提到了OkHttp3的适用平台和源码阅读计划。文章还介绍了OkHttp3的请求/响应API的设计和使用方式，包括阻塞式的同步请求和带回调的异步请求。 ... [详细]

蜡笔小新 2023-12-10 22:46:04
java
Smarty / views / templates中的数据库调用 - Database calls in Smarty/views/templates

Todayatworksomeonetriedtoconvincemethat:今天在工作中有人试图说服我:{$obj->getTableInfo()}isfine ... [详细]

蜡笔小新 2023-12-10 20:58:53
curl
开发笔记:软件测试知识点之数据库压力测试方法小结

篇首语：本文由编程笔记#小编为大家整理，主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-10 20:29:19
java
Android开发优化之软引用与弱引用的应用

本文介绍了在Android开发中使用软引用和弱引用的应用。如果一个对象只具有软引用，那么只有在内存不够的情况下才会被回收，可以用来实现内存敏感的高速缓存；而如果一个对象只具有弱引用，不管内存是否足够，都会被垃圾回收器回收。软引用和弱引用还可以与引用队列联合使用，当被引用的对象被回收时，会将引用加入到关联的引用队列中。软引用和弱引用的根本区别在于生命周期的长短，弱引用的对象可能随时被回收，而软引用的对象只有在内存不够时才会被回收。 ... [详细]

蜡笔小新 2023-12-10 16:33:12

毒菇求败的zyqy_654

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章