当前位置: 开发笔记 > 编程语言 > 正文

GreenPlum大数据平台介绍

作者：冬季梅花1991_156 | 来源：互联网 | 2023-09-23 18:46

一,GreenPlum01,介绍:Greenplum是一种基于PostgreSQL的分布式数据库，其采用shared-nothing架构，主机、操作系统、内存、存储都是自我控制的，

一,GreenPlum

　　01,介绍:

　　Greenplum是一种基于PostgreSQL的分布式数据库，其采用shared-nothing架构，主机、操作系统、内存、存储都是自我控制的，不存在共享。

　　官方文档:>>>--大概内容如下

Greenplum Database是一个大规模并行处理（MPP）数据库服务器，其架构专门用于管理大规模分析数据仓库和商业智能工作负载。

MPP（也称为无共享架构）是指具有两个或更多处理器的系统，它们协作执行操作，每个处理器具有其自己的存储器，操作系统和磁盘。Greenplum使用这种高性能系统架构来分配多TB数据仓库的负载，并且可以并行使用所有系统资源来处理查询。

Greenplum数据库基于PostgreSQL开源技术。它本质上是几个PostgreSQL面向磁盘的数据库实例，它们共同作为一个有凝聚力的数据库管理系统（DBMS）。它基于PostgreSQL 8.3.23，在大多数情况下与PostgreSQL在SQL支持，功能，配置选项和最终用户功能方面非常相似。数据库用户与Greenplum数据库交互，就像使用常规PostgreSQL DBMS一样。

Greenplum采用Postgresl作为底层引擎，良好的兼容了Postgresql的功能，Postgresql中的功能模块和接口基本上99%都可以在Greenplum上使用，例如odbc、jdbc、oledb、perldbi、python psycopg2等，所以Greenplum与第三方工具、BI报表集成的时候非常容易；当然它也提供了一些Postgresql不存在的高级功能：
- 外部表并行数据加载
- 可更新数据压缩表
- 行、列混合存储
- 数据表多级分区
- Bitmap索引
- Hadoop外部表
- Gptext全文检索
- 并行查询计划优化器和Orca优化器
- Primary/Mirror镜像保护机制
- 资源队列管理
- WEB/Brower监控
Greenplum最大的特点总结就一句话：基于低成本的开放平台基础上提供强大的并行数据计算性能和海量数据管理能力。这个能力主要指的是并行计算能力，是对大任务、复杂任务的快速高效计算，但如果你指望MPP并行数据库能够像OLTP数据库一样，在极短的时间处理大量的并发小任务，这个并非MPP数据库所长。请牢记，并行和并发是两个完全不同的概念，MPP数据库是为了解决大问题而设计的并行计算技术，而不是大量的小问题的高并发请求。
再通俗点说，Greenplum主要定位在OLAP领域，利用Greenplum MPP数据库做大数据计算或分析平台非常适合，例如:数据仓库系统、ODS系统、ACRM系统、历史数据管理系统、电信流量分析系统、移动信令分析系统、SANDBOX自助分析沙箱、数据集市等等。
而MPP数据库都不擅长做OLTP交易系统，所谓交易系统，就是高频的交易型小规模数据插入、修改、删除，每次事务处理的数据量不大，但每秒钟都会发生几十次甚至几百次以上交易型事务，这类系统的衡量指标是TPS，适用的系统是OLTP数据库或类似Gemfire的内存数据库。
Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。Greenplum master是Greenplum数据库系统的入口，接受客户端连接及提交的SQL语句，将工作负载分发给其它数据库实例（segment实例），由它们存储和处理数据。Greenplum interconnect负责不同PostgreSQL实例之间的通信。Greenplum segment是独立的PostgreSQL数据库，每个segment存储一部分数据。大部分查询处理都由segment完成。

二, 三大节点

　　01,master 节点

　　　　??:

　　　　master节点是外边用户访问greenplum的入口。用户并不与segment节点发生任何关系，外部用户的网络只需要与master服务器联通即可。

　　　　??:

　　　　master数据库也是一个被改造过的PostgreSQL数据库，它包含了整个分布式数据库中的所有元数据，如表结构定义、索引、数据分布信息等等。但其并不存储实际的数据，实际的数据是存储在segment数据库的。

　　　 ??:

　　　　master节点接受用户发过来的sql命令，然后解析生成分布式的执行计划，再把执行计划下发到对应的segment节点进行执行。segment节点执行完成后的结果会发送到master上，master接收到segment的结果进行汇总并返回执行结果给用户。所以在这种master-slave结构中，master不会成为系统的瓶颈。

　　02,segment节点

　　　　??.

　　　　　　Greenplum的每个segment节点可以运行多个segment instance，每个instance可以绑定到一个网卡，这样可以发挥CPU和网络性能。

　　　　??.

　　　　　　系统的数据都分布式的存储在segment上。

　　　　??.

　　　　　　每个segment同时执行master分发的任务，在执行查询任务或者数据加载的时候可能会涉及数据的移动。在进行数据移动的时候master不参与进来，只是在segment之间进行。

　　　　??.

　　　　　　segment可以动态扩展，既可以在原有主机上进行增加segment instance的操作，又可以新增主机来增加segment。当扩展segment后，系统里面的数据会进行重分布操作，这个动作消耗时间会比较多。
　　　　

　　03,interconnect:

　　　　Greenplum interconnect负责不同PostgreSQL实例之间的通信。

三,术语

　　Shared Everthting:

　　　　一般是针对单个主机，完全透明共享CPU/MEMORY/IO，并行处理能力差，典型的代表SQLServer。 shared-everything架构优点很明显，但是网络，硬盘很容易就会成为系统瓶颈。

　　Shared Disk：

　　　　各个处理单元使用自己的私有 CPU和Memory，共享磁盘系统。典型的代表Oracle Rac，它是数据共享，可通过增加节点来提高并行处理的能力，扩展能力较好。其类似于SMP（对称多处理）模式，但是当存储器接口达到饱和的时候，增加节点并不能获得更高的性能。

　　Shared Nothing：

　　　　各个处理单元都有自己私有的CPU/内存/硬盘等，不存在共享资源，各处理单元之间通过协议通信，并行处理和扩展能力更好。各节点相互独立，各自处理自己的数据，处理后的结果可能向上层汇总或在节点间流转。Share-Nothing架构在扩展性和成本上都具有明显优势。

　　MPP:

　　　　大规模并行处理系统是由许多松耦合处理单元组成的，借助MPP这种高性能的系统架构，Greenplum可以将TB级的数据仓库负载分解，并使用所有的系统资源并行处理单个查询。

　　MVCC:

　　　　与事务型数据库系统通过锁机制来控制并发访问的机制不同， GPDB使用多版本控制(Multiversion Concurrency Control/MVCC)保证数据一致性。这意味着在查询数据库时，每个事务看到的只是数据的快照，其确保当前的事务不会看到其他事务在相同记录上的修改。据此为数据库的每个事务提供事务隔离。 MVCC以避免给数据库事务显式锁定的方式，最大化减少锁争用以确保多用户环境下的性能。在并发控制方面，使用MVCC而不是使用锁机制的最大优势是， MVCC对查询(读)的锁与写的锁不存在冲突，并且读与写之间从不互相阻塞。　　　　

四,高可用特性

　　??:

　　　　greenplum的高可用性是通过master和segment的镜像来实现的，镜像是基于服务器级别的，所以能提供比较好的安全保证。

　　??

　　　　master节点不能和segment节点安装在同一个主机上，standby节点可以和segment节点复用。

　　??

　　　　master宕机的话，standby master不会自动切换到master，需要手动切换到主设备。segment如果一个环节坏掉，系统可以自动将mirror切换到primary。

　　??

　　　　当segment中某台设备出现故障后，mirror会切换成primary。检查出故障的主机恢复后可以使用gprecoverseg命令恢复成之前的主备关系

　　??

　　　　segment包括以下两种mirror模式：

　　　　　　?: grouped mirror模式

　　　　　　　　在这种模式下，主机的mirror节点全部放在下一个主机上，当一台机器挂掉，那么拥有该机器mirror的主机负载加重一倍

　　　　　　??:spread mirror模式

　　　　　　　　该模式下，mirror节点分散在后面主机上，但要求部署的物理机数量要至少多于运行在每个节点上的instance一个。

五,Greenplum特点

　　? 标准SQL接口，比MapReduce接入更方便；
　　? 完整的分布式事务能力，确保强数据一致性；
　　?? 近乎线性的在线扩展能力；
　　? 高并发数据加载技术；
　　? 高灵活的行、列以及混合存储及压缩技术；
　　? 高可用技术方案；
　　? 支持多方式的授权管理及审计，表级别粒度；
　　? 丰富的生态系统，便捷对接hadoop等。

链接文章:>>

推荐阅读

php
ABAP开发发送邮件程序的配置和代码整理

本文介绍了通过ABAP开发往外网发邮件的需求，并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定，可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度：184字。 ... [详细]

蜡笔小新 2023-12-13 15:50:17
int
CentOS 7部署KVM虚拟化环境之一架构介绍

本文介绍了CentOS 7部署KVM虚拟化环境的架构，详细解释了虚拟化技术的概念和原理，包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]

蜡笔小新 2023-12-12 21:38:57
php
CentOS 6.5安装VMware Tools及共享文件夹显示问题解决方法

本文介绍了在CentOS 6.5上安装VMware Tools及解决共享文件夹显示问题的方法。包括清空CD/DVD使用的ISO镜像文件、创建挂载目录、改变光驱设备的读写权限等步骤。最后给出了拷贝解压VMware Tools的操作。 ... [详细]

蜡笔小新 2023-12-12 18:18:49
int
lua语言闭包、模式匹配、日期、编译、模块的特性及应用

本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ... [详细]

蜡笔小新 2023-12-14 18:18:21
php
基于layUI的图片上传前预览功能的2种实现方式

本文介绍了基于layUI的图片上传前预览功能的两种实现方式：一种是使用blob+FileReader，另一种是使用layUI自带的参数。通过选择文件后点击文件名，在页面中间弹窗内预览图片。其中，layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块，并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]

蜡笔小新 2023-12-14 17:06:58
int
Java实现大数乘法（分治算法）

本文介绍了使用Java实现大数乘法的分治算法，包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]

蜡笔小新 2023-12-14 15:43:50
int
HDU 2372 El Dorado（DP）的最长上升子序列长度求解方法

本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法，通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]

蜡笔小新 2023-12-14 15:08:18
php
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33
int
求解hdu 1003 java题目的动态规划优化方法

本文讨论了如何优化解决hdu 1003 java题目的动态规划方法，通过分析加法规则和最大和的性质，提出了一种优化的思路。具体方法是，当从1加到n为负时，即sum(1,n)sum(n,s)，可以继续加法计算。同时，还考虑了两种特殊情况：都是负数的情况和有0的情况。最后，通过使用Scanner类来获取输入数据。 ... [详细]

蜡笔小新 2023-12-14 13:11:00
int
C#之数据集：DataSet对象的使用及相关方法详解

本文介绍了C#中数据集DataSet对象的使用及相关方法详解，包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成，以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读，读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]

蜡笔小新 2023-12-14 12:09:13
get
OC学习笔记之@property和@synthesize

本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]

蜡笔小新 2023-12-14 12:05:06
php
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
int
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05
get
解析GRE报文长度的方法及实现步骤

本文介绍了一种解析GRE报文长度的方法，通过分析GRE报文头中的标志位来计算报文长度。具体实现步骤包括获取GRE报文头指针、提取标志位、计算报文长度等。该方法可以帮助用户准确地获取GRE报文的长度信息。 ... [详细]

蜡笔小新 2023-12-12 20:55:05
php
PDF内容编辑的两种小方法，你知道怎么操作吗？

本文介绍了两种PDF内容编辑的方法：迅捷PDF编辑器和Adobe Acrobat DC。使用迅捷PDF编辑器，用户可以通过选择需要更改的文字内容并设置字体形式、大小和颜色来编辑PDF文件。而使用Adobe Acrobat DC，则可以通过在软件中点击编辑来编辑PDF文件。PDF文件的编辑可以帮助办公人员进行文件内容的修改和定制。 ... [详细]

蜡笔小新 2023-12-12 19:37:50

冬季梅花1991_156

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章