热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

DB2并行版本中的查询优化_MySQL

DB2并行版本中的查询优化
DB2

1、简介

SN, GAMMA, BUBBA,

SM, XPRS

DB2 Parallel Edition(DB2 PE) 运行于 AIX 并行机上,例如 SP2 等。它基于 SN 的体系结构和 Function Shipping 执行模型,提供了可扩展性和大处理能力。基于代价优化,其代价考虑了 CPU 、 IO 和消息传递。保证 ACID 特性,并行化的工具包括:

Load,Import,Reorganize Data,Create Index。还提供了一个并行数据重组织工具 Redistribute 有效的更正和处理负载不均衡。 Function shipping 指的是在数据存储地点进行相应的数据操作,进行必要的数据过滤,从而减少网络之间传递的数据量。系统设置了服务协调者,负责接受用户输入的 SQL 语句、分发查询执行任务和返回最终结果。除此之外,需要做的工作有:

生成并行查询执行计划、数据和控制流、进程管理、并行事务和封锁管理、并行工具。

支持 HASH 数据分片,扩展了 DDL :

CREATE NODEGROUP GROUP_1 ON ONODES(1 TO 32,40,45,48);

CREATE TABLE PARTS(Partkey integer, Partno integer) IN GROUP_1

PARTITIONING KEY(Partkey) USING HASHING;

CREATE TABLE PARTSUPP(Partkey integer, Suppkey integer) IN GROUP_1

PARTITIONING KEY(Partkey) USING HASHING;

HASH 函数是系统内置的。不同表在分片列上属性值相同的元组被划分到同一个结点。这样的表称为 collocated 。于是在这些表上的等值连接称为 collocated joins 。例如 PARTSx (Partkey=Partkey) PARTSUPP 。

2 、查询优化

(1) 代价优化——考虑了操作的固有并行性和消息通讯的代价;

(2) 综合利用数据分布信息——利用基表和中间结果表的数据分布和分片信息;

(3) 透明的并行性——几乎不需要从重写查询。

2.1 扩展的操作符

系统可以利用串行版本的基本操作,例如 Scan 等,但是还需要扩展:

(1) 用于控制多个子任务协同执行的操作——协调者;

(2) 进程间通讯操作 send/receive , send 可以是广播或者单播, receive 可以是 merge 多个有序的输入,也可以是 FIFO。

2.2 分片方法

DB2 的分片方法可以看作一个有效的负载均衡工具。优化器充分利用分片和结点组的信息,优化查询,例如 collocated joins。

2.3 查询优化和查询计划生成

查询优化器所做的主要工作有: 1) 选择优化的连接次序, 2) 确定基本表的存取方法和连接方式, 3) 决定操作的执行结点,例如数据的重新分片, 4) 计算查询执行代价要考虑系统资源消耗和响应时间。 DB2 PE 采用了简化的规则:

1) 在自底向上产生查询执行计划的时候,累计每个结点所占用的系统资源,其中的最大值作为系统响应时间。忽略了协调者的执行代价,以及多进程干扰的复杂性;

2) 在所有可能执行连接的节点子集中决定执行结点时,只考虑其中的一部分结点,例如内表分片所在的结点,外表分片所在的结点,以及其他的一些结点(没有具体的说明)。由此简化了计划生成的搜索空间,保持在串行搜索空间的线性比例上。

连接操作的执行方法包括: collocated, directed, broadcast, repartitioned 。 directed join 指的是连接在一个输入关系所在的节点进行,而把另外一个关系的元组发送到适当的节点(例如在一个输入关系的分片属性上做等值连接)。 repartitioned join 指的是重新分布输入的连个关系,例如做等值连接时。 broadcat join 指的是在连接之前把其中一个关系的元组广播到另一个关系所在的节点组,这可以对应于任意类型的连接。

基于代价的优化——两阶段优化不再适合。数据分片和放置对查询计划的选择有很大的影响。

2.4 所有操作的并行化

1、聚集操作——在各个子任务执行聚集函数,必要时在全局执行最后的处理。对 Group By 子局来说,重新分片可能比直接采用输入数据具有更好的并行性。

2、集合操作——采用 collocated, repartitioned 策略。注意 UNION 可以是一个 N 元操作。

3、带有子查询的 Insert 语句, Update 和 Delete 语句—— Insert 语句和子查询可能是 collocated 。或者采用 directing 方式。 Update 和 Delete 总是和相应的查询 collocated ( Update 如果发生在分片属性上,还需要考虑重新分片受到影响的元组)。

4、外连接——主要的策略与普通的连接一致,但是要避免产生多个由于没有匹配元组而产生的结果元组。

5、子查询——把子查询的结果发送到计算包含子查询的谓词的节点采用 collocated, directed, broadcast 方法。

3. 子查询的处理

嵌套查询的例子:

select *

from t1

where t1.a in (select b

from t2

where t2.c = t1.a and t2.d in (select b

from t3

where t3.a = 10

));

最里面的子查询只需要执行一次即可。但是下面的查询则不然:

select *

from t1

where t1.a in ( select b

from t2

where t2.c = t1.a and t2.d in ( select b

from t3

where t3.a = t1.f

));

子查询处理需要注意的问题包括:

(1) 避免为每个外查询产生的元组启动一个子查询,这样的代价太大了;

(2) 保证产生外查询元组的不同节点不会因为子查询的执行而串行化;

(3) 保证正确的外查询节点得到执行的结果;

(4) 尽量下移谓词,从而减少数据的传输。

我们用一个简单的一层相关查询来看看 DB2 是如何处理嵌套查询的:

select *

from t1

where t1.a > ( select avg(t2.b)

from t2

where t2.c = t1.d

);

DB2 并行版本中的查询优化(图一)

推荐阅读
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 基于PgpoolII的PostgreSQL集群安装与配置教程
    本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件,提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能,可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤,并提供了相关的官方参考地址。 ... [详细]
  • 本文介绍了关系型数据库和NoSQL数据库的概念和特点,列举了主流的关系型数据库和NoSQL数据库,同时描述了它们在新闻、电商抢购信息和微博热点信息等场景中的应用。此外,还提供了MySQL配置文件的相关内容。 ... [详细]
  • 面试经验分享:华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试
    最近有朋友去华为面试,面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败,因为缺乏基础知识。面试问题涉及 ... [详细]
  • 负载均衡_Nginx反向代理动静分离负载均衡及rewrite隐藏路径详解(Nginx Apache MySQL Redis)–第二部分
    nginx反向代理、动静分离、负载均衡及rewrite隐藏路径详解 ... [详细]
  • Oracle分析函数first_value()和last_value()的用法及原理
    本文介绍了Oracle分析函数first_value()和last_value()的用法和原理,以及在查询销售记录日期和部门中的应用。通过示例和解释,详细说明了first_value()和last_value()的功能和不同之处。同时,对于last_value()的结果出现不一样的情况进行了解释,并提供了理解last_value()默认统计范围的方法。该文对于使用Oracle分析函数的开发人员和数据库管理员具有参考价值。 ... [详细]
  • MyBatis错题分析解析及注意事项
    本文对MyBatis的错题进行了分析和解析,同时介绍了使用MyBatis时需要注意的一些事项,如resultMap的使用、SqlSession和SqlSessionFactory的获取方式、动态SQL中的else元素和when元素的使用、resource属性和url属性的配置方式、typeAliases的使用方法等。同时还指出了在属性名与查询字段名不一致时需要使用resultMap进行结果映射,而不能使用resultType。 ... [详细]
  • 本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法,包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数,以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时,还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说,本文提供了一些有用的技巧和建议。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 本文详细介绍了Spring的JdbcTemplate的使用方法,包括执行存储过程、存储函数的call()方法,执行任何SQL语句的execute()方法,单个更新和批量更新的update()和batchUpdate()方法,以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 本文介绍了通过mysql命令查看mysql的安装路径的方法,提供了相应的sql语句,并希望对读者有参考价值。 ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • ALTERTABLE通过更改、添加、除去列和约束,或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]
  • 熟练掌握Spring Cloud,终于成为Java工程师的面试门槛 ... [详细]
author-avatar
2yuheng
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有