SSIS工程师为您揭秘数据流

作者：王小瑶p_35ps | 来源：互联网 | 2023-10-13 10:30

我上个月有幸参加了在西雅图召开的PASS（ProfessionalAssociationforSQLServer）峰会。我的同事MattMasson做了

我上个月有幸参加了在西雅图召开的PASS&＃xff08;Professional Association for SQL Server&＃xff09;峰会。我的同事Matt Masson做了个关于SQL Server 数据集成服务&＃xff08;Integration Services&＃xff0c;SSIS&＃xff09;的讲座&＃xff08;下载&＃xff09;&＃xff0c;现场非常火爆&＃xff0c;讲完后他被听众围住了个把小时。他的题目是Maximize Your SSIS Investment with Tuning Tricks and Tips&＃xff0c;主要关于提升数据集成包&＃xff08;package&＃xff09;的性能。他讲了四部分&＃xff0c;其中第二部分深入浅出地介绍了SSIS数据流&＃xff08;Data flow&＃xff09;。我估计我国的用户会特别感兴趣这一块&＃xff0c;因此在这里分享给你 :-)

数据流一瞥

SSIS的引擎&＃xff08;engine&＃xff09;是内存式&＃xff08;in-memory&＃xff09;的&＃xff1a;从源&＃xff08;source&＃xff09;读数据&＃xff0c;在内存中执行package&＃xff0c;再把结果写到端&＃xff08;destination&＃xff09;。尽量不碰外存是其高性能的原因之一。很多以前使用ETL&＃xff08;Extract-Transform-Load&＃xff09;工具的人需要对此调整观念&＃xff1a;那些工具先把数据加载到数据库里再做SQL转换&＃xff0c;其实是ELT&＃xff08;Extract-Load-Transform&＃xff09;。Matt讲了个很有趣的案例&＃xff1a;有位客户的package以前运行只要几分钟&＃xff0c;自从服务器升级到新机器后竟然更慢了&＃xff0c;要花一个小时。那个package很简单&＃xff0c;只是源到端拷贝&＃xff0c;中间没有转换&＃xff08;transform&＃xff09;&＃xff0c;因此客户很生气。Matt他们急忙去会诊&＃xff0c;才发现这个package的源和端以前就在它所运行的那台机器上&＃xff0c;在美国&＃xff1b; 后来升级了的机器在中国&＃xff0c;源和端都跑到了中国来&＃xff0c;而package还是在美国那台机器上运行。结果这个package所做的就是从中国读出若干GB的数据到美国的内存&＃xff0c;再拷回中国……Matt说&＃xff0c;类似的客户问题其实并不少见。希望你读本文以后能避免这种设计了 :-)

SSIS在设计时&＃xff08;design time&＃xff09;阶段就确定了数据流的元数据&＃xff08;metadata&＃xff09;。它在运行之前就精确知道了运行时的列将有多宽&＃xff0c;转换需要多少内存&＃xff0c;等等。

数据流水线&＃xff08;pipeline&＃xff09;

当数据流启动时&＃xff0c;源就开始把一行行数据填到一个类似桶的缓存&＃xff08;buffer&＃xff09;中。源根本不知道下游是什么。一旦缓存满了&＃xff0c;桶就随着流水线流到下游组件&＃xff08;component&＃xff09;上&＃xff0c;同时引擎抓一个新的空缓存过来给源。源根本不知道这一切&＃xff0c;它只是不断地填桶。有时源填了太多的桶&＃xff0c;转换和端都来不及应付了&＃xff1b;此时引擎会启动反压&＃xff08;backpressure&＃xff09;机制&＃xff0c;让源睡眠。等到流水线又有空间之后&＃xff0c;源被唤醒继续填桶。其实在实现上&＃xff0c;源甚至都不知道自己被催眠过&＃xff08;好可怜&＃xff09;……直到所有源数据行都发光了&＃xff0c;源才在最后一个缓存上贴个“行集末&＃xff08;End Of Rowset&＃xff09;”的标签&＃xff0c;把它发出去&＃xff0c;告诉下游组件再没有新数据了。

转换与缓存拷贝

SSIS的高性能有部分归功于它在内存使用上比较聪明。在缓存之间拷贝数据是耗时的&＃xff0c;因此引擎会尽量减少缓存拷贝。按照缓存使用的不同&＃xff0c;可将众多转换组件分为三类。

第一类是同步&＃xff08;synchronous&＃xff09;转换&＃xff0c;它们一般逐行对数据做就地修改&＃xff0c;从不拷贝缓存。它们有可能增加新行&＃xff0c;比如数据转换&＃xff08;Data Convert&＃xff09;和派生列&＃xff08;Derived Column&＃xff09;转换&＃xff0c;而仍然是同步的&＃xff1a;引擎事先确定了新列将加在哪里&＃xff0c;提前就在缓存里加了空列&＃xff0c;只是上游组件看不到这些空列罢了。异步&＃xff08;asynchronous&＃xff09;转换会动态创建新缓存&＃xff0c;包括两小类: 部分阻塞&＃xff08;Partially Blocking&＃xff09;转换&＃xff0c;一伺新缓存满了就把它输出&＃xff0c;比如联合全体&＃xff08;Union All&＃xff09;组件接受多个输入流&＃xff0c;一旦从各输入得到了足够多的行就把它输入到一个新缓存里。由于要拷贝数据&＃xff0c;这种转换比同步转换慢&＃xff1b;但和全阻塞&＃xff08;Blocking&＃xff09;转换相比就好多了。排序&＃xff08;Sort&＃xff09;、聚集&＃xff08;Aggregate&＃xff09;这些全阻塞转换在接收完所有输入行之前&＃xff0c;是不会输出一行的。这是由运算本身的特点决定的&＃xff1a;不到看到所有数据&＃xff0c;是无法确定哪个是最小值的。

因此&＃xff0c;在使用全阻塞转换时要格外审慎&＃xff0c;尤其是数据量很大时。一旦内存用完&＃xff0c;缓存被置换到硬盘上&＃xff0c;性能就完了。要想提高数据流性能&＃xff0c;最好设法从package中去除全阻塞转换。

线程机制

要理解数据流&＃xff0c;还需要了解其线程机制。流水线在运行时被分成若干执行树&＃xff08;Execution Trees&＃xff09;。每个创建新缓存的组件就是一棵新执行树的起点&＃xff1b;因此起点要么是个数据源&＃xff0c;要么是个异步转换。下图的数据流中有5棵执行树&＃xff0c;如蓝箭头所示。引擎限定了每棵树中最多工作的缓存数&＃xff08;目前定为五个&＃xff09;&＃xff0c;一旦更多缓存进来&＃xff0c;就启动反压。注意到多播&＃xff08;Multicast&＃xff09;和条件分割&＃xff08;Conditional Split&＃xff09;转换都是同步的&＃xff0c;它们在分割数据流时并不创建新缓存&＃xff1b;引擎只是创建了一些能映射到同一块内存的虚拟缓存。所以即使你多播20次也不会看到内存消耗增多。

此图修改自Matt的幻灯片

值得一提的是&＃xff0c;数据流线程调度在SQL 2008版本中被改进了&＃xff1a;在2005版中&＃xff0c;每棵树只分到一个线程执行&＃xff0c;其问题是对于图中右边那种较长的树&＃xff0c;虽然树里都是一序列同步转换&＃xff0c;但每次只能在树中移动一个缓存&＃xff0c;执行完它之后才能开始执行下一个缓存。很多人为了打碎较长的执行树&＃xff0c;就在中间插入一个单输入的联合全体&＃xff08;Union All&＃xff09;组件&＃xff0c;由于它是异步的&＃xff0c;就能间接引入另一个线程。而现在&＃xff0c;我们在2008版中改为让每个缓存上都有一个线程在执行&＃xff0c;这样一棵树中就可以有多个线程在执行。可能第一个线程先把一个缓存进行了三个转换&＃xff0c; 然后第二个线程捡起这个缓存继续向下游转换&＃xff0c;同时第一个线程开始捡起下一个缓存。这样就再也不需要上述间接的方法了。

看完以上揭秘&＃xff0c;你有收获吗&＃xff1f;

推荐阅读

install
基于PgpoolII的PostgreSQL集群安装与配置教程

本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件，提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能，可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤，并提供了相关的官方参考地址。 ... [详细]

蜡笔小新 2023-12-14 19:10:25
const
用SQL语句怎么把已存在的列加上IDENTITY(1,1)属性

ALTERTABLE通过更改、添加、除去列和约束，或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]

蜡笔小新 2023-12-13 09:49:28
config
Oracle中tnsnames.ora的作用和配置方法

本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取，用于解析LOCAL_LISTENER，并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例，并展示了listener.ora文件的内容。 ... [详细]

蜡笔小新 2023-12-14 07:44:06
java
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30
php
Smarty / views / templates中的数据库调用 - Database calls in Smarty/views/templates

Todayatworksomeonetriedtoconvincemethat:今天在工作中有人试图说服我:{$obj->getTableInfo()}isfine ... [详细]

蜡笔小新 2023-12-10 20:58:53
install
开发笔记:软件测试知识点之数据库压力测试方法小结

篇首语：本文由编程笔记#小编为大家整理，主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-10 20:29:19
java
Java集合库的使用方法及下溯造型的应用

本文介绍了Java集合库的使用方法，包括如何方便地重复使用集合以及下溯造型的应用。通过使用集合库，可以方便地取用各种集合，并将其插入到自己的程序中。为了使集合能够重复使用，Java提供了一种通用类型，即Object类型。通过添加指向集合的对象句柄，可以实现对集合的重复使用。然而，由于集合只能容纳Object类型，当向集合中添加对象句柄时，会丢失其身份或标识信息。为了恢复其本来面貌，可以使用下溯造型。本文还介绍了Java 1.2集合库的特点和优势。 ... [详细]

蜡笔小新 2023-12-10 17:57:40
install
Python操作MySQL（pymysql模块）详解及示例代码

本文介绍了使用Python操作MySQL数据库的方法，详细讲解了pymysql模块的安装和连接MySQL数据库的步骤，并提供了示例代码。内容涵盖了创建表、插入数据、查询数据等操作，帮助读者快速掌握Python操作MySQL的技巧。 ... [详细]

蜡笔小新 2023-12-10 17:50:06
install
Oracle Database 10g许可授予信息及高级功能详解

本文介绍了Oracle Database 10g许可授予信息及其中的高级功能，包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明，指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]

蜡笔小新 2023-12-14 13:12:10
install
MysqlDump_mysqldump全库备份相关知识详解

本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识，包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说，本文提供了一些有价值的参考内容。 ... [详细]

蜡笔小新 2023-12-14 10:03:27
fetch
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
function
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
function
mysql-cluster集群sql节点高可用keepalived的故障处理过程

本文描述了mysql-cluster集群sql节点高可用keepalived的故障处理过程，包括故障发生时间、故障描述、故障分析等内容。根据keepalived的日志分析，发现bogus VRRP packet received on eth0 !!!等错误信息，进而导致vip地址失效，使得mysql-cluster的api无法访问。针对这个问题，本文提供了相应的解决方案。 ... [详细]

蜡笔小新 2023-12-12 19:20:50
install
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
function
【shell】网络处理：判断IP是否在网段、两个ip是否同网段、IP地址范围、网段包含关系

本文介绍了使用shell脚本判断IP是否在同一网段、判断IP地址是否在某个范围内、计算IP地址范围、判断网段之间的包含关系的方法和原理。通过对IP和掩码进行与计算，可以判断两个IP是否在同一网段。同时，还提供了一段用于验证IP地址的正则表达式和判断特殊IP地址的方法。 ... [详细]

蜡笔小新 2023-12-12 11:19:14

王小瑶p_35ps

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章