Kylin(六)查询性能优化

作者：为爱进地狱天堂_954 | 来源：互联网 | 2023-09-04 07:58

目录前言一、使用排序列快速读取parquet文件二、使用shardby列来裁剪parquet文件三、减少小的或不均匀的parquet文件1.相关配置2.重分区的检查策略3.合理调整

前言
一、使用排序列快速读取 parquet 文件
二、使用 shardby 列来裁剪 parquet 文件
三、减少小的或不均匀的 parquet 文件
- 1. 相关配置
- 2. 重分区的检查策略
- 3. 合理调整参数的方式
四、将多个小文件读取到同一个分区
五、使用堆外内存

前言

在 Kylin4.0 中&＃xff0c;查询引擎(SparderContext)也使用 spark 作为计算引擎&＃xff0c;它是真正的分布式查询擎&＃xff0c;特别是在复杂查询方面&＃xff0c;性能会优于 Calcite。然而&＃xff0c;仍然有许多关键性能点需要优化。除了上面提到的设置适当的计算资源之外&＃xff0c;它还包括减少小的或不均匀的文件&＃xff0c;设置适当的分区&＃xff0c;以及尽可能多地修剪 parquet 文件。Kylin4.0 和 Spark 提供了一些优化策略来提高查询性能。

一、使用排序列快速读取 parquet 文件

创建 cube 时&＃xff0c;可以指定维度列的排序&＃xff0c;当保存 cube 数据时&＃xff0c;每个 cuboid 的第一个维度列将用于执行排序操作。其目的是在使用排序列进行查询时&＃xff0c;通过 parquet 文件的最小最大索引尽可能地过滤不需要的数据。

在 cube 构建配置的高级配置中&＃xff0c;rowkey 的顺序就是排序顺序&＃xff1a;
在这里插入图片描述
页面中可以左键点击 ID 进行拖拽&＃xff0c;调整顺序

在这里插入图片描述

二、使用 shardby 列来裁剪 parquet 文件

Kylin 4.0 底层存储使用的是 Parquet 文件&＃xff0c;并且 Parquet 文件在存储的时候是会按照某一列进行分片的。这个分片的列在 Kylin 里面&＃xff0c;我们称为是 shardBy 列&＃xff0c;Kylin 默认按照 shardBy 列进行分片&＃xff0c;分片能够使查询引擎跳过不必要的文件&＃xff0c;提高查询性能。我们在创建 Cube 时可以指定某一列作为shardBy 列&＃xff0c;最好选择高基列 (基数高的列)&＃xff0c;并且会在多个 cuboid 中出现的列作为 shardBy 列。

如下图所示&＃xff0c;我们按照时间 (月) 过滤&＃xff0c;生成对应的 Segment&＃xff0c;然后按照维度 A 作为 shardBy 列进行分片&＃xff0c;每个 Segment 里面都会有相应的分片。如果我们在查询的时候按照时间和维度 A 进行过滤&＃xff0c;Kylin 就会直接选择对应 Segment 的对应分片&＃xff0c;大大的提升的查询效率。

在这里插入图片描述
在 Kylin 4.0 中&＃xff0c;parquet 文件存储的目录结构如下&＃xff1a;

在这里插入图片描述
查询时&＃xff0c;查询引擎可以通过日期分区列过滤出 segment-level 目录&＃xff0c;并通过 cuboid 过滤出 cuboid-level 目录。但是在 cuboid-level 目录中仍有许多 parquet 文件,可以使用 shard by 列进一步裁剪parquet 文件。目前在 SQL 查询中只支持以下过滤操作来裁剪 parquet 文件&＃xff1a;Equality、In、InSet、IsNull。

A、修改 cube 配置

这里拿已有的 cube 来做演示&＃xff0c;先对已有 cube 清空数据。

在这里插入图片描述
对其 disable 禁用&＃xff1a;

在这里插入图片描述

B、指定 shardby 列

进行编辑&＃xff1a;

在这里插入图片描述
点击高级配置&＃xff1a;

在这里插入图片描述
选择需要的列&＃xff0c;将 shardby 改成 true。

在这里插入图片描述
点击 Overview&＃xff0c;选择保存&＃xff1a;

在这里插入图片描述
C、重新构建

在这里插入图片描述
当构建 cube 数据时&＃xff0c;它会根据这个 shard 按列对 parquet 文件进行重分区。如果没有指定一个 shardby 的列&＃xff0c;则对所有列进行重分区。

三、减少小的或不均匀的 parquet 文件

在查询时读取太多小文件或几个太大的文件会导致性能低下&＃xff0c;为了避免这个问题&＃xff0c;Kylin4.0 在将 cube 数据作为 parquet 文件构建时&＃xff0c;会按照一定策略对 parquet 文件进行重分区&＃xff0c;以减少小的或不均匀的 parquet 文件。

1. 相关配置

参数名	默认值	说明
kylin.storage.columnar.shard-size-mb	128MB	有 shardby 列的 parquet 文件最大大小
kylin.storage.columnar.shard-rowcount	2500000	每个 parquet 文件最多包含的行数
kylin.storage.columnar.shardcountdistinct-rowcount	1000000	指定 cuboid 的 bitmap 大小
kylin.storage.columnar.repartitionthreshold-size-mb	128MB	每个 parquet 文件的最大大小

2. 重分区的检查策略

如果这个 cuboid 有 shardBy 的列&＃xff1a;

parquet 文件的平均大小 <参数’kylin.storage.columnar.repartition-threshold-size-mb’ 值 &＃xff0c;且parquet 文件数量大于 1&＃xff0c;这种情况是为了避免小文件太多

parquet 文件的数量 <(parquet 文件的总行数/ &＃39;kylin.storage.columnar.shardrowcount&＃39; * 0.75)&＃xff0c;如果这个 cuboid 有精确去重的度量值(即 count(distinct))&＃xff0c;使用’kylin.storage.columnar.shard-countdistinct-rowcount’ 来代替 ‘kylin.storage.columnar.shardrowcount’; 这种情况是为了避免不均匀的文件;如果满足上述条件之一&＃xff0c;它将进行重分区&＃xff0c;分区的数量是这样计算的:

${fileLengthRepartitionNum} &＃61; Math.ceil(${parquet 文件大小 MB} / ${kylin.storage.columnar.shard-size-mb}) ${rowCountRepartitionNum}&＃96; &＃61;&＃96;Math.ceil(${parquet 文件总行数} / ${kylin.storage.columnar.shard-rowcount})

分区数量&＃61;Math.ceil(( ${fileLengthRepartitionNum} &＃43; ${ rowCountRepartitionNum } ) / 2)

3. 合理调整参数的方式

A、查看重分区的信息&＃xff0c;可以通过下面命令去 log 中查找

grep "Before repartition, cuboid" logs/kylin.log

比如官方案例&＃xff1a;可以看到分区数有 809 个。

在这里插入图片描述
B、增大 ‘kylin.storage.columnar.shard-rowcount’ 或 &＃39;kylin.storage.columnar.shard-countdistinctrowcount’的值&＃xff0c;重新构建&＃xff0c;查看日志&＃xff1a;

在这里插入图片描述

可以看到&＃xff1a;分区数变成了 3 个&＃xff0c;构建的时间也从 58 分钟降低到 24 分钟。

C、查询性能得到提高

原先查询要 1.7 秒&＃xff0c;扫描 58 个文件&＃xff1a;

在这里插入图片描述
调整参数后&＃xff0c;查询只要 0.4 秒&＃xff0c;扫描 4 个文件&＃xff1a;

在这里插入图片描述

四、将多个小文件读取到同一个分区

当已经构建的 segments 中有很多小文件时&＃xff0c;可以修改参数 ‘spark.sql.files.maxPartitionBytes’ (默认值为 128MB) 为合适的值&＃xff0c;这样可以让 spark 引擎将一些小文件读取到单个分区中&＃xff0c;从而避免需要太多的小任务。

如果有足够的资源&＃xff0c;可以减少该参数的值来增加并行度&＃xff0c; 但需要同时减少
‘spark.hadoop.parquet.block.size’ (默认值为 128MB) 的值&＃xff0c;因为 parquet 文件的最小分割单元是
RowGroup&＃xff0c;这个 blocksize 参数表示 parquet 的 RowGroup 的最大大小。

五、使用堆外内存

Spark 可以直接操作堆外内存&＃xff0c;减少不必要的内存开销&＃xff0c;减少频繁的 GC&＃xff0c;提高处理性能。

推荐阅读

string
PostgreSQL的数据存储(十二)数据存储

4.3.2Tuple是否可以跨页面PostgreSQLusesafixedpagesize(commonly8kB),anddoesnotallowtuplestospanmult ... [详细]

蜡笔小新 2023-10-16 10:57:34
select
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30
select
x86 linux的进程调度,x86体系结构下Linux2.6.26的进程调度和切换

进程调度相关数据结构task_structtask_struct是进程在内核中对应的数据结构，它标识了进程的状态等各项信息。其中有一项thread_struct结构的 ... [详细]

蜡笔小新 2023-10-17 18:41:38
stream
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
stream
Apple iPad：过渡设备还是平板电脑？

I’vebeenagonizingoverwhethertopostaniPadarticle.Applecertainlydon’tneedmorepublicityandthe ... [详细]

蜡笔小新 2023-10-16 20:17:56
stream
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
import
jsp数据库多行返回（excel返回多行数据）

本文目录一览：1、数据库数据怎么返回到jsp页面上 ... [详细]

蜡笔小新 2023-10-15 16:34:06
function
《PHP精粹：编写高效PHP代码》——2.7节设计数据库

本节书摘来自华章社区《PHP精粹：编写高效PHP代码》一书中的第2章，第2.7节设计数据库，作者：（美 ... [详细]

蜡笔小新 2023-10-15 14:52:18
function
Java项目管理工具及配置教程推荐

本文介绍了一些Java开发项目管理工具及其配置教程，包括团队协同工具worktil，版本管理工具GitLab，自动化构建工具Jenkins，项目管理工具Maven和Maven私服Nexus，以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]

蜡笔小新 2023-12-13 06:45:16
import
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
import
如何在mysql shell命令中执行sql命令行

如何在mysqlshell命令中执行sql命令行本文介绍MySQL8.0shell子模块Util的两个导入特性importTableimport_table(JS和python版本 ... [详细]

蜡笔小新 2023-10-17 08:53:00
select
HIVE的内部表和外部表

Hive的数据表创建数据文件inner_table.dat创建表hive>createtableinner_table(keystri ... [详细]

蜡笔小新 2023-10-16 16:22:45
select
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
select
SQL Server中TempDB管理（version store的逻辑

SQL Server中TempDB管理（version store的逻辑 ... [详细]

蜡笔小新 2023-10-16 15:47:01
spring
net.spy.memcached.MemcachedClientIF.flush()方法的使用及代码示例

本文整理了Java中net.spy.memcached.MemcachedClientIF.flush()方法的一些代码示例，展示了MemcachedCli ... [详细]

蜡笔小新 2023-10-12 10:40:40

为爱进地狱天堂_954

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章