当前位置: 开发笔记 > 编程语言 > 正文

【Spark2.0系列】:Catalog和自定义Optimizer

作者：xeyuxing369 | 来源：互联网 | 2023-10-12 10:45

【Spark2.0系列】适合初学

Spark 2.0系列第一篇见【Spark 2.0系列】: Spark Session API和Dataset API，本文将讲解Spark 2.0 的Catalog 和Custom Optimizer。

首先，先了解下RDD 和Dataset 在开发中使用对比。

RDD 和Dataset 使用对比

Dataset API 是RDD 和DataFrame API 的统一，但大部分Dataset API 与RDD API使用方法看起来是相似的（其实实现方法是不同的）。所以RDD代码很容易转换成Dataset API。下面直接上代码：

WordCount

val rdd = sparkContext.textFile("src/main/resources/data.txt")

val wordsRDD = rdd.flatMap(value => value.split("\\s+"))

val wordsPair = wordsRDD.map(word => (word,1))

val wordCount = wordsPair.reduceByKey(_+_)

Dataset

val ds = sparkSession.read.text("src/main/resources/data.txt")

import sparkSession.implicits._

val wordsDs = ds.flatMap(value => value.split("\\s+"))

val wordsPairDs = wordsDs.groupByKey(value => value)

val wordCountDs = wordsPairDs.count()

其它

	RDD	Dataset
Caching	rdd.cache()	ds.cache()
Filter	val filteredRDD = wordsRDD.filter(value => value ==”hello”)	val filteredDS = wordsDs.filter(value => value ==”hello”)
Map Partition	val mapPartitiOnsRDD= rdd.mapPartitions(iterator => List(iterator.count(value => true)).iterator)	val mapPartitiOnsDs= ds.mapPartitions(iterator => List(iterator.count(value => true)).iterator)
reduceByKey	val reduceCountByRDD = wordsPair.reduceByKey(+)	val reduceCountByDs = wordsPairDs.mapGroups((key,values) =>(key,values.length))

备注：此处表格横屏观看效果更佳。

Dataset 和RDD 相互转换

val dsToRDD = ds.rdd

Dataset

RDD 转换成Dataframe稍麻烦，需要指定schema。

val rddStringToRowRDD = rdd.map(value => Row(value))

val dfschema = StructType(Array(StructField("value",StringType)))

val rddToDF = sparkSession.createDataFrame(rddStringToRowRDD,dfschema)

val rDDToDataSet = rddToDF.as[String]

Catalog API

DataSet 和Dataframe API 支持结构化数据分析，而结构化数据重要的是管理metadata。这里的metadata包括temporary metadata（临时表）；registered udfs；permanent metadata（Hive metadata或HCatalog）。

早期Spark版本并未提供标准的API访问metadata，开发者需要使用类似show tables的查询来查询metadata；而Spark 2.0 在Spark SQL中提供标准API 调用catalog来访问metadata。

访问Catalog

建立SparkSession，然后调用Catalog：

val catalog = sparkSession.catalog

查询数据库

catalog.listDatabases().select("name").show()

listDatabases可查询所有数据库。在Hive中，Catalog可以访问Hive metadata中的数据库。listDatabases返回一个dataset，所以你可以使用适用于dataset的所有操作去处理metadata。

用createTempView 注册Dataframe

早期版本Spark用registerTempTable注册dataframe，而Spark 2.0 用createTempView替代。

df.createTempView("sales")

一旦注册视图，即可使用listTables访问所有表。

查询表

catalog.listTables().select("name").show()

检查表缓存

通过Catalog可检查表是否缓存。访问频繁的表缓存起来是非常有用的。

catalog.isCached("sales")

默认表是不缓存的，所以你会得到false。

df.cache()

catalog.isCached("sales")

现在将会打印true。

删除视图

catalog.dropTempView("sales")

查询注册函数

catalog.listFunctions().

select("name","description","className","isTemporary").show(100)

Catalog不仅能查询表，也可以访问UDF。上面代码会显示Spark Session中所有的注册函数（包括内建函数）。

自定义 Optimizer

Catalyst optimizer

Spark SQL使用Catalyst优化所有的查询，优化之后的查询比直接操作RDD速度要快。Catalyst是基于rule的，每个rule都有一个特定optimization，比如，ConstantFolding rule用来移除常数表达式，具体可直接看Spark SQL源代码。

在早期版本Spark中，如果想自定义optimization，需要开发者修改Spark源代码。操作起来麻烦，而且要求开发者能读懂源码。在Spark 2.0中，已提供API自定义optimization。

访问Optimized plan

在开始编写自定义optimization之前，先来看看如何访问optimized plan：

val df = sparkSession.read.option("header","true").csv("src/main/resources/data.csv")

val multipliedDF = df.selectExpr("amountPaid * 1")

println(multipliedDF.queryExecution.optimizedPlan.numberedTreeString)

上面的代码是加载一个csv文件，并对某一行所有值乘以1。queryExecution 可访问查询相关的所有执行信息。 queryExecution 的optimizedPlan对象可以访问dataframe的optimized plan。

Spark中的执行计划以tree表示，所以用numberedTreeString打印optimized plan。打印结果如下：

00 Project [(cast(amountPaid#3 as double) * 1.0) AS (amountPaid * 1)#5]01 +- Relation[transactionId#0,customerId#1,itemId#2,amountPaid#3] csv

所有执行计划是由底向上读取：

01 Relation - 从csv 文件建立一个dataframe
00 Project - 投影操作

编写自定义optimizer rule

从上面的执行计划可以清晰的看到：对一列的每个值乘以1 这里并没有优化。我们知道，乘以1 这个操作应该返回的是值本身，所以可以利用这个特点来增加只能点的optimizer。代码如下：

object MultiplyOptimizationRule extends Rule[LogicalPlan] {

def apply(plan: LogicalPlan): LogicalPlan = plan transformAllExpressions {

case Multiply(left,right) if right.isInstanceOf[Literal] &&

right.asInstanceOf[Literal].value.asInstanceOf[Double] == 1.0 =>

println("optimization of one applied")

left

}

这里MultiplyOptimizationRule扩展自Rule类，采用Scala的模式匹配编写。检测右操作数是否是 1，如果是1 则直接返回左节点。

把MultiplyOptimizationRule加入进optimizer：

sparkSession.experimental.extraOptimizatiOns= Seq(MultiplyOptimizationRule)

你可以使用extraOptimizations将定义好的Rule加入 catalyst。

下面实际使用看看效果：

val multipliedDFWithOptimization = df.selectExpr("amountPaid * 1")

println("after optimization")

println(multipliedDFWithOptimization.queryExecution.

optimizedPlan.numberedTreeString)

我们看到打印结果：

00 Project [cast(amountPaid#3 as double) AS (amountPaid * 1)#7]01 +- Relation[transactionId#0,customerId#1,itemId#2,amountPaid#3] csv

说明自定义Optimizer已生效。

侠天，专注于大数据、机器学习和数学相关的内容，并有个人公众号：bigdata_ny分享相关技术文章。

若发现以上文章有任何不妥，请联系我。

推荐阅读

metadata
MySQL锁--(深入浅出读书笔记)

MySQL锁的概述1.针对不同的引擎，采用不同的锁机制；（表锁，页面锁，行锁）myisam和memory存储引擎：表级锁；BOB存储引擎：页面锁，表级 ... [详细]

蜡笔小新 2023-10-17 09:28:54
main
在Kubernetes上部署JupyterHub的步骤和实验依赖

本文介绍了在Kubernetes上部署JupyterHub的步骤和实验所需的依赖，包括安装Docker和K8s，使用kubeadm进行安装，以及更新下载的镜像等。 ... [详细]

蜡笔小新 2023-12-14 20:27:14
main
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
default
用SQL语句怎么把已存在的列加上IDENTITY(1,1)属性

ALTERTABLE通过更改、添加、除去列和约束，或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]

蜡笔小新 2023-12-13 09:49:28
filter
关于Linq to sql 实现模糊查询 string数组

前景：当UI一个查询条件为多项选择，或录入多个条件的时候，比如查询所有名称里面包含以下动态条件，需要模糊查询里面每一项时比如是这样一个数组条件：newstring[]{兴业银行, ... [详细]

蜡笔小新 2023-12-13 09:34:59
less
JDK源码学习之HashTable(附带面试题)的学习笔记

本文介绍了JDK源码学习之HashTable(附带面试题)的学习笔记，包括HashTable的定义、数据类型、与HashMap的关系和区别。文章提供了干货，并附带了其他相关主题的学习笔记。 ... [详细]

蜡笔小新 2023-12-12 13:05:17
sum
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
cmd
VMware ESXI CLI常用命令

ESXi命令行获取帮助的方法为，常用的命令一般都是以esxcli开头，如果忘记命令可以使用帮助：esxcli-- ... [详细]

蜡笔小新 2023-10-17 11:37:09
main
Flink使用java实现读取csv文件简单实例

Flink使用java实现读取csv文件简单实例首先我们来看官方文档中给出的几种方法：首先我们来看官方文档中给出的几种方法：第一种：Da ... [详细]

蜡笔小新 2023-10-17 10:21:46
java
Mac OS 升级到11.2.2 Eclipse打不开了，报错Failed to create the Java Virtual Machine

本文介绍了在Mac OS升级到11.2.2版本后，使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 12:01:13
request
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
main
UVALive6575 Odd and Even Zeroes 数位dp+找规律

本文介绍了UVALive6575题目Odd and Even Zeroes的解法，使用了数位dp和找规律的方法。阶乘的定义和性质被介绍，并给出了一些例子。其中，部分阶乘的尾零个数为奇数，部分为偶数。 ... [详细]

蜡笔小新 2023-12-13 14:19:28
main
Linux环境变量函数getenv、putenv、setenv和unsetenv详解

本文详细解释了Linux中的环境变量函数getenv、putenv、setenv和unsetenv的用法和功能。通过使用这些函数，可以获取、设置和删除环境变量的值。同时给出了相应的函数原型、参数说明和返回值。通过示例代码演示了如何使用getenv函数获取环境变量的值，并打印出来。 ... [详细]

蜡笔小新 2023-12-13 12:01:03
main
引擎之旅 Chapter.2 线程库

预备知识可参考我整理的博客Windows编程之线程:https:www.cnblogs.comZhuSenlinp16662075.htmlWindows编程之线程同步:https ... [详细]

蜡笔小新 2023-12-12 14:06:39
main
hdu 5439（找规律）的数列求和问题

本文讨论了一个数列求和问题，该数列按照一定规律生成。通过观察数列的规律，我们可以得出求解该问题的算法。具体算法为计算前n项i*f[i]的和，其中f[i]表示数列中有i个数字。根据参考的思路，我们可以将算法的时间复杂度控制在O(n)，即计算到5e5即可满足1e9的要求。 ... [详细]

蜡笔小新 2023-12-12 14:05:58

xeyuxing369

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章