当前位置: 开发笔记 > 编程语言 > 正文

dropDuplicates运算符中使用了哪一行？

作者：亚丶喃7_789 | 来源：互联网 | 2023-01-31 14:31

如何解决《dropDuplicates运算符中使用了哪一行？》经验，为你挑选了1个好方法。

当使用dropDuplicatesSpark DF中的功能时,将保留哪一行？Spark文档中没有说明.

保持第一(根据行顺序)

保持最后(根据行顺序)

随机？

PS假设在分布式YARN环境中(不是本地主站)

1> Jacek Laskow..：

TL; DR保持第一(根据行顺序)

dropDuplicatesSpark SQL中的运算符使用Deduplicate运算符创建逻辑计划.

该Deduplicate操作符由Spark SQL的Catalyst Optimizer 转换为First逻辑运算符,可以很好地回答您的问题(!)

您可以Deduplicate在下面的逻辑计划中查看运算符.

// create datasets with duplicates
val dups = spark.range(9).map(_ % 3)

val q = dups.dropDuplicates

以下是q数据集的逻辑计划.

scala> println(q.queryExecution.logical.numberedTreeString)
00 Deduplicate [value#64L], false
01 +- SerializeFromObject [input[0, bigint, false] AS value#64L]
02    +- MapElements , class java.lang.Long, [StructField(value,LongType,true)], obj#63: bigint
03       +- DeserializeToObject staticinvoke(class java.lang.Long, ObjectType(class java.lang.Long), valueOf, cast(id#58L as bigint), true), obj#62: java.lang.Long
04          +- Range (0, 9, step=1, splits=Some(8))

Deduplicate然后将运算符转换为First逻辑运算符(Aggregate在优化之后将其自身显示为运算符).

scala> println(q.queryExecution.optimizedPlan.numberedTreeString)
00 Aggregate [value#64L], [value#64L]
01 +- SerializeFromObject [input[0, bigint, false] AS value#64L]
02    +- MapElements , class java.lang.Long, [StructField(value,LongType,true)], obj#63: bigint
03       +- DeserializeToObject staticinvoke(class java.lang.Long, ObjectType(class java.lang.Long), valueOf, id#58L, true), obj#62: java.lang.Long
04          +- Range (0, 9, step=1, splits=Some(8))

花一些时间审查阿帕奇星火的代码后,dropDuplicates运营商就相当于groupBy后面第一个功能.

first(columnName:String,ignoreNulls:Boolean):Column Aggregate函数:返回组中列的第一个值.

import org.apache.spark.sql.functions.first
val firsts = dups.groupBy("value").agg(first("value") as "value")
scala> println(firsts.queryExecution.logical.numberedTreeString)
00 'Aggregate [value#64L], [value#64L, first('value, false) AS value#139]
01 +- SerializeFromObject [input[0, bigint, false] AS value#64L]
02    +- MapElements , class java.lang.Long, [StructField(value,LongType,true)], obj#63: bigint
03       +- DeserializeToObject staticinvoke(class java.lang.Long, ObjectType(class java.lang.Long), valueOf, cast(id#58L as bigint), true), obj#62: java.lang.Long
04          +- Range (0, 9, step=1, splits=Some(8))

scala> firsts.explain
== Physical Plan ==
*HashAggregate(keys=[value#64L], functiOns=[first(value#64L, false)])
+- Exchange hashpartitioning(value#64L, 200)
   +- *HashAggregate(keys=[value#64L], functiOns=[partial_first(value#64L, false)])
      +- *SerializeFromObject [input[0, bigint, false] AS value#64L]
         +- *MapElements , obj#63: bigint
            +- *DeserializeToObject staticinvoke(class java.lang.Long, ObjectType(class java.lang.Long), valueOf, id#58L, true), obj#62: java.lang.Long
               +- *Range (0, 9, step=1, splits=8)

我也认为是dropDuplicates运营商可能是更好的性能.

Spark groupBy()和first()聚合不保留排序.如果这是drop_duplicates的实现,则不应指望保留任何排序.

推荐阅读

select
PySparkDataFrame过滤嵌套列

我知道那里有很多类似的问题，但我还没有找到任何与我的场景完全匹配的问题，所以请不要对重复标志太满意。我正在使用Spark3.0.1在AzureDatabrick ... [详细]

蜡笔小新 2023-10-14 18:02:19
timestamp
获取时间的函数js代码,js获取时区代码

本文目录一览：1、js获取服务器时间（动态）2 ... [详细]

蜡笔小新 2023-10-17 16:49:20
string
正则表达式_re模块的使用方法详解

本文详细介绍了Python中正则表达式和re模块的使用方法。首先解释了转义符的作用，以及如何在字符串中包含特殊字符。然后介绍了re模块的功能和常用方法。通过学习本文，读者可以掌握正则表达式的基本概念和使用技巧，进一步提高Python编程能力。 ... [详细]

蜡笔小新 2023-12-10 19:04:04
list
语义分割系列3SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络 ... [详细]

蜡笔小新 2023-10-17 10:14:20
range
开发笔记:线性回归读取txt

txt中部分数据如下：1.0000000.067732 ... [详细]

蜡笔小新 2023-10-16 20:02:25
list
第 4 章数据类型

目录4.1.type数据类型检测 ... [详细]

蜡笔小新 2023-10-16 19:21:38
metadata
开发笔记:Spark Java API 之 CountVectorizer

篇首语：本文由编程笔记#小编为大家整理，主要介绍了SparkJavaAPI之CountVectorizer相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:53:30
metadata
Yarn已过时！Kubeflow实现机器学习调度平台才是未来

来源：AI前线本文约6700字，建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在，为你介绍Kubeflow与其核心组件及其 ... [详细]

蜡笔小新 2023-10-14 16:58:41
metadata
【shell】网络处理：判断IP是否在网段、两个ip是否同网段、IP地址范围、网段包含关系

本文介绍了使用shell脚本判断IP是否在同一网段、判断IP地址是否在某个范围内、计算IP地址范围、判断网段之间的包含关系的方法和原理。通过对IP和掩码进行与计算，可以判断两个IP是否在同一网段。同时，还提供了一段用于验证IP地址的正则表达式和判断特殊IP地址的方法。 ... [详细]

蜡笔小新 2023-12-12 11:19:14
join
如何优化Webpack打包后的代码分割

本文介绍了如何通过优化Webpack的代码分割来减小打包后的文件大小。主要包括拆分业务逻辑代码和引入第三方包的代码、配置Webpack插件、异步代码的处理、代码分割重命名、配置vendors和cacheGroups等方面的内容。通过合理配置和优化，可以有效减小打包后的文件大小，提高应用的加载速度。 ... [详细]

蜡笔小新 2023-12-09 08:10:47
buffer
tcpdump 4.5.1 crash 深入分析

tcpdump 4.5.1 crash 深入分析 ... [详细]

蜡笔小新 2023-12-09 07:11:34
select
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
list
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
list
数学建模入门python绘制频率直方图

文章目录例题数据处理绘图操作调用演示例题数据处理将以下的数据保存到磁盘上17275169551696417165167471716216867165521696216865 ... [详细]

蜡笔小新 2023-10-17 15:01:10
list
MapReduce 切片机制源码分析

总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]

蜡笔小新 2023-10-16 13:03:18

亚丶喃7_789

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章