热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PySparkDataFrame过滤嵌套列

我知道那里有很多类似的问题,但我还没有找到任何与我的场景完全匹配的问题,所以请不要对重复标志太满意。我正在使用Spark3.0.1在AzureDatabrick

我知道那里有很多类似的问题,但我还没有找到任何与我的场景完全匹配的问题,所以请不要对重复标志满意。我正在使用 Spark 3.0.1 在 Azure Databricks 中使用 Python 3 笔记本。

我有以下数据帧

+---+---------+--------+
|ID |FirstName|LastName|
+---+---------+--------+
|1 |John |Doe |
|2 |Michael | |
|3 |Angela |Merkel |
+---+---------+--------+

可以使用此代码创建

from pyspark.sql.types import StructType,StructField, StringType, IntegerType
import pyspark.sql.functions as F
data2 = [(1,"John","Doe"),
(2,"Michael",""),
(3,"Angela","Merkel")
]
schema = StructType([
StructField("ID",IntegerType(),True),
StructField("FirstName",StringType(),True),
StructField("LastName",StringType(),True),
])
df1 = spark.createDataFrame(data=data2,schema=schema)
df1.printSchema()
df1.show(truncate=False)

我把它转换成这个 DataFrame

+---+-----------------------------------------+
|ID |Names |
+---+-----------------------------------------+
|1 |[[FirstName, John], [LastName, Doe]] |
|2 |[[FirstName, Michael], [LastName, ]] |
|3 |[[FirstName, Angela], [LastName, Merkel]]|
+---+-----------------------------------------+

使用此代码

df2 = df1.select(
'ID',
F.array(
F.struct(
F.lit('FirstName').alias('NameType'),
F.col('FirstName').alias('Name')
),
F.struct(
F.lit('LastName').alias('NameType'),
F.col('LastName').alias('Name')
)
).alias('Names')
)
df2.printSchema()
df2.show(truncate=False)

现在,我想筛选出Names其中LastName为空或为空字符串。我的总体目标是拥有一个可以在 json 中序列化的对象,其中排除Names了空Name值。

像这样

[
{
"ID": 1,
"Names": [
{
"NameType": "FirstName",
"Name": "John"
},
{
"NameType": "LastName",
"Name": "Doe"
}
]
},
{
"ID": 2,
"Names": [
{
"NameType": "FirstName",
"Name": "Michael"
}
]
},
{
"ID": 3,
"Names": [
{
"NameType": "FirstName",
"Name": "Angela"
},
{
"NameType": "LastName",
"Name": "Merkel"
}
]
}
]

我试过了

df2 = df1.select(
'ID',
F.array(
F.struct(
F.lit('FirstName').alias('NameType'),
F.col('FirstName').alias('Name')
),
F.struct(
F.lit('LastName').alias('NameType'),
F.col('LastName').alias('Name')
)
).filter(lambda x: x.col('LastName').isNotNull()).alias('Names')
)

但我得到了错误'Column' object is not callable

我也试过,df2 = df2.filter(F.col('Names')['LastName']) > 0)但这给了我一个invalid syntax错误。

我试过了

df2 = df2.filter(lambda x: (len(x)>0), F.col('Names')['LastName'])

但这给出了错误TypeError: filter() takes 2 positional arguments but 3 were given

有人可以告诉我如何让这个工作吗?

回答


您可以使用高阶函数filter

import pyspark.sql.functions as F
df3 = df2.withColumn(
'Names',
F.expr("filter(Names, x -> case when x.NameType = 'LastName' and length(x.Name) = 0 then false else true end)")
)
df3.show(truncate=False)
+---+-----------------------------------------+
|ID |Names |
+---+-----------------------------------------+
|1 |[[FirstName, John], [LastName, Doe]] |
|2 |[[FirstName, Michael]] |
|3 |[[FirstName, Angela], [LastName, Merkel]]|
+---+-----------------------------------------+






推荐阅读
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 第四章高阶函数(参数传递、高阶函数、lambda表达式)(python进阶)的讲解和应用
    本文主要讲解了第四章高阶函数(参数传递、高阶函数、lambda表达式)的相关知识,包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念,并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说,本文将是一个不错的学习资料。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
    本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法,包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]
  • web.py开发web 第八章 Formalchemy 服务端验证方法
    本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例,详细说明了对各字段的验证要求,包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ... [详细]
  • python限制递归次数(python最大公约数递归)
    本文目录一览:1、python为什么要进行递归限制 ... [详细]
  • 本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式,然后详细介绍了相关API,包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List,以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较,指出了JSON的优势和缺点。 ... [详细]
  • 图像因存在错误而无法显示 ... [详细]
  • EzPP 0.2发布,新增YAML布局渲染功能
    EzPP发布了0.2.1版本,新增了YAML布局渲染功能,可以将YAML文件渲染为图片,并且可以复用YAML作为模版,通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片,让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子,介绍了使用ezpp的基本渲染方法,以及如何使用canvas、text类元素、自定义字体等。 ... [详细]
  • Python使用Pillow包生成验证码图片的方法
    本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号,并添加干扰象素,生成一幅验证码图片。需要配置好Python环境,并安装Pillow库。代码实现包括导入Pillow包和随机模块,定义随机生成字母、数字和字体颜色的函数。 ... [详细]
  • Java编程实现邻接矩阵表示稠密图的方法及实现类介绍
    本文介绍了Java编程如何实现邻接矩阵表示稠密图的方法,通过一个名为AMWGraph.java的类来构造邻接矩阵表示的图,并提供了插入结点、插入边、获取邻接结点等功能。通过使用二维数组来表示结点之间的关系,并通过元素的值来表示权值的大小,实现了稠密图的表示和操作。对于对稠密图的表示和操作感兴趣的读者可以参考本文。 ... [详细]
  • python3 nmap函数简介及使用方法
    本文介绍了python3 nmap函数的简介及使用方法,python-nmap是一个使用nmap进行端口扫描的python库,它可以生成nmap扫描报告,并帮助系统管理员进行自动化扫描任务和生成报告。同时,它也支持nmap脚本输出。文章详细介绍了python-nmap的几个py文件的功能和用途,包括__init__.py、nmap.py和test.py。__init__.py主要导入基本信息,nmap.py用于调用nmap的功能进行扫描,test.py用于测试是否可以利用nmap的扫描功能。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有