在pyspark中展平Maptype列

作者：简-单贤_917 | 来源：互联网 | 2022-12-02 15:07

如何解决《在pyspark中展平Maptype列》经验，为你挑选了1个好方法。

我有一个带有MapType列的pyspark DataFrame，并想通过键名将其分解为所有列

root
 |-- a: map (nullable = true)
 |    |-- key: string
 |    |-- value: long (valueCOntainsNull= true)



我想做sp_test.select('a.*')
但是出现错误：


  AnalysisException：'只能加星展开结构数据类型。属性：ArrayBuffer(a);'


如果我们知道所有的关键，可以通过

sp_test.select(['a.%s'%item for item in ['a','b']]).show()


但我想删除关键的依赖

如果我们有StrucType列，可以通过执行以下操作轻松实现 display(nested_df.select('*', 'nested_array.*'))

root
 |-- _corrupt_record: string (nullable = true)
 |-- field1: long (nullable = true)
 |-- field2: long (nullable = true)
 |-- nested_array: struct (nullable = true)
 |    |-- nested_field1: long (nullable = true)
 |    |-- nested_field2: long (nullable = true)


我有些疑惑：


可以MapType铸成StructType？
我们可以直接从中查询子键MapType吗？

    
  




  
  
  

    

      

        pault..
         6
      
      
TL; DR：除非您提前知道可能的键，否则没有简单的方法来完成您要问的事情。

让我用一个例子来尝试解释为什么和选择什么。

首先，创建以下DataFrame：

data = [({'a': 1, 'b': 2},), ({'c':3},), ({'a': 4, 'c': 5},)]
df = spark.createDataFrame(data, ["a"])
df.show()
#+-------------------+
#|                  a|
#+-------------------+
#|Map(a -> 1, b -> 2)|
#|        Map(c -> 3)|
#|Map(a -> 4, c -> 5)|
#+-------------------+


具有以下架构：

df.printSchema()
#root
# |-- a: map (nullable = true)
# |    |-- key: string
# |    |-- value: long (valueCOntainsNull= true)



  
  可以MapType铸成StructType？
  


除非您提前知道按键，否则简单的答案是“否”（至少不是很有效）。

之间的差异MapType和StructType是，对地图的键值对是逐行独立。对于StructTypestruct列中的列，情况并非如此，所有行都具有相同的struct字段。

因此，spark无法轻松推断要从地图创建哪些列。（请记住，火花在每行上并行运行）。另一方面，将结构分解为列很简单，因为所有列都是提前知道的。

因此，如果您知道键，则可以通过以下方式创建结构类型：

import pyspark.sql.functions as f

df_new = df.select(
    f.struct(*[f.col("a").getItem(c).alias(c) for c in ["a", "b", "c"]]).alias("a")
)
df_new.show()
#+-------------+
#|            a|
#+-------------+
#|   [1,2,null]|
#|[null,null,3]|
#|   [4,null,5]|
#+-------------+


新的架构是：

df_new.printSchema()
#root
# |-- a: struct (nullable = false)
# |    |-- a: long (nullable = true)
# |    |-- b: long (nullable = true)
# |    |-- c: long (nullable = true)



  
  我们可以直接从MapType查询子键吗？
  


是的，（如上所示），您可以使用getItem()来从列表中的索引处或通过地图中的键获取项。



如果您不知道键，则唯一的选择是explode将地图分为行groupby和pivot。

df.withColumn("id", f.monotonically_increasing_id())\
    .select("id", f.explode("a"))\
    .groupby("id")\
    .pivot("key")\
    .agg(f.first("value"))\
    .drop("id")\
    .show()
#+----+----+----+
#|   a|   b|   c|
#+----+----+----+
#|null|null|   3|
#|   1|   2|null|
#|   4|null|   5|
#+----+----+----+


在这种情况下，我们需要先创建一id列，以便进行分组。

在pivot这里可以是昂贵的，这取决于你的数据的大小。


1> pault..：
TL; DR：除非您提前知道可能的键，否则没有简单的方法来完成您要问的事情。

让我用一个例子来尝试解释为什么和选择什么。

首先，创建以下DataFrame：

data = [({'a': 1, 'b': 2},), ({'c':3},), ({'a': 4, 'c': 5},)]
df = spark.createDataFrame(data, ["a"])
df.show()
#+-------------------+
#|                  a|
#+-------------------+
#|Map(a -> 1, b -> 2)|
#|        Map(c -> 3)|
#|Map(a -> 4, c -> 5)|
#+-------------------+


具有以下架构：

df.printSchema()
#root
# |-- a: map (nullable = true)
# |    |-- key: string
# |    |-- value: long (valueCOntainsNull= true)



  
  可以MapType铸成StructType？
  


除非您提前知道按键，否则简单的答案是“否”（至少不是很有效）。

之间的差异MapType和StructType是，对地图的键值对是逐行独立。对于StructTypestruct列中的列，情况并非如此，所有行都具有相同的struct字段。

因此，spark无法轻松推断要从地图创建哪些列。（请记住，火花在每行上并行运行）。另一方面，将结构分解为列很简单，因为所有列都是提前知道的。

因此，如果您知道键，则可以通过以下方式创建结构类型：

import pyspark.sql.functions as f

df_new = df.select(
    f.struct(*[f.col("a").getItem(c).alias(c) for c in ["a", "b", "c"]]).alias("a")
)
df_new.show()
#+-------------+
#|            a|
#+-------------+
#|   [1,2,null]|
#|[null,null,3]|
#|   [4,null,5]|
#+-------------+


新的架构是：

df_new.printSchema()
#root
# |-- a: struct (nullable = false)
# |    |-- a: long (nullable = true)
# |    |-- b: long (nullable = true)
# |    |-- c: long (nullable = true)



  
  我们可以直接从MapType查询子键吗？
  


是的，（如上所示），您可以使用getItem()来从列表中的索引处或通过地图中的键获取项。



如果您不知道键，则唯一的选择是explode将地图分为行groupby和pivot。

df.withColumn("id", f.monotonically_increasing_id())\
    .select("id", f.explode("a"))\
    .groupby("id")\
    .pivot("key")\
    .agg(f.first("value"))\
    .drop("id")\
    .show()
#+----+----+----+
#|   a|   b|   c|
#+----+----+----+
#|null|null|   3|
#|   1|   2|null|
#|   4|null|   5|
#+----+----+----+


在这种情况下，我们需要先创建一id列，以便进行分组。

在pivot这里可以是昂贵的，这取决于你的数据的大小。




    
        
                        spark
                        python
                        key
                        string
                        select
                        io
                        buffer
                        struct
                        架构
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        web
                        EzPP 0.2发布，新增YAML布局渲染功能
                    

                    
                                                
                            
                        
                                                
                        EzPP发布了0.2.1版本，新增了YAML布局渲染功能，可以将YAML文件渲染为图片，并且可以复用YAML作为模版，通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片，让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子，介绍了使用ezpp的基本渲染方法，以及如何使用canvas、text类元素、自定义字体等。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 12:39:10
                    

                

                
                                
                    
                        format
                        python UDP的发送与接收socket
                    

                    
                                                
                        1、Ipv4只能用于内网，外网只能用2、DNS：把域名解析成ip地址3、MAC地址就是物理地址（网卡序列号）   IP地址：电脑序列号4、不同电脑，微信之间互相通信，靠的是端口；  ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 22:21:58
                    

                

                                
                    
                    
                
                
                                
                    
                        require
                        Incorrect implementation of List field deserialization
                    

                    
                                                
                        Problemexplanation: ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 21:42:08
                    

                

                
                                
                    
                        python
                        《Spark核心技术与高级应用》——1.2节Spark的重要扩展
                    

                    
                                                
                            
                        
                                                
                        本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 18:07:56
                    

                

                
                                
                    
                        instance
                        Python实现变声器功能(萝莉音御姐音)的方法及步骤
                    

                    
                                                
                            
                        
                                                
                        本文介绍了使用Python实现变声器功能(萝莉音御姐音)的方法及步骤。首先登录百度AL开发平台，选择语音合成，创建应用并填写应用信息，获取Appid、API Key和Secret Key。然后安装pythonsdk，可以通过pip install baidu-aip或python setup.py install进行安装。最后，书写代码实现变声器功能，使用AipSpeech库进行语音合成，可以设置音量等参数。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 16:21:36
                    

                

                
                                
                    
                        js
                        开发笔记:加密&json&StringIO模块&BytesIO模块
                    

                    
                                                
                            
                        
                                                
                        篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:18:35
                    

                

                
                                
                    
                        js
                        Alink回归预测的不完善问题及期待
                    

                    
                                                
                        本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 14:25:33
                    

                

                
                                
                    
                        js
                        adg架构设置及其在企业数据治理中的应用
                    

                    
                                                
                        本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展，企业IT系统的快速发展使得数据成为企业业务增长的新动力，但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题，并提出了解决方案，包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外，本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍，读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 13:05:22
                    

                

                
                                
                    
                        shell
                        WinPythonHadoop在Win10上安装教程
                    

                    
                                                
                        本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 11:26:56
                    

                

                
                                
                    
                        char
                        Java String与StringBuffer的区别及其应用场景
                    

                    
                                                
                            
                        
                                                
                        本文主要介绍了Java中String和StringBuffer的区别，String是不可变的，而StringBuffer是可变的。StringBuffer在进行字符串处理时不生成新的对象，内存使用上要优于String类。因此，在需要频繁对字符串进行修改的情况下，使用StringBuffer更加适合。同时，文章还介绍了String和StringBuffer的应用场景。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 19:21:06
                    

                

                
                                
                    
                        list
                        计算机网络初识及通信流程分析
                    

                    
                                                
                        本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:50:29
                    

                

                
                                
                    
                        io
                        python创建一个窗口_等一个大佬啊 要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...
                    

                    
                                                
                        展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:26:09
                    

                

                
                                
                    
                        python
                        Mac配置环境变量，实现Python3的命令行调用
                    

                    
                                                
                        本文介绍了在Mac上配置环境变量，实现Python3的命令行调用的步骤。首先通过官网下载或使用brew安装Python3，并找到安装路径。然后将该路径添加到环境变量中，可以通过编辑.bash_profile文件或执行source命令来实现。配置完成后，即可在命令行中直接调用Python3。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 13:55:37
                    

                

                
                                
                    
                        python
                        企业数据应用挑战及元数据管理的重要性
                    

                    
                                                
                            
                        
                                                
                        本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战，包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战，通过元数据管理可以实现数据的可见、可懂、可用，帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管，强调了元数据管理在企业数据治理中的基础和前提作用。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 15:39:22
                    

                

                
                                
                    
                        io
                        什么是大数据lambda架构
                    

                    
                                                
                            
                        
                                                
                        一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 16:06:09

















    

    
        
            
            
                
                
            

            
                简-单贤_917            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    cPlusPlus
                
                                
                    eval
                
                                
                    tree
                
                                
                    include
                
                                
                    数组
                
                                
                    fetch
                
                                
                    python
                
                                
                    netty
                
                                
                    list
                
                                
                    format
                
                                
                    chat
                
                                
                    md5
                
                                
                    web3
                
                                
                    const
                
                                
                    tags
                
                                
                    string
                
                                
                    emoji
                
                                
                    javascript
                
                                
                    testing
                
                                
                    web
                
                                
                    java
                
                                
                    shell
                
                                
                    hashtable
                
                                
                    instance
                
                                
                    bit
                
                                
                    io
                
                                
                    cpython
                
                                
                    require
                
                                
                    char
                
                                
                    js
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1用lvm+vmware+kickstart实现系统自动安装和快照安装
                
                                
                    2eclipse导入项目finish灰色_SpringBoot系列入门——搭建SpringBoot项目
                
                                
                    3%29 身份认证
                
                                
                    4IOS系统文件详解
                
                                
                    5PHP程序员玩转Linux系列 搭建FTP代码开发环境
                
                                
                    6如何在Android中设置view的透明度（Alpha），包括其子view
                
                                
                    7vc写入mysql数据库无效_VC连接mysql数据库错误：libmysql.lib : fatal error LNK1113: invalid machine 解决方法...
                
                                
                    8linux fusion模块,Qorvo宣布增加RF Fusion20TM模块供货量，
                
                                
                    9众目睽睽能隐身的区块链黑科技，zkSNARK 背后原理解析
                
                                
                    10android开发分享如何在一个Retrofit请求的正文中发布原始的整个JSON？
                
                                
                    11清空回收站快捷键b(回收站删除文件快捷键)
                
                                
                    12windows7怎么升级10,win7怎么卸载软件
                
                                
                    13perl模块安装卸载
                
                                
                    14鸺字意思 在新华字典的读音解释笔画常用组词起名
                
                                
                    15嵌入式LAB 6：Linux内核编译