如何使用PySpark转换结构化流？

作者：手机用户2502907453 | 来源：互联网 | 2022-12-09 16:02

如何解决《如何使用PySpark转换结构化流？》经验，为你挑选了1个好方法。

这看起来似乎很明显，但是在回顾文档和示例时，我不确定是否可以找到一种方法来使用PySpark进行结构化流转换。

例如：

from pyspark.sql import SparkSession

spark = (
    SparkSession
    .builder
    .appName('StreamingWordCount')
    .getOrCreate()
)

raw_records = (
    spark
    .readStream
    .format('socket')
    .option('host', 'localhost')
    .option('port', 9999)
    .load()
)

# I realize there's a SQL function for upper-case, just illustrating a sample
# use of an arbitrary map function
records = raw_records.rdd.map(lambda w: w.upper()).toDF()

counts = (
    records
    .groupBy(records.value)
    .count()
)

query = (
    counts
    .writeStream
    .outputMode('complete')
    .format('console')
    .start()
)
query.awaitTermination()



这将引发以下异常：

Queries with streaming sources must be executed with writeStream.start


但是，如果我删除呼叫，rdd.map(...).toDF()一切似乎都可以正常工作。

似乎是rdd.map从流上下文中调用分支执行，并导致Spark警告它从未启动？

是否有“正确”的方法使用结构化流和PySpark 应用map或mapPartition样式转换？


1> 小智..：
结构化流中应用的每个转换都必须完全包含在Dataset世界中-如果使用PySpark，则意味着您只能使用DataFrame或SQL，并且不支持转换为RDD（DStream或本地集合）。

如果要使用普通的Python代码，则必须使用UserDefinedFunction。

from pyspark.sql.functions import udf

@udf
def to_upper(s)
    return s.upper()

raw_records.select(to_upper("value"))


另请参见Spark结构化流和Spark-Ml回归




    
        
                        spark
                        apache
                        struct
                        stream
                        sql
                        import
                        session
                        build
                        get
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        const
                        wepy小顺序受权点击作废受权失利的计划
                    

                    
                                                
                        本文介绍了在wepy中运用小顺序页面受权的计划，包含了用户点击作废后的从新受权计划。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 11:09:24
                    

                

                
                                
                    
                        version
                        mac php错误日志配置方法及错误级别修改
                    

                    
                                                
                            
                        
                                                
                        本文介绍了在mac环境下配置php错误日志的方法，包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别，以及相应的错误级别参考链接。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 11:59:08
                    

                

                                
                    
                    
                
                
                                
                    
                        object
                        Spark实现高斯朴素贝叶斯模型的低配版
                    

                    
                                                
                        本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-10 21:42:37
                    

                

                
                                
                    
                        int
                        解决java开源项目apache commons email简单使用报错的方法
                    

                    
                                                
                        本文介绍了解决java开源项目apache commons email简单使用报错的方法，包括使用正确的JAR包和正确的代码配置，以及相关参数的设置。详细介绍了如何使用apache commons email发送邮件。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-09 17:35:16
                    

                

                
                                
                    
                        const
                        vue使用
                    

                    
                                                
                            
                        
                                                
                        关键词： ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 19:14:56
                    

                

                
                                
                    
                        ip
                        JS进修笔记——闭包的运转机制和作用域
                    

                    
                                                
                        本文介绍了闭包的定义和运转机制，重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则，闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 18:45:00
                    

                

                
                                
                    
                        match
                        PHP图片截取方法及应用实例
                    

                    
                                                
                            
                        
                                                
                        本文介绍了使用PHP动态切割JPEG图片的方法，并提供了应用实例，包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用，以及图片切割的具体步骤。同时，还提供了一些注意事项和优化建议。通过本文的学习，读者可以掌握PHP图片截取的技巧，实现自己的需求。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 16:44:09
                    

                

                
                                
                    
                        version
                        baresip android编译、运行教程1语音通话
                    

                    
                                                
                            
                        
                                                
                        本文介绍了如何在安卓平台上编译和运行baresip android，包括下载相关的sdk和ndk，修改ndk路径和输出目录，以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 10:53:48
                    

                

                
                                
                    
                        version
                        如何在dotnet桌面（Windows）应用程序中添加图标？
                    

                    
                                                
                        本文讨论了如何在dotnet桌面（Windows）应用程序中添加图标。作者提到可以使用dotnet命令行工具与resource.rc文件一起使用来为标准.NET核心应用程序添加图标。作者还介绍了在创建控制台应用程序时如何编辑projeto1.csproj文件来添加图标。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 20:09:00
                    

                

                
                                
                    
                        ip
                        树莓派语音控制的配置方法和步骤
                    

                    
                                                
                            
                        
                                                
                        本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助，文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行，然后使用Eoman的控制方法，即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 03:02:49
                    

                

                
                                
                    
                        const
                        vue cli 3.x移除console采坑记
                    

                    
                                                
                        本文记录了在vue cli 3.x中移除console的一些采坑经验，通过使用uglifyjs-webpack-plugin插件，在vue.config.js中进行相关配置，包括设置minimizer、UglifyJsPlugin和compress等参数，最终成功移除了console。同时，还包括了一些可能出现的报错情况和解决方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 21:16:05
                    

                

                
                                
                    
                        const
                        VueCLI多页分目录打包的步骤记录
                    

                    
                                                
                            
                        
                                                
                        本文介绍了使用VueCLI进行多页分目录打包的步骤，包括页面目录结构、安装依赖、获取Vue CLI需要的多页对象等内容。同时还提供了自定义不同模块页面标题的方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 16:14:11
                    

                

                
                                
                    
                        const
                        CentOS 6.4更新源地址的方法
                    

                    
                                                
                        本文介绍了在CentOS 6.4系统中更新源地址的方法，包括备份现有源文件、下载163源、修改文件名、更新列表和系统，并提供了相应的命令。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 16:09:40
                    

                

                
                                
                    
                        int
                        大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记
                    

                    
                                                
                            
                        
                                                
                        本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-10 11:44:06
                    

                

                
                                
                    
                        ip
                        禅道测试管理工具的介绍及搭建方法
                    

                    
                                                
                        本文介绍了禅道作为一款国产开源免费的测试管理工具的特点和功能，并提供了禅道的搭建和调试方法。禅道是一款B/S结构的项目管理工具，可以实现组织管理、后台管理、产品管理、项目管理和测试管理等功能。同时，本文还介绍了其他软件测试相关工具，如功能自动化工具和性能自动化工具，以及白盒测试工具的使用。通过本文的阅读，读者可以了解禅道的基本使用方法和优势，从而更好地进行测试管理工作。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-09 19:03:20

















    

    
        
            
            
                
                
            

            
                手机用户2502907453            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    hashset
                
                                
                    dockerfile
                
                                
                    int
                
                                
                    dll
                
                                
                    ip
                
                                
                    command
                
                                
                    bitmap
                
                                
                    cpython
                
                                
                    httpclient
                
                                
                    chat
                
                                
                    数组
                
                                
                    match
                
                                
                    iostream
                
                                
                    version
                
                                
                    substring
                
                                
                    integer
                
                                
                    python3
                
                                
                    php7
                
                                
                    object
                
                                
                    php8
                
                                
                    process
                
                                
                    loops
                
                                
                    nodejs
                
                                
                    flutter
                
                                
                    dagger
                
                                
                    const
                
                                
                    future
                
                                
                    erlang
                
                                
                    default
                
                                
                    controller
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1如何使用Azure Migrate将VMware VM迁移到Azure？
                
                                
                    2RSS商业应用开发2
                
                                
                    32023开学季哪款电容笔值得买？高品质电容笔品牌推荐
                
                                
                    4国内 1C1G 3m 的这种配置去哪里买划算点？
                
                                
                    5reactrouter 路由跳转问题
                
                                
                    6远程控制软件 TeamViewer 的局限性和替代方案
                
                                
                    7BrowserSync非常慢
                
                                
                    8【操作系统】3.2内存管理（操作系统负责内存空间的分配与回收 ②）
                
                                
                    9iPhone7的Live Photo怎么关闭？iPhone7的Live Photo安全吗
                
                                
                    10深度解读：微信里的“授权”是什么意思？
                
                                
                    11聚焦大数据与智能时代：2016中国大数据应用大会将于7月举行
                
                                
                    12Nginx05负载均衡 upsteam
                
                                
                    13安卓逆向——雷电模拟器安卓安装Xposed问题
                
                                
                    14win8 android 双系统平板,谷歌阻止安卓/Win8.1双系统平板
                
                                
                    15Solaris 8 新增功能一览(8)通用桌面环境(CDE)桌面增强