将时间序列pySpark数据帧拆分为测试和训练，而无需使用随机拆分

作者：拍友2602924913 | 来源：互联网 | 2022-12-08 10:50

如何解决《将时间序列pySpark数据帧拆分为测试和训练，而无需使用随机拆分》经验，为你挑选了1个好方法。

我有一个火花时间序列数据框。我想将其拆分为80-20（训练测试）。由于这是一个时间序列数据帧，因此我不想进行随机拆分。为了将第一个数据帧传递到训练中并传递第二个数据帧进行测试，我该怎么做？

1> pault..：

您可以pyspark.sql.functions.percent_rank()用来获取按时间戳/日期列排序的DataFrame的百分位排名。然后选择所有列，其中以a rank <= 0.8作为训练集，其余作为测试集。

例如，如果您具有以下DataFrame：

df.show(truncate=False)
#+---------------------+---+
#|date                 |x  |
#+---------------------+---+
#|2018-01-01 00:00:00.0|0  |
#|2018-01-02 00:00:00.0|1  |
#|2018-01-03 00:00:00.0|2  |
#|2018-01-04 00:00:00.0|3  |
#|2018-01-05 00:00:00.0|4  |
#+---------------------+---+



您需要训练集中的前4行和训练集中的最后一行。首先添加一列rank：

from pyspark.sql.functions import percent_rank
from pyspark.sql import Window

df = df.withColumn("rank", percent_rank().over(Window.partitionBy().orderBy("date")))


现在使用rank将数据拆分为train和test：

train_df = df.where("rank <= .8").drop("rank")
train_df.show()
#+---------------------+---+
#|date                 |x  |
#+---------------------+---+
#|2018-01-01 00:00:00.0|0  |
#|2018-01-02 00:00:00.0|1  |
#|2018-01-03 00:00:00.0|2  |
#|2018-01-04 00:00:00.0|3  |
#+---------------------+---+

test_df = df.where("rank > .8").drop("rank")
test_df.show()
#+---------------------+---+
#|date                 |x  |
#+---------------------+---+
#|2018-01-05 00:00:00.0|4  |
#+---------------------+---+




    
        
                        python
                        spark
                        apache
                        sql
                        function
                        import
                        window
                        io
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        io
                        vue使用
                    

                    
                                                
                            
                        
                                                
                        关键词： ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 19:14:56
                    

                

                
                                
                    
                        io
                        使用 Ubuntu 中的 Python 获取浏览器历史记录
                    

                    
                                                
                        使用Ubuntu中的Python获取浏览器历史记录原文: ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 08:57:59
                    

                

                                
                    
                    
                
                
                                
                    
                        io
                        python创建一个窗口_等一个大佬啊 要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...
                    

                    
                                                
                        展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:26:09
                    

                

                
                                
                    
                        io
                        基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
                    

                    
                                                
                            
                        
                                                
                        文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 13:27:42
                    

                

                
                                
                    
                        spring
                        Spark实现高斯朴素贝叶斯模型的低配版
                    

                    
                                                
                        本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-10 21:42:37
                    

                

                
                                
                    
                        io
                        利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现
                    

                    
                                                
                        本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-09 08:30:08
                    

                

                
                                
                    
                        jsp
                        lua语言闭包、模式匹配、日期、编译、模块的特性及应用
                    

                    
                                                
                        本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 18:18:21
                    

                

                
                                
                    
                        char
                        Python正则表达式学习记录及常用方法
                    

                    
                                                
                            
                        
                                                
                        本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:37:19
                    

                

                
                                
                    
                        grid
                        不同优化算法的比较分析及实验验证
                    

                    
                                                
                            
                        
                                                
                        本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:05:14
                    

                

                
                                
                    
                        char
                        C++字符字符串处理及字符集编码方案
                    

                    
                                                
                            
                        
                                                
                        本文介绍了C++中字符字符串处理的问题，并详细解释了字符集编码方案，包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码，否则将使用windows code page编译。最后，给出了相关的头文件和数据类型定义。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 04:59:58
                    

                

                
                                
                    
                        io
                        Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
                    

                    
                                                
                            
                        
                                                
                        本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法，包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 20:56:55
                    

                

                
                                
                    
                        char
                        如何在HTML中获取鼠标的当前位置
                    

                    
                                                
                            
                        
                                                
                        本文介绍了在HTML中获取鼠标当前位置的三种方法，分别是相对于屏幕的位置、相对于窗口的位置以及考虑了页面滚动因素的位置。通过这些方法可以准确获取鼠标的坐标信息。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 13:04:00
                    

                

                
                                
                    
                        io
                        spark任务已经执行结束，但还显示RUNNING状态
                    

                    
                                                
                        spark的任务已经执行完成：scalavallinesc.textFile(hdfs:vm122:9000dblp.rdf)line:org.apache ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-16 12:18:00
                    

                

                
                                
                    
                        io
                        bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...
                    

                    
                                                
                            
                        
                                                
                        全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 15:52:17
                    

                

                
                                
                    
                        io
                        YARN回顾（七）——Spark在YARN上的运行模式
                    

                    
                                                
                        SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下，Spark驱动器（driver）在YARNApp ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 12:39:15

















    

    
        
            
            
                
                
            

            
                拍友2602924913            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    go
                
                                
                    random
                
                                
                    stream
                
                                
                    range
                
                                
                    python3
                
                                
                    command
                
                                
                    php
                
                                
                    fetch
                
                                
                    node.js
                
                                
                    bash
                
                                
                    uml
                
                                
                    httprequest
                
                                
                    hashset
                
                                
                    function
                
                                
                    uri
                
                                
                    javascript
                
                                
                    plugins
                
                                
                    dll
                
                                
                    cPlusPlus
                
                                
                    io
                
                                
                    golang
                
                                
                    php7
                
                                
                    bytecode
                
                                
                    spring
                
                                
                    cSharp
                
                                
                    emoji
                
                                
                    jsp
                
                                
                    merge
                
                                
                    grid
                
                                
                    char
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1easyui弹出消息的方式总结
                
                                
                    2Hbase中checkAndPut操作
                
                                
                    3codeves天梯 产生数
                
                                
                    4新注册腾讯云最长可免费使用CVM服务器半年
                
                                
                    5win10系统怎么安装驱动?
                
                                
                    6【Rust】二叉搜索树插入迭代
                
                                
                    7图片mysql服务器_将图片存储在mysql中
                
                                
                    8下载gitbook上的pdf书籍后 如何转化为html
                
                                
                    9(PC+WAP)织梦模板户外设备类网站
                
                                
                    10路由器当做交换机使用
                
                                
                    11c/c++开发分享malloc分配的指针大小
                
                                
                    12net core体系Xamarin2概要(lignshi)
                
                                
                    13第四单元和课程总结：简单的架构设计意识
                
                                
                    14cmath中的y0,y1...
                
                                
                    15c怎么将得到的数据存入到数组里