elisa数据处理过程图解_Pandas数据处理——玩转时间序列数据

作者：凰媓_935 | 来源：互联网 | 2023-10-11 05:28

进行金融数据分析或量化研究时，总避免不了时间序列数据的处理，时间序列是指在一定时间内按时间顺序测量的某个变量的取值序列。常见的时间序列数据有一天内随着时

进行金融数据分析或量化研究时&＃xff0c;总避免不了时间序列数据的处理&＃xff0c;时间序列是指在一定时间内按时间顺序测量的某个变量的取值序列。常见的时间序列数据有一天内随着时间变化的温度序列&＃xff0c;又或者交易时间内不断波动的股票价格序列。Pandas也因其强大的时序处理能力而被广泛应用于金融数据分析&＃xff0c;这篇文章为大家介绍一下Pandas中的时间序列处理&＃xff0c;所使用的数据是上证指数2019年的行情数据。

时间相关的数据类型

Pandas时序处理中最常见的两种数据类型为datetime和timedelta。一个datetime可以如下图所示&＃xff1a;

datetime顾名思义就是既有日期date也有时间time&＃xff0c;表示一个具体的时间点&＃xff08;时间戳&＃xff09;。timedelta则表示两个时间点之间的差&＃xff0c;比如2020-01-01和2020-01-02之间的timedelta即为一天&＃xff0c;相信并不难理解。

将时间列转换为时间格式

大多数时候&＃xff0c;我们是从csv文件中导入数据&＃xff0c;此时Dataframe中对应的时间列是字符串的形式&＃xff0c;如下&＃xff1a;

In [5]: data.trade_date.head() Out[5]: 0 20190102 1 20190103 2 20190104 3 20190107 4 20190108 Name: trade_date, dtype: object

运用pd.to_datetime()&＃xff0c;可以将对应的列转换为Pandas中的datetime64类型&＃xff0c;便于后期的处理

In [11]: data["trade_date"] &＃61; pd.to_datetime(data.trade_date)In [12]: data.trade_date.head() Out[12]: 0 2019-01-02 1 2019-01-03 2 2019-01-04 3 2019-01-07 4 2019-01-08 Name: trade_date, dtype: datetime64[ns]

时间序列的索引

时间序列中索引和Pandas普通的索引类似&＃xff0c;大多时候调用.loc[index,columns]进行相应的索引&＃xff0c;直接上代码看看

In [20]: data1 &＃61; data.set_index("trade_date")# 2019年6月的数据 In [21]: data1.loc["2019-06"].head() Out[21]:close open high low trade_date 2019-06-03 2890.0809 2901.7424 2920.8292 2875.9019 2019-06-04 2862.2803 2887.6405 2888.3861 2851.9728 2019-06-05 2861.4181 2882.9369 2888.7676 2858.5719 2019-06-06 2827.7978 2862.3327 2862.3327 2822.1853 2019-06-10 2852.1302 2833.0145 2861.1310 2824.3554# 2019年6月-2019年8月的数据 In [22]: data1.loc["2019-06":"2019-08"].tail() Out[22]:close open high low trade_date 2019-08-26 2863.5673 2851.0158 2870.4939 2849.2381 2019-08-27 2902.1932 2879.5154 2919.6444 2879.4060 2019-08-28 2893.7564 2901.6267 2905.4354 2887.0115 2019-08-29 2890.9192 2895.9991 2898.6046 2878.5878 2019-08-30 2886.2365 2907.3825 2914.5767 2874.1028

提取出时间/日期的属性

在时序数据处理过程中&＃xff0c;经常需要实现下述需求&＃xff1a;

求某个日期对应的星期数&＃xff08;2019-06-05是第几周&＃xff09;
判断一个日期是周几&＃xff08;2020-01-01是周几&＃xff09;
判断某一日期是第几季度&＃xff08;2019-07-08属于哪个季度&＃xff09;

……

当数据中的时间列&＃xff08;本数据中为trade_date列&＃xff09;已经转换为datetime64格式时&＃xff0c;仅需调用.dt接口&＃xff0c;即可快速求得想要的结果&＃xff0c;下表中列出了.dt接口所提供的常见属性&＃xff1a;

具体演示一下&＃xff08;下面仅显示2019-01-02的信息&＃xff09;&＃xff1a;

# 一年中的第几天 In [13]: data.trade_date.dt.dayofweek[0] Out[13]: 2# 返回对应日期 In [14]: data.trade_date.dt.date[0] Out[14]: datetime.date(2019, 1, 2)# 返回周数 In [15]: data.trade_date.dt.weekofyear[0] Out[15]: 1# 返回周几 In [16]: data.trade_date.dt.weekday_name[0] Out[16]: &＃39;Wednesday&＃39;

resample

resample翻译过来是重采样的意思&＃xff0c;官方文档中是这么描述resample的

resample() is a time-based groupby

翻译过来就是基于时间的groupby操作&＃xff0c;我个人认为这是Pandas时间序列处理中最重要的功能&＃xff0c;也是本文的重中之重。

根据采样是从低频到高频还是从高频到低频可以分为升采样和降采样两种方式&＃xff0c;先来看看降采样是啥

降采样

以一个实例来引入&＃xff0c;我们使用的数据是上证指数2019年的日级别数据&＃xff0c;如果现在想求每季度的平均收盘价&＃xff0c;应该怎么操作呢&＃xff1f;

从日级别数据求季度级别数据&＃xff0c;是从高频到低频的聚合操作&＃xff0c;其实就类似于groupby按季度进行操作&＃xff0c;用resample来写是这样子

In [32]: data.resample(&＃39;Q&＃39;,on&＃61;&＃39;trade_date&＃39;)["close"].mean() Out[32]: trade_date 2019-03-31 2792.941622 2019-06-30 3010.354672 2019-09-30 2923.136748 2019-12-31 2946.752270 Freq: Q-DEC, Name: close, dtype: float64

其中&＃39;Q&＃39;是以季度为频率进行采样&＃xff0c;on指定datetime列&＃xff08;如果索引为Datetimeindex&＃xff0c;则on不需要指定&＃xff0c;默认依据索引进行降采样&＃xff09;。整个过程图解如下&＃xff1a;

整个过程其实就是一个groupby过程&＃xff1a;

对原有的数据按照指定的频率进行切分&＃xff0c;分到不同的group中
对不同的group执行操作
整合操作结果

其中&＃xff0c;切分的频率可以为任何时间频率&＃xff0c;可以为季度Q、月度M、星期W、N天ND&＃xff0c;也可以为时H、分T&＃xff0c;当然&＃xff0c;如果切分后的频率小于原有的时间频率&＃xff0c;就是我们下面要讲的升采样。

升采样

当采样的频率低于原有的频率时&＃xff0c;即为升采样。升采样是对原有的时间粒度更为细粒度的划分&＃xff0c;所以升采样时会产生缺失值。下面取2019-01-02至2019-01-03的数据按照6H的频率演示一下&＃xff1a;

In [24]: example Out[24]:close trade_date 2019-01-02 2465.2910 2019-01-03 2464.3628In [25]: example.resample(&＃39;6H&＃39;).asfreq() Out[25]:close trade_date 2019-01-02 00:00:00 2465.2910 2019-01-02 06:00:00 NaN 2019-01-02 12:00:00 NaN 2019-01-02 18:00:00 NaN 2019-01-03 00:00:00 2464.3628

对resample后的结果应用.asfreq()会返回新频率下的结果。可以看到升采样后产生了缺失值。如果想要填充缺失值可以采用向后填充.bfill()或向前填充.ffill()的方式&＃xff1a;

# 向前填充&＃xff0c;缺失值取2465.2910进行填充 In [29]: example.resample(&＃39;6H&＃39;).ffill() Out[29]:close trade_date 2019-01-02 00:00:00 2465.2910 2019-01-02 06:00:00 2465.2910 2019-01-02 12:00:00 2465.2910 2019-01-02 18:00:00 2465.2910 2019-01-03 00:00:00 2464.3628# 向后填充&＃xff0c;缺失值取2464.3628进行填充 In [30]: example.resample(&＃39;6H&＃39;).bfill() Out[30]:close trade_date 2019-01-02 00:00:00 2465.2910 2019-01-02 06:00:00 2464.3628 2019-01-02 12:00:00 2464.3628 2019-01-02 18:00:00 2464.3628 2019-01-03 00:00:00 2464.3628

总结一下resample&＃xff0c;resample可以对原有的时间序列进行任何频率freq的采样&＃xff0c;如果从低频到高频为升采样&＃xff0c;高频到低频为降采样。整个操作过程和groupby基本一致&＃xff0c;所以也可以对resample后的对象进行apply和transform等操作&＃xff0c;具体操作和原理这里就不多解释了&＃xff0c;类比于groupby即可&＃xff0c;参看这篇文章Pandas数据分析——超好用的Groupby详解。

相关文章&＃xff1a;

Pandas数据处理三板斧——map、apply、applymap详解
Pandas数据分析——超好用的Groupby详解
Pandas数据分析——Merge数据拼接图文详解
提速百倍的Pandas性能优化方法&＃xff0c;让你的Pandas飞起来&＃xff01;
Pandas数据处理——盘点那些常用的函数&＃xff08;上&＃xff09;
Pandas数据处理——盘点那些常用的函数&＃xff08;下&＃xff09;
天秀&＃xff01;Pandas还能用来写爬虫&＃xff1f;
提高数据的颜值&＃xff01;一起看看Pandas中的那些Style

原创不易&＃xff0c;如果觉得有点用&＃xff0c;希望可以点个赞&＃xff0c;拜谢各位老铁&＃xff01;

推荐阅读

merge
NotSupportedException无法将类型“System.DateTime”强制转换为类型“System.Object”

本文介绍了在使用LINQ to Entities时出现的NotSupportedException异常，该异常是由于无法将类型“System.DateTime”强制转换为类型“System.Object”所导致的。同时还介绍了相关的错误信息和解决方法。 ... [详细]

蜡笔小新 2023-12-11 13:41:31
merge
如何使用代理服务器进行网页抓取？

本文介绍了如何使用代理服务器进行网页抓取，并探讨了数据驱动对竞争优势的重要性。通过网页抓取，企业可以快速获取并分析大量与需求相关的数据，从而制定营销战略。同时，网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据，提高销售增长和毛利率。 ... [详细]

蜡笔小新 2023-12-11 13:12:52
merge
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
merge
Pandas 基础(3) - 生成 Dataframe 的几种方式总结

本文总结了使用不同方式生成 Dataframe 的方法，包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项，如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]

蜡笔小新 2023-12-10 12:59:34
search
python3 nmap函数简介及使用方法

本文介绍了python3 nmap函数的简介及使用方法，python-nmap是一个使用nmap进行端口扫描的python库，它可以生成nmap扫描报告，并帮助系统管理员进行自动化扫描任务和生成报告。同时，它也支持nmap脚本输出。文章详细介绍了python-nmap的几个py文件的功能和用途，包括__init__.py、nmap.py和test.py。__init__.py主要导入基本信息，nmap.py用于调用nmap的功能进行扫描，test.py用于测试是否可以利用nmap的扫描功能。 ... [详细]

蜡笔小新 2023-12-10 12:15:27
search
开发笔记:Python之路第一篇：初识Python

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python之路第一篇：初识Python相关的知识，希望对你有一定的参考价值。Python简介& ... [详细]

蜡笔小新 2023-10-17 18:58:48
search
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
char
【爬虫训练场】：分页爬虫案例设计Demo，Python Flask与MySQL的完美连接

网站类应用，一定离不开MySQL，所以本案例将带着大家学习一下，通过Flask调用MySQL数据，并实现分页呈现。类被称作蓝图，它是一个存储操作方法的容器，Flask可以通过Blu ... [详细]

蜡笔小新 2023-10-17 16:00:33
function
动量|收益率_基于MT策略的实战分析

篇首语：本文由编程笔记#小编为大家整理，主要介绍了基于MT策略的实战分析相关的知识，希望对你有一定的参考价值。基于MT策略的实战分析 ... [详细]

蜡笔小新 2023-10-17 15:13:20
function
让你基于jQuery的插件兼容commonjs,amd范例

事变是如许的，我写了一个基于jQuery的插件，在传统的开辟形式中，我们须要如今页面引入jQuery.js，然后在引入我们的插件，我们的插件才运用。然则跟着webpack的鼓起，我 ... [详细]

蜡笔小新 2023-10-16 18:13:51
function
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
function
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
char
使用n3-charts绘制以日期为x轴的数据

本文介绍了如何使用n3-charts绘制以日期为x轴的数据，并提供了相应的代码示例。通过设置x轴的类型为日期，可以实现对日期数据的正确显示和处理。同时，还介绍了如何设置y轴的类型和其他相关参数。通过本文的学习，读者可以掌握使用n3-charts绘制日期数据的方法。 ... [详细]

蜡笔小新 2023-12-10 00:19:21
fetch
Git 命令清单

先记住几个专用名词，如下：Workspace：工作区IndexStage：暂存区Repository：仓库区（或本地仓库）Remote：远程仓库一、新建代码库#在当前目录新建一个G ... [详细]

蜡笔小新 2023-10-17 14:38:56
fetch
关于Perl中split的用法的更多说明 - More clarification about the usage of split in Perl

Ihavethisfollowinginputfile:我有以下输入文件:test.csvdone_cfg,,,,port<0>,clk_in,subcktA,ins ... [详细]

蜡笔小新 2023-10-16 17:45:16

凰媓_935

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章