热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

elisa数据处理过程图解_Pandas数据处理——玩转时间序列数据

进行金融数据分析或量化研究时,总避免不了时间序列数据的处理,时间序列是指在一定时间内按时间顺序测量的某个变量的取值序列。常见的时间序列数据有一天内随着时
a2546c953d104b6ef7f5589e52d15e5b.png

进行金融数据分析或量化研究时,总避免不了时间序列数据的处理,时间序列是指在一定时间内按时间顺序测量的某个变量的取值序列。常见的时间序列数据有一天内随着时间变化的温度序列,又或者交易时间内不断波动的股票价格序列。Pandas也因其强大的时序处理能力而被广泛应用于金融数据分析,这篇文章为大家介绍一下Pandas中的时间序列处理,所使用的数据是上证指数2019年的行情数据。

b17c20c076d1277ad78949d80e54fe0a.png

时间相关的数据类型

Pandas时序处理中最常见的两种数据类型为datetimetimedelta。一个datetime可以如下图所示:

6300980b9a49c11de0ac437b9fc15761.png

datetime顾名思义就是既有日期date也有时间time,表示一个具体的时间点(时间戳)。timedelta则表示两个时间点之间的差,比如2020-01-012020-01-02之间的timedelta即为一天,相信并不难理解。

将时间列转换为时间格式

大多数时候,我们是从csv文件中导入数据,此时Dataframe中对应的时间列是字符串的形式,如下:

In [5]: data.trade_date.head()
Out[5]:
0 20190102
1 20190103
2 20190104
3 20190107
4 20190108
Name: trade_date, dtype: object

运用pd.to_datetime(),可以将对应的列转换为Pandas中的datetime64类型,便于后期的处理

In [11]: data["trade_date"] = pd.to_datetime(data.trade_date)In [12]: data.trade_date.head()
Out[12]:
0 2019-01-02
1 2019-01-03
2 2019-01-04
3 2019-01-07
4 2019-01-08
Name: trade_date, dtype: datetime64[ns]

时间序列的索引

时间序列中索引和Pandas普通的索引类似,大多时候调用.loc[index,columns]进行相应的索引,直接上代码看看

In [20]: data1 = data.set_index("trade_date")# 2019年6月的数据
In [21]: data1.loc["2019-06"].head()
Out[21]:close open high low
trade_date
2019-06-03 2890.0809 2901.7424 2920.8292 2875.9019
2019-06-04 2862.2803 2887.6405 2888.3861 2851.9728
2019-06-05 2861.4181 2882.9369 2888.7676 2858.5719
2019-06-06 2827.7978 2862.3327 2862.3327 2822.1853
2019-06-10 2852.1302 2833.0145 2861.1310 2824.3554# 2019年6月-2019年8月的数据
In [22]: data1.loc["2019-06":"2019-08"].tail()
Out[22]:close open high low
trade_date
2019-08-26 2863.5673 2851.0158 2870.4939 2849.2381
2019-08-27 2902.1932 2879.5154 2919.6444 2879.4060
2019-08-28 2893.7564 2901.6267 2905.4354 2887.0115
2019-08-29 2890.9192 2895.9991 2898.6046 2878.5878
2019-08-30 2886.2365 2907.3825 2914.5767 2874.1028

提取出时间/日期的属性

在时序数据处理过程中,经常需要实现下述需求:

  • 求某个日期对应的星期数(2019-06-05是第几周)
  • 判断一个日期是周几(2020-01-01是周几)
  • 判断某一日期是第几季度(2019-07-08属于哪个季度)

……

当数据中的时间列(本数据中为trade_date列)已经转换为datetime64格式时,仅需调用.dt接口,即可快速求得想要的结果,下表中列出了.dt接口所提供的常见属性:

6f7e363a3bbd4d7782fd5e8c876d2216.png

具体演示一下(下面仅显示2019-01-02的信息):

# 一年中的第几天
In [13]: data.trade_date.dt.dayofweek[0]
Out[13]: 2# 返回对应日期
In [14]: data.trade_date.dt.date[0]
Out[14]: datetime.date(2019, 1, 2)# 返回周数
In [15]: data.trade_date.dt.weekofyear[0]
Out[15]: 1# 返回周几
In [16]: data.trade_date.dt.weekday_name[0]
Out[16]: 'Wednesday'

resample

resample翻译过来是重采样的意思,官方文档中是这么描述resample

resample() is a time-based groupby

翻译过来就是基于时间groupby操作,我个人认为这是Pandas时间序列处理中最重要的功能,也是本文的重中之重。

根据采样是从低频到高频还是从高频到低频可以分为升采样降采样两种方式,先来看看降采样是啥

  • 降采样

以一个实例来引入,我们使用的数据是上证指数2019年的日级别数据,如果现在想求每季度的平均收盘价,应该怎么操作呢?

从日级别数据求季度级别数据,是从高频到低频聚合操作,其实就类似于groupby按季度进行操作,用resample来写是这样子

In [32]: data.resample('Q',on='trade_date')["close"].mean()
Out[32]:
trade_date
2019-03-31 2792.941622
2019-06-30 3010.354672
2019-09-30 2923.136748
2019-12-31 2946.752270
Freq: Q-DEC, Name: close, dtype: float64

其中'Q'是以季度为频率进行采样,on指定datetime列(如果索引为Datetimeindex,则on不需要指定,默认依据索引进行降采样)。整个过程图解如下:

6495a8dfbec78a607d8df028bb55db1b.png

整个过程其实就是一个groupby过程:

  • 对原有的数据按照指定的频率进行切分,分到不同的group
  • 对不同的group执行操作
  • 整合操作结果

其中,切分的频率可以为任何时间频率,可以为季度Q、月度M、星期W、N天ND,也可以为时H、分T,当然,如果切分后的频率小于原有的时间频率,就是我们下面要讲的升采样。

  • 升采样

当采样的频率低于原有的频率时,即为升采样。升采样是对原有的时间粒度更为细粒度的划分,所以升采样时会产生缺失值。下面取2019-01-022019-01-03的数据按照6H的频率演示一下:

In [24]: example
Out[24]:close
trade_date
2019-01-02 2465.2910
2019-01-03 2464.3628In [25]: example.resample('6H').asfreq()
Out[25]:close
trade_date
2019-01-02 00:00:00 2465.2910
2019-01-02 06:00:00 NaN
2019-01-02 12:00:00 NaN
2019-01-02 18:00:00 NaN
2019-01-03 00:00:00 2464.3628

resample后的结果应用.asfreq()会返回新频率下的结果。可以看到升采样后产生了缺失值。如果想要填充缺失值可以采用向后填充.bfill()或向前填充.ffill()的方式:

# 向前填充,缺失值取2465.2910进行填充
In [29]: example.resample('6H').ffill()
Out[29]:close
trade_date
2019-01-02 00:00:00 2465.2910
2019-01-02 06:00:00 2465.2910
2019-01-02 12:00:00 2465.2910
2019-01-02 18:00:00 2465.2910
2019-01-03 00:00:00 2464.3628# 向后填充,缺失值取2464.3628进行填充
In [30]: example.resample('6H').bfill()
Out[30]:close
trade_date
2019-01-02 00:00:00 2465.2910
2019-01-02 06:00:00 2464.3628
2019-01-02 12:00:00 2464.3628
2019-01-02 18:00:00 2464.3628
2019-01-03 00:00:00 2464.3628

总结一下resample,resample可以对原有的时间序列进行任何频率freq的采样,如果从低频到高频为升采样,高频到低频为降采样。整个操作过程和groupby基本一致,所以也可以对resample后的对象进行applytransform等操作,具体操作和原理这里就不多解释了,类比于groupby即可,参看这篇文章Pandas数据分析——超好用的Groupby详解。

相关文章:

  1. Pandas数据处理三板斧——map、apply、applymap详解
  2. Pandas数据分析——超好用的Groupby详解
  3. Pandas数据分析——Merge数据拼接图文详解
  4. 提速百倍的Pandas性能优化方法,让你的Pandas飞起来!
  5. Pandas数据处理——盘点那些常用的函数(上)
  6. Pandas数据处理——盘点那些常用的函数(下)
  7. 天秀!Pandas还能用来写爬虫?
  8. 提高数据的颜值!一起看看Pandas中的那些Style
原创不易,如果觉得有点用,希望可以点个赞,拜谢各位老铁!



推荐阅读
  • NotSupportedException无法将类型“System.DateTime”强制转换为类型“System.Object”
    本文介绍了在使用LINQ to Entities时出现的NotSupportedException异常,该异常是由于无法将类型“System.DateTime”强制转换为类型“System.Object”所导致的。同时还介绍了相关的错误信息和解决方法。 ... [详细]
  • 如何使用代理服务器进行网页抓取?
    本文介绍了如何使用代理服务器进行网页抓取,并探讨了数据驱动对竞争优势的重要性。通过网页抓取,企业可以快速获取并分析大量与需求相关的数据,从而制定营销战略。同时,网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据,提高销售增长和毛利率。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
  • python3 nmap函数简介及使用方法
    本文介绍了python3 nmap函数的简介及使用方法,python-nmap是一个使用nmap进行端口扫描的python库,它可以生成nmap扫描报告,并帮助系统管理员进行自动化扫描任务和生成报告。同时,它也支持nmap脚本输出。文章详细介绍了python-nmap的几个py文件的功能和用途,包括__init__.py、nmap.py和test.py。__init__.py主要导入基本信息,nmap.py用于调用nmap的功能进行扫描,test.py用于测试是否可以利用nmap的扫描功能。 ... [详细]
  • 开发笔记:Python之路第一篇:初识Python
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python之路第一篇:初识Python相关的知识,希望对你有一定的参考价值。Python简介& ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • 【爬虫训练场】:分页爬虫案例设计Demo,Python Flask与MySQL的完美连接
    网站类应用,一定离不开MySQL,所以本案例将带着大家学习一下,通过Flask调用MySQL数据,并实现分页呈现。类被称作蓝图,它是一个存储操作方法的容器,Flask可以通过Blu ... [详细]
  • 动量|收益率_基于MT策略的实战分析
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了基于MT策略的实战分析相关的知识,希望对你有一定的参考价值。基于MT策略的实战分析 ... [详细]
  • 事变是如许的,我写了一个基于jQuery的插件,在传统的开辟形式中,我们须要如今页面引入jQuery.js,然后在引入我们的插件,我们的插件才运用。然则跟着webpack的鼓起,我 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 本文介绍了如何使用n3-charts绘制以日期为x轴的数据,并提供了相应的代码示例。通过设置x轴的类型为日期,可以实现对日期数据的正确显示和处理。同时,还介绍了如何设置y轴的类型和其他相关参数。通过本文的学习,读者可以掌握使用n3-charts绘制日期数据的方法。 ... [详细]
  • 先记住几个专用名词,如下:Workspace:工作区IndexStage:暂存区Repository:仓库区(或本地仓库)Remote:远程仓库一、新建代码库#在当前目录新建一个G ... [详细]
  • Ihavethisfollowinginputfile:我有以下输入文件:test.csvdone_cfg,,,,port<0>,clk_in,subcktA,ins ... [详细]
author-avatar
凰媓_935
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有