pandas使用merge实现百倍加速的操作

作者：夹uh山下 | 来源：互联网 | 2022-04-06 07:45

这篇文章主要介绍了pandas使用merge实现百倍加速的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

对于非连续数据集，数据可视化时候需要每七天一个采样点。要求是选择此前最新的数据作为当日的数据展示，譬如今天是2019-06-18，而数据集里只有2019-06-15，那就用2019-06-15的数据作为2019-06-18的数据去描点。

每七天一个采样点，会使得每天展示所选的数据都会有所不同。当时间往后推移一天，日期为2019-06-19，那么最新数据点从2019-06-19开始，第二个就是2019-06-12。这里就需要一个算法来快速的根据当前日期去选出（填充）一系列数据供数据可视化之用。

一个非常直接的实现方法：

先生成一串目标时间序列，从某个开始日到今天为止，每七天一个日期。

把这些日期map到数据集的日期, Eg. {“2019-06-18”:“2019-06-15”…} 。

把map到的数据抽出来用pd.concat接起来。

代码如下：

target_dates = pd.date_range(end=now, periods=100, freq="7D")
full_dates = pd.date_range(start, now).tolist()
org_dates = df.date.tolist()

last_date = None
for d in full_dates:
 if d in org_dates:
  date_map[d] = d
  last_date = d
 elif last_date is not None:
  date_map[d] = last_date
 else:
  continue
new_df = pd.DataFrame()
for td in target_dates:
 new_df = pd.concat（[new_df, df[df["date"]==date_map[td]]）

这样的一个算法处理一个接近千万量级的数据集上大概需要十多分钟。仔细检查发现，每一次合并的dataframe数据量并不小，而且总的操作次数达到上万次。

所以就想如何避免高频次地使用pd.concat去合并dataframe。

最终想到了一个巧妙的方法，只需要修改一下前面的第三步，把日期的map转换成dataframe，然后和原始数据集做merge操作就可以了。

target_dates = pd.date_range(end=now, periods=100, freq="7D")
full_dates = pd.date_range(start, now).tolist()
org_dates = df.date.tolist()

last_date = None
for d in full_dates:
 if d in org_dates:
  date_map[d] = d
  last_date = d
 elif last_date is not None:
  date_map[d] = last_date
 else:
  continue
  
#### main change is from here #####
date_map_list = []
for td in target_dates:
 date_map_list.append({"target_date":td, "org_date":date_map[td]}) 
date_map_df = pd.DataFrame(date_map_list)
new_df = date_map_df.merge(df, left_on=["org_date"], right_on=["date"], how="inner")

改进之后，所有的循环操作都在一个微数量级上，最后一个merge操作得到了所有有用的数据，运行时间在5秒左右，大大提升了性能。

补充：Pandas DataFrames 中 merge 合并的坑点(出现重复连接键)

在我的实际开发中遇到的坑点，查阅了相关文档总结一下

left = pd.DataFrame({'A': [1, 2], 'B': [2, 2]})

right = pd.DataFrame({'A': [4, 5, 6], 'B': [2, 2, 2]})

result = pd.merge(left, right, on='B', how='outer')

警告:在重复键上加入/合并可能导致返回的帧是行维度的乘法，这可能导致内存溢出。在加入大型DataFrame之前，重复值。

检查重复键

如果知道右侧的重复项DataFrame但希望确保左侧DataFrame中没有重复项，则可以使用该 validate='one_to_many'参数，这不会引发异常。

pd.merge(left, right, on='B', how='outer', validate="one_to_many")
 
# 打印的结果:
 A_x B A_y
0 1 1 NaN
1 2 2 4.0
2 2 2 5.0
3 2 2 6.0

参数：

validate : str, optional
If specified, checks if merge is of specified type.

“one_to_one” or “1:1”: check if merge keys are unique in both left and right datasets.
“one_to_many” or “1:m”: check if merge keys are unique in left dataset.
“many_to_one” or “m:1”: check if merge keys are unique in right dataset.
“many_to_many” or “m:m”: allowed, but does not result in checks.

官方文档连接：

Pandas文档中提及 merge

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

算法

推荐阅读

算法
JS进修笔记——闭包的运转机制和作用域

本文介绍了闭包的定义和运转机制，重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则，闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]

蜡笔小新 2023-12-14 18:45:00
算法
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
算法
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
算法
C#生成随机数的三种方法及其问题分析

本文介绍了C#中生成随机数的三种方法，并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法，但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数，进一步突显了这个问题。文章指出，随机数生成在任何编程语言中都是必备的功能，但Random类生成的随机数并不可靠。最后，提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]

蜡笔小新 2023-12-14 14:15:30
算法
qt学习(六)数据库注册用户的实现方法

本文介绍了在qt学习中实现数据库注册用户的方法，包括登录按钮按下后出现注册页面、账号可用性判断、密码格式判断、邮箱格式判断等步骤。具体实现过程包括UI设计、数据库的创建和各个模块调用数据内容。 ... [详细]

蜡笔小新 2023-12-14 13:29:32
自动驾驶
2020年AI产业报告：100个岗位抢1个人，计算机视觉成最大缺口

“你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间，这是我们最战战兢兢的心情。但是显然，有些人体会不了。这份行业数据，让笔者“柠檬” ... [详细]

蜡笔小新 2023-12-14 12:23:22
算法
生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks（论文下载链接arxiv：[h ... [详细]

蜡笔小新 2023-12-14 11:39:45
机器学习
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
算法
无线认证设置故障排除方法及注意事项

本文介绍了解决无线认证设置故障的方法和注意事项，包括检查无线路由器工作状态、关闭手机休眠状态下的网络设置、重启路由器、更改认证类型、恢复出厂设置和手机网络设置等。通过这些方法，可以解决无线认证设置可能出现的问题，确保无线网络正常连接和上网。同时，还提供了一些注意事项，以便用户在进行无线认证设置时能够正确操作。 ... [详细]

蜡笔小新 2023-12-14 10:32:21
人工智能
游戏开发中的人工智能技术及分类介绍

本文介绍了游戏开发中的人工智能技术，包括定性行为和非定性行为的分类。定性行为是指特定且可预测的行为，而非定性行为则具有一定程度的不确定性。其中，追逐算法是定性行为的具体实例。 ... [详细]

蜡笔小新 2023-12-14 10:22:59
算法
JavaScript设计模式之策略模式（Strategy Pattern）的优势及应用

本文介绍了JavaScript设计模式之策略模式（Strategy Pattern）的定义和优势，策略模式可以避免代码中的多重判断条件，体现了开放-封闭原则。同时，策略模式的应用可以使系统的算法重复利用，避免复制粘贴。然而，策略模式也会增加策略类的数量，违反最少知识原则，需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例，说明了策略模式的应用场景和实现方式。 ... [详细]

蜡笔小新 2023-12-14 09:31:45
算法
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
算法
相机防抖设置详解及使用方法

本文详细介绍了相机防抖的设置方法和使用技巧，包括索尼防抖设置、VR和Stabilizer档位的选择、机身菜单设置等。同时解释了相机防抖的原理，包括电子防抖和光学防抖的区别，以及它们对画质细节的影响。此外，还提到了一些运动相机的防抖方法，如大疆的Osmo Action的Rock Steady技术。通过本文，你将更好地理解相机防抖的重要性和使用技巧，提高拍摄体验。 ... [详细]

蜡笔小新 2023-12-13 20:39:20
算法
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
算法
无损压缩算法专题——LZSS算法实现

本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ... [详细]

蜡笔小新 2023-12-13 19:47:31

夹uh山下

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章