当前位置: 开发笔记 > 编程语言 > 正文

pandas数据合并与重塑_用Python分析数据的实用姿势

作者：手机用户2502916831 | 来源：互联网 | 2023-10-11 09:44

知识给你力量，无知会给你更强大无畏，且无法预测的力量。前两节内容已介绍如何清理数据，以及常用的分析模型。本文会重点介绍pandas分析功能

知识给你力量&＃xff0c;无知会给你更强大无畏&＃xff0c;且无法预测的力量。

前两节内容已介绍如何清理数据&＃xff0c;以及常用的分析模型。

本文会重点介绍pandas分析功能应用&＃xff0c;包括&＃xff1a;

多层索引、结构重塑、合并关联、交叉透视、分组聚合、时间序列。

然后以一个完整门店型业务项目&＃xff0c;演示如何应用功能完成数据分析任务。

行和列的多层索引

在介绍功能前&＃xff0c;先通过案例快速理解一个关键概念&＃xff1a;多层索引。

在新媒体运营工作中&＃xff0c;我们需要记录每篇文章的阅读量&＃xff0c;而阅读量主要由标题和发送渠道有关。

我们可以用两种形式来记录数据&＃xff1a;

其中第1种更简洁&＃xff0c;也经常是首先&＃xff1b;第二种比较臃肿&＃xff0c;标题名被重复记录。

但如果在此基础上&＃xff0c;增加工作组维度&＃xff0c;即X、Y、Z三个组分别做同样的事&＃xff0c;该如何记录&＃xff1f;

第1种形式中已经无法用单个表格表示&＃xff0c;只能增加第2、第3张表来表示不同工作组&＃xff1b;

但第2种形式可以完美解决&＃xff0c;只需要增加一列“工作组”即可&＃xff0c;如上图右下所示。

如果再想增加更多维度&＃xff0c;比如增加多个自媒体账号&＃xff1b;或者想再增加更多数据&＃xff0c;比如点赞和转发等&＃xff0c;该如何记录呢&＃xff1f;

可以参考第2种形式&＃xff0c;把工作组和账号从列改成行&＃xff0c;用3列记录阅读、点赞、转发数据&＃xff1b;

也可以把现有列扩充成2个维度&＃xff1a;工作组和账号&＃xff0c;一个工作组下分为多个账号&＃xff0c;然后在各个账号下增加阅读、点赞、转发的数据。

可以看到&＃xff0c;同样的数据&＃xff0c;可以通过行和列之间转换&＃xff0c;呈现出不同的形态。

在数据分析过程中&＃xff0c;常需汇总不同维度的数据&＃xff0c;或关联对比多维度数据间的关系。

Pandas分析核心功能

pandas提供了多层次索引结构&＃xff0c;处理多维度数据非常方便。

上面演示的多维度表格数据&＃xff0c;就是用pandas随机生成和处理。

import pathlib import numpy as np import pandas as pd from pandas import MultiIndex as MI path &＃61; list(pathlib.Path.cwd().parents)[1].joinpath(&＃39;data/dataproc/006analysis&＃39;) excel_A_path &＃61; path.joinpath(&＃39;testA.xlsx&＃39;) excel_B_path &＃61; path.joinpath(&＃39;testB.xlsx&＃39;) excel_C_path &＃61; path.joinpath(&＃39;testC.xlsx&＃39;) excel_D_path &＃61; path.joinpath(&＃39;testD.xlsx&＃39;) excel_E_path &＃61; path.joinpath(&＃39;testE.xlsx&＃39;) excel_F_path &＃61; path.joinpath(&＃39;testF.xlsx&＃39;) excel_G_path &＃61; path.joinpath(&＃39;testG.xlsx&＃39;) # 定义维度列表 channel_list &＃61; [&＃39;渠道A&＃39;,&＃39;渠道B&＃39;,&＃39;渠道C&＃39;] title_list &＃61; [&＃39;标题1&＃39;,&＃39;标题2&＃39;,&＃39;标题3&＃39;,&＃39;标题4&＃39;,&＃39;标题5&＃39;] group_list &＃61; [&＃39;工作组X&＃39;,&＃39;工作组Y&＃39;,&＃39;工作组Z&＃39;] account_list &＃61; [&＃39;公众号&＃39;,&＃39;头条号&＃39;,&＃39;知乎&＃39;,&＃39;小红书&＃39;] # 定义某个新媒体工作组在多个渠道下多篇文章标题测试数据 team1 &＃61; pd.Series(np.random.randint(100,1000,15), index&＃61;MI.from_product([channel_list,title_list], names&＃61;[&＃39;渠道&＃39;,&＃39;标题&＃39;]), name&＃61;&＃39;工作组X&＃39;) # 导出Excel表 team1.unstack().to_excel(excel_A_path) team1.to_excel(excel_B_path) # 定义更多工作组 team2 &＃61; pd.Series(np.random.randint(100,1000,15), index&＃61;MI.from_product([channel_list,title_list], names&＃61;[&＃39;渠道&＃39;,&＃39;标题&＃39;]), name&＃61;&＃39;工作组Y&＃39;) # 合并两个Series到DataFrame df &＃61; pd.concat([team1, team2], axis&＃61;1) df.to_excel(excel_C_path) # 增加账号维度&＃xff0c;和工作组一起并入行内 df &＃61; pd.DataFrame(np.random.randint(100,2000,(180,3)), index&＃61;MI.from_product([channel_list, title_list, group_list,account_list], names&＃61;[&＃39;渠道&＃39;,&＃39;标题&＃39;,&＃39;工作组&＃39;,&＃39;账号&＃39;]), columns&＃61;[&＃39;阅读量&＃39;,&＃39;点赞量&＃39;,&＃39;转发量&＃39;]) df.to_excel(excel_D_path) # 把工作组和账号放到列 df.stack().unstack(&＃39;工作组&＃39;).unstack(&＃39;账号&＃39;).unstack().to_excel(excel_E_path) # 只把账号维度放到列 df_result &＃61; df.stack().unstack(&＃39;账号&＃39;).unstack() df_result.to_excel(excel_F_path) # 调整下行内各维度顺序 df_result.index&＃61;MI.from_product([group_list,channel_list,title_list], names&＃61;[&＃39;工作组&＃39;,&＃39;渠道&＃39;,&＃39;标题&＃39;]) df_result.to_excel(excel_G_path)

其中&＃xff0c;用到了2个核心功能&＃xff1a;结构重塑、合并关联&＃xff0c;此外通过to_excel导出xlsx文件方便截图。

结构重塑

pandas中&＃xff0c;Series是1维结构&＃xff0c;包含1维的索引&＃xff1b;DataFrame是2维结构&＃xff0c;包含行和列两个维度索引。DataFrame可以看成是由多个Series共享行索引后的组合体&＃xff0c;如上述案例中用concat方法把两个Series合并成1个DataFrame。

DataFrame在行和列维度&＃xff0c;都可以有多层索引&＃xff0c;并且可以用stack和unstack方法转换行列维度。

还有4个常用方法用于设置行列索引&＃xff1a;reset_index、set_index、T、melt。

# 把所有行索引转为列索引 df &＃61; df_result.reset_index() # 设置行索引 df.set_index([&＃39;工作组&＃39;,&＃39;渠道&＃39;,&＃39;标题&＃39;]) # melt选择部分id列&＃xff0c;其他列转为行数据放在id列后 df.melt(id_vars&＃61;[&＃39;工作组&＃39;,&＃39;渠道&＃39;,&＃39;标题&＃39;]) # 行和列转换 df.T

固定数据结构后&＃xff0c;就可以用索引、筛选、切片等方式访问数据了。

# 获取行索引 df.index # 获取列索引 df.columns # 按列索引 print(df[(&＃39;头条号&＃39;,&＃39;阅读量&＃39;)]) # 按列的某个level索引 print(df[&＃39;头条号&＃39;]) # 按列索引&＃xff0c;效果相同 print(df[&＃39;头条号&＃39;][&＃39;阅读量&＃39;]) # 按行level索引 df.loc[&＃39;工作组X&＃39;] # 按行多层索引 df.loc[(&＃39;工作组X&＃39;,&＃39;渠道A&＃39;)] df.loc[(&＃39;工作组X&＃39;,&＃39;渠道A&＃39;,&＃39;标题1&＃39;)] # 按行列索引 df.loc[(&＃39;工作组X&＃39;,&＃39;渠道A&＃39;,&＃39;标题1&＃39;)][(&＃39;头条号&＃39;)] df.loc[(&＃39;工作组X&＃39;,&＃39;渠道A&＃39;,&＃39;标题1&＃39;)][(&＃39;头条号&＃39;,&＃39;阅读量&＃39;)] # 指明某个维度索引 # 按行索引 df.loc(axis&＃61;0)[&＃39;工作组X&＃39;,:,[&＃39;标题1&＃39;,&＃39;标题3&＃39;]] # 按列索引 df.loc(axis&＃61;1)[[&＃39;公众号&＃39;,&＃39;头条号&＃39;],[&＃39;阅读量&＃39;,&＃39;转发量&＃39;]] # 借助切片器索引 idx &＃61; pd.IndexSlice df.loc[idx[&＃39;工作组X&＃39;, :, [&＃39;标题1&＃39;, &＃39;标题3&＃39;]], idx[&＃39;公众号&＃39;:,&＃39;阅读量&＃39;]] # 借助xs交叉选取&＃xff0c;任意选取某个层级索引 # 按行 df.xs(&＃39;标题1&＃39;,level&＃61;&＃39;标题&＃39;) # 按列 df.xs(&＃39;阅读量&＃39;,level&＃61;1,axis&＃61;1) # 行列交叉 df.xs(&＃39;渠道A&＃39;,level&＃61;&＃39;渠道&＃39;).xs(&＃39;阅读量&＃39;,level&＃61;1,axis&＃61;1)

合并关联

pandas用于合并关联数据的操作主要有4种&＃xff1a;

concat&＃xff0c;可以在行和列上拼接数据&＃xff0c;支持inner和outer两种连接模式&＃xff0c;支持不同维度数据连接&＃xff1b;
append&＃xff0c;concat的简化版&＃xff0c;方便向列和行尾部追加数据&＃xff1b;
merge&＃xff0c;在列维度按某个key合并数据&＃xff0c;和SQL数据库的JOIN操作相似&＃xff0c;支持inner、outer、right和left4种连接模式&＃xff1b;
join&＃xff0c;当key正好是索引时merge方法的特例&＃xff0c;其内部用merge实现。

import numpy as np import pandas as pd df1 &＃61; pd.DataFrame({&＃39;A&＃39;: [&＃39;A0&＃39;, &＃39;A1&＃39;, &＃39;A2&＃39;, &＃39;A3&＃39;], &＃39;B&＃39;: [&＃39;B0&＃39;, &＃39;B1&＃39;, &＃39;B2&＃39;, &＃39;B3&＃39;], &＃39;C&＃39;: [&＃39;C0&＃39;, &＃39;C1&＃39;, &＃39;C2&＃39;, &＃39;C3&＃39;], &＃39;D&＃39;: [&＃39;D0&＃39;, &＃39;D1&＃39;, &＃39;D2&＃39;, &＃39;D3&＃39;]}, index&＃61;range(4)) df2 &＃61; pd.DataFrame({&＃39;A&＃39;: [&＃39;A4&＃39;, &＃39;A5&＃39;, &＃39;A6&＃39;, &＃39;A7&＃39;], &＃39;B&＃39;: [&＃39;B4&＃39;, &＃39;B5&＃39;, &＃39;B6&＃39;, &＃39;B7&＃39;], &＃39;C&＃39;: [&＃39;C4&＃39;, &＃39;C5&＃39;, &＃39;C6&＃39;, &＃39;C7&＃39;], &＃39;D&＃39;: [&＃39;D4&＃39;, &＃39;D5&＃39;, &＃39;D6&＃39;, &＃39;D7&＃39;]}, index&＃61;range(4,8)) df3 &＃61; pd.DataFrame({&＃39;A&＃39;: [&＃39;A8&＃39;, &＃39;A9&＃39;, &＃39;A10&＃39;, &＃39;A11&＃39;], &＃39;B&＃39;: [&＃39;B8&＃39;, &＃39;B9&＃39;, &＃39;B10&＃39;, &＃39;B11&＃39;], &＃39;C&＃39;: [&＃39;C8&＃39;, &＃39;C9&＃39;, &＃39;C10&＃39;, &＃39;C11&＃39;], &＃39;D&＃39;: [&＃39;D8&＃39;, &＃39;D9&＃39;, &＃39;D10&＃39;, &＃39;D11&＃39;]}, index&＃61;range(8,12)) df4 &＃61; pd.DataFrame({&＃39;B&＃39;: [&＃39;B2&＃39;, &＃39;B3&＃39;, &＃39;B6&＃39;, &＃39;B7&＃39;], &＃39;D&＃39;: [&＃39;D2&＃39;, &＃39;D3&＃39;, &＃39;D6&＃39;, &＃39;D7&＃39;], &＃39;F&＃39;: [&＃39;F2&＃39;, &＃39;F3&＃39;, &＃39;F6&＃39;, &＃39;F7&＃39;]}, index&＃61;[2, 3, 6, 7]) # 按行叠加&＃xff0c;可以选择增加一层行索引&＃xff0c;比如表示数据来自哪个数据库 df_concat &＃61; pd.concat([df1,df2,df3], keys&＃61;[&＃39;X&＃39;,&＃39;Y&＃39;,&＃39;Z&＃39;]) # 也可以用dict传递&＃xff0c;效果相同 df_concat_0 &＃61; pd.concat({&＃39;X&＃39;: df1, &＃39;Y&＃39;: df2, &＃39;Z&＃39;: df3}) # 按列叠加&＃xff0c;行索引默认按outer并集&＃xff0c;默认填充NaN df_concat_1 &＃61; pd.concat([df1, df4], axis&＃61;1, sort&＃61;False) # 按列叠加&＃xff0c;行索引按inner交集 df_concat_2 &＃61; pd.concat([df1, df4], axis&＃61;1, join&＃61;&＃39;inner&＃39;) # 用append追加数据&＃xff0c;但不能增加行索引 df_concat_3 &＃61; df1.append(df2).append(df3) df_concat_4 &＃61; df1.append([df2, df3]) # 按列追加&＃xff0c;列不完全一致时会增加行 df_concat_5 &＃61; df1.append(df4) # 按列追加&＃xff0c;忽略行索引&＃xff0c;已有数据不会被覆盖 df_concat_6 &＃61; df1.append(df4,ignore_index&＃61;True) # 类数据库SQL的合并操作 left &＃61; pd.DataFrame({&＃39;key1&＃39;: [&＃39;K0&＃39;, &＃39;K1&＃39;, &＃39;K2&＃39;, &＃39;K3&＃39;], &＃39;key2&＃39;: [&＃39;K0&＃39;, &＃39;K1&＃39;, &＃39;K0&＃39;, &＃39;K1&＃39;], &＃39;A&＃39;: [&＃39;A0&＃39;, &＃39;A1&＃39;, &＃39;A2&＃39;, &＃39;A3&＃39;], &＃39;B&＃39;: [&＃39;B0&＃39;, &＃39;B1&＃39;, &＃39;B2&＃39;, &＃39;B3&＃39;]}) right &＃61; pd.DataFrame({&＃39;key1&＃39;:[&＃39;K0&＃39;, &＃39;K1&＃39;, &＃39;K2&＃39;, &＃39;K3&＃39;], &＃39;key2&＃39;: [&＃39;K0&＃39;, &＃39;K0&＃39;, &＃39;K0&＃39;, &＃39;K0&＃39;], &＃39;C&＃39;: [&＃39;C0&＃39;, &＃39;C1&＃39;, &＃39;C2&＃39;, &＃39;C3&＃39;], &＃39;D&＃39;: [&＃39;D0&＃39;, &＃39;D1&＃39;, &＃39;D2&＃39;, &＃39;D3&＃39;]}) # 列合并&＃xff0c;默认用inner连接模式&＃xff0c;即key同时出现在两组数据时包含该key对应行数据 df_merge &＃61; pd.merge(left, right, on&＃61;&＃39;key1&＃39;) # 用两列key&＃xff0c;inner连接模式&＃xff0c;必须同时存在key1和key2才会包含在结果中 df_merge_inner &＃61; pd.merge(left, right, on&＃61;[&＃39;key1&＃39;,&＃39;key2&＃39;]) # left连接模式&＃xff0c;以left内(key1,key2)为键&＃xff0c;right内没有的数据填NaN df_merge_left &＃61; pd.merge(left, right, how&＃61;&＃39;left&＃39;, on&＃61;[&＃39;key1&＃39;,&＃39;key2&＃39;]) # right连接模式&＃xff0c;以right内(key1,key2)为键 df_merge_right &＃61; pd.merge(left, right, how&＃61;&＃39;right&＃39;, on&＃61;[&＃39;key1&＃39;,&＃39;key2&＃39;]) # outer连接模式&＃xff0c;包含left和right内所有(key1,key2)键组合 df_merge_outer &＃61; pd.merge(left, right, how&＃61;&＃39;outer&＃39;, on&＃61;[&＃39;key1&＃39;,&＃39;key2&＃39;]) pd.merge(left, right, how&＃61;&＃39;inner&＃39;, on&＃61;[&＃39;key1&＃39;, &＃39;key2&＃39;]) # 当key正好是索引时&＃xff0c;可以用merge的简化版&＃xff1a;join left &＃61; pd.DataFrame({&＃39;A&＃39;: [&＃39;A0&＃39;, &＃39;A1&＃39;, &＃39;A2&＃39;], &＃39;B&＃39;: [&＃39;B0&＃39;, &＃39;B1&＃39;, &＃39;B2&＃39;]}, index&＃61;[&＃39;K0&＃39;, &＃39;K1&＃39;, &＃39;K2&＃39;]) right &＃61;pd.DataFrame({&＃39;C&＃39;: [&＃39;C0&＃39;, &＃39;C2&＃39;, &＃39;C3&＃39;], &＃39;D&＃39;: [&＃39;D0&＃39;, &＃39;D2&＃39;, &＃39;D3&＃39;]}, index&＃61;[&＃39;K0&＃39;, &＃39;K2&＃39;, &＃39;K3&＃39;]) # join默认left连接模式 df_join_left &＃61; left.join(right) # 等价的merge操作 df_join_left_0 &＃61; pd.merge(left, right, left_index&＃61;True, right_index&＃61;True, how&＃61;&＃39;left&＃39;) # right连接 df_join_right &＃61; left.join(right, how&＃61;&＃39;right&＃39;) df_join_right_0 &＃61; pd.merge(left, right, left_index&＃61;True, right_index&＃61;True, how&＃61;&＃39;right&＃39;) # outer连接 df_join_outer &＃61; left.join(right, how&＃61;&＃39;outer&＃39;) df_join_outer_0 &＃61; pd.merge(left, right, left_index&＃61;True, right_index&＃61;True, how&＃61;&＃39;outer&＃39;) # inner连接 df_join_inner &＃61; left.join(right, how&＃61;&＃39;inner&＃39;) df_join_inner_0 &＃61; pd.merge(left, right, left_index&＃61;True, right_index&＃61;True, how&＃61;&＃39;inner&＃39;)

关于数据合并的4个方法&＃xff1a;

concat和append相对容易理解&＃xff0c;常用于合并多个数据源。
merge可以理解为pandas在内存中执行SQL连接操作&＃xff0c;功能强大但使用相对复杂&＃xff1b;join使用相对更频繁&＃xff0c;也更易用。

初学者只需了解4个方法使用场景&＃xff0c;掌握常见用法即可。对于复杂情况&＃xff0c;可在使用时参考官方文档应用。

交叉透视

变换数据结构&＃xff0c;有助于发现各维度数据间的关系。

数据结构整理好后&＃xff0c;我们可以通过透视表和分组统计等功能&＃xff0c;对数据展开分析。

比如&＃xff0c;我们想了解“渠道和标题对头条账号文章数据的影响”&＃xff1a;

# 把数据所有维度都变成列 df &＃61; df_result.stack().reset_index() # 查看渠道和标题对头条号的影响 df_pv &＃61; df.pivot_table(index&＃61;[&＃39;渠道&＃39;,&＃39;标题&＃39;],columns&＃61;[&＃39;文章数据&＃39;],values&＃61;[&＃39;头条号&＃39;],aggfunc&＃61;[np.mean])

首先&＃xff0c;我们把数据还原为列&＃xff0c;然后通过pivot_table方法从数据生成透视表。

pandas透视表效果和Excel类似&＃xff0c;都可以方便观察不同维度数据间的关系。

当index和column对应的数据值唯一时&＃xff0c;可以用简化的pivot方法&＃xff0c;省去用aggfunc聚合。

此外&＃xff0c;也可以通过crosstab函数快速交叉对比2个序列数据关系&＃xff0c;它默认统计数据出现频率。

df_s &＃61; pd.DataFrame({ &＃39;A&＃39;:[&＃39;A1&＃39;,&＃39;A2&＃39;,&＃39;A3&＃39;], &＃39;B&＃39;:[&＃39;B1&＃39;,&＃39;B2&＃39;,&＃39;B3&＃39;], &＃39;C&＃39;:[&＃39;C1&＃39;,&＃39;C2&＃39;,&＃39;C3&＃39;], &＃39;D&＃39;:[&＃39;D1&＃39;,&＃39;D2&＃39;,&＃39;D3&＃39;] }) # 当index和column应对的数据唯一时&＃xff0c;可用简化的pivot方法 df_s.pivot(index&＃61;&＃39;A&＃39;,columns&＃61;&＃39;B&＃39;,values&＃61;&＃39;C&＃39;) # 交叉对比任意两个Series间数据关系&＃xff0c;不要求是DataFrame&＃xff0c;默认aggfunc统计频率 pd.crosstab(index&＃61;df_s[&＃39;A&＃39;],columns&＃61;df_s[&＃39;B&＃39;]) # 单层交叉 pd.crosstab(index&＃61;df[&＃39;标题&＃39;],columns&＃61;df[&＃39;文章数据&＃39;],values&＃61;df[&＃39;头条号&＃39;],aggfunc&＃61;np.mean,margins&＃61;True,margins_name&＃61;&＃39;总计&＃39;) # 多层交叉 pd.crosstab(index&＃61;[df[&＃39;渠道&＃39;],df[&＃39;标题&＃39;]],columns&＃61;df[&＃39;文章数据&＃39;],values&＃61;df[&＃39;头条号&＃39;],aggfunc&＃61;np.mean)

分组聚合

分组聚合&＃xff0c;就是先把数据分为多个组&＃xff0c;然后对各组进行计算&＃xff0c;最后把各组计算结果合并到一起。

比如&＃xff0c;为了统计“各工作组的文章总阅读量”&＃xff0c;可以按3步计算&＃xff1a;

把数据按工作组划分成X、Y、Z三组&＃xff1b;
分别统计3个工作组的文章总阅读量&＃xff0c;包括各渠道、账号和标题&＃xff1b;
最后&＃xff0c;输出每个工作组对应的阅读量。

用pandas计算非常方便&＃xff1a;首先用IndexSlice对多层索引切片&＃xff0c;筛选出“阅读量”所在列&＃xff0c;再以“工作组”分组&＃xff0c;然后用sum统计出各个账号阅读量的总和&＃xff0c;最后在列维度用sum(axis&＃61;1)计算各个账号阅读量总和。

idx &＃61; pd.IndexSlice # 统计各个工作组的总阅读量 df.loc[:,idx[:,&＃39;阅读量&＃39;]].groupby(level&＃61;&＃39;工作组&＃39;).sum().sum(axis&＃61;1) # 统计各组在各渠道下总阅读量 df.loc[:,idx[:,&＃39;阅读量&＃39;]].groupby([&＃39;工作组&＃39;,&＃39;渠道&＃39;]).sum()

groupby返回的是一个GroupBy对象&＃xff0c;它有一个groups属性&＃xff0c;包含着每个分组名和对应的索引。

常见的分组方式有4种&＃xff1a;

先过滤再分组&＃xff0c;就像上面使用的&＃xff1b;
先分组&＃xff0c;再过滤&＃xff0c;在GroupBy中过滤出所需要的列&＃xff1b;
以标签形式过滤&＃xff0c;可以把列打上不同标记进行统计&＃xff1b;
以函数分组&＃xff0c;函数会被作用在每个分组列。

df &＃61; df_result idx &＃61; pd.IndexSlice # 统计各个工作组的总阅读量 # 方式1: 先过滤再分组 df.loc[:,idx[:,&＃39;阅读量&＃39;]].groupby(level&＃61;&＃39;工作组&＃39;).sum().sum(axis&＃61;1) # 统计各个渠道的总阅读量 df.loc[:,idx[:,&＃39;阅读量&＃39;]].groupby(&＃39;渠道&＃39;).sum().sum(axis&＃61;1) # 统计各组在各渠道下总阅读量 df.loc[:,idx[:,&＃39;阅读量&＃39;]].groupby([&＃39;工作组&＃39;,&＃39;渠道&＃39;]).sum() # 不用分组生成索引 df.loc[:,idx[:,&＃39;阅读量&＃39;]].groupby(&＃39;工作组&＃39;, as_index&＃61;False).sum() # groupby返回的是GroupBy对象 grp_by &＃61; df.loc[:,idx[:,&＃39;阅读量&＃39;]].groupby(&＃39;工作组&＃39;) grp_by.groups # 返回一个dict对象 # 方式2: 先分组&＃xff0c;再过滤 df.groupby(&＃39;工作组&＃39;)[[(&＃39;公众号&＃39;, &＃39;阅读量&＃39;)]].sum() df.groupby(&＃39;工作组&＃39;)[MI.from_product([account_list,[&＃39;阅读量&＃39;]])].sum().sum(axis&＃61;1) # 方式3: 以标签形式过滤&＃xff0c;传入一个dict&＃xff0c;聚合所需列 mapping &＃61; {c:c[1] for c in list(df.columns)} # 统计各标题总的文章数据 df.groupby(mapping,axis&＃61;1).sum() # 方式4: 以函数分组&＃xff0c;函数会应用在每个分组列 # 如各标题各账号数据总和 df.groupby(lambda x: x[1],axis&＃61;1).sum() # 像dict一样迭代GroupBy对象 for name, group in grp_by: print(name) # 多层索引下可以多层分组形式迭代 for (k1,k2), group in df.groupby([&＃39;工作组&＃39;,&＃39;渠道&＃39;]): print(k1,k2) # 把GroupBy转为dict pieces &＃61; dict(list(df.groupby(&＃39;工作组&＃39;))) pieces[&＃39;工作组X&＃39;] # 获取某个组 groupx &＃61; grp_by.get_group(&＃39;工作组X&＃39;)

分组后&＃xff0c;可以按组进行聚合统计&＃xff0c;主要有3种方式&＃xff1a;

直接在GroupBy对象上调用sum等统计方法&＃xff1b;
通过aggregate方法(或agg缩写)指定统计函数&＃xff1b;
通过apply自定义对每个分组数据处理。

# 数据基本简述统计 grp_by.describe() # 在GroupBy对象上应用聚合类统计函数 grp_by.aggregate(np.mean) # 算数平均 # 应用多个聚合函数,agg是aggregate缩写 grp_by.agg([np.min, np.max, np.mean]) grp_by.agg([np.min, np.max, np.mean]).rename( columns&＃61;{&＃39;amin&＃39;: &＃39;最小值&＃39;,&＃39;amax&＃39;: &＃39;最大值&＃39;,&＃39;mean&＃39;:&＃39;算数平均&＃39;}) # 在不同列应用不同聚合统计函数 # 如果是多层次索引&＃xff0c;先扁平化再处理 df_flat &＃61; df.stack().reset_index() df_flat[df_flat[&＃39;文章数据&＃39;]&＃61;&＃61;&＃39;阅读量&＃39;].groupby(&＃39;工作组&＃39;).agg( {&＃39;公众号&＃39;:np.min,&＃39;头条号&＃39;:np.max,&＃39;知乎&＃39;:np.mean,&＃39;小红书&＃39;:np.median}) # 或者动态生成不同统计函数dict agg_dict &＃61; {} agg_calc &＃61; [np.min, np.max, np.mean, np.median] for ac, calc in zip(account_list, agg_calc): agg_dict.update({col:calc for col in df.columns[ (df.columns.get_level_values(0)&＃61;&＃61;ac) & (df.columns.get_level_values(1)&＃61;&＃61;&＃39;阅读量&＃39;) ]}) grp_by.agg(agg_dict) # 使用自定义聚合函数&＃xff0c;如统计最大最小值的差 grp_by.agg(lambda x: x.max()-x.min()) # 使用更通用的方法处理各个分组数据:apply grp_by.apply(lambda x: x.describe()) # 显示各组的各账号阅读量最高的标题 max_title_f &＃61; lambda x: x.groupby(&＃39;标题&＃39;).max().max() # 显示标题阅读量 grp_by.apply(max_title_f) max_title_f2 &＃61; lambda x: x.unstack().stack(&＃39;账号&＃39;).groupby(&＃39;账号&＃39;).max().idxmax(axis&＃61;1) # 显示哪个标题 grp_by.apply(max_title_f2) # 统计文章数据最优标题 df.stack().groupby([&＃39;工作组&＃39;,&＃39;文章数据&＃39;]).apply(lambda x:x.unstack(&＃39;标题&＃39;).max().idxmax(axis&＃61;1))

时间序列

在数据分析中&＃xff0c;时间是一个重要维度&＃xff0c;比如&＃xff1a;按年/季/月统计销量、同比/环比增长率等。

Python内置了2个模块处理时间&＃xff1a;datetime和time(处理时间戳)。

import time from datetime import datetime # 当前时间 now &＃61; datetime.now() print(now.year, now.month, now.day, now.hour, now.minute, now.second, now.microsecond) # 时间差 delta &＃61; datetime(2020, 9, 1) - datetime(2020, 8, 1, 10, 10, 10) print(delta.days, delta.seconds, delta.microseconds) # 转为字符串 print(str(now)) print(now.strftime(&＃39;%Y-%m-%d&＃39;)) # 从字符串转回datatime数据 print(type(datetime.strptime(&＃39;2020-10-1&＃39;, &＃39;%Y-%m-%d&＃39;))) # 获取当前时间的时间戳&＃xff0c;时间戳是个数字 now_ts &＃61; time.time() # datetime 转时间戳 print(now.timestamp()) # 时间戳转为datetime print(datetime.fromtimestamp(now_ts))

在实际项目中&＃xff0c;为了增强时间数据处理能力&＃xff0c;可以借助三方模块dateutil&＃xff1a;

安装&＃xff1a;pip install python-dateutil。

from dateutil.parser import parse from dateutil import tz, zoneinfo from dateutil.rrule import rrule, MONTHLY,DAILY,WEEKLY,SU # 从文字解析 print(parse(&＃39;Wed&＃39;), parse(&＃39;Sep 12&＃39;), parse(&＃39;2020-08-01&＃39;)) print(parse(&＃39;Today is January 1, 2047 at 8:21:00AM&＃39;, fuzzy_with_tokens&＃61;True)) parse(&＃39;2020-02-24T20:30:20&＃43;08:00&＃39;) # 获取所有时区 zonefile &＃61; zoneinfo.get_zonefile_instance() zonefile.zones.keys() # 获取上海时区当前时间 tz_sh &＃61; tz.gettz(&＃39;Asia/Shanghai&＃39;) now_sh &＃61; datetime.now(tz&＃61;tz_sh) # 时间段生成 start_date &＃61; datetime(2020, 1, 1) # 从start_date开始连续生成4个月的首日 list(rrule(freq&＃61;MONTHLY, count&＃61;4, dtstart&＃61;start_date)) # 从start_date开始连续生成10天 list(rrule(freq&＃61;DAILY, count&＃61;10, dtstart&＃61;start_date)) # 生成两个时间之间的所有周日 list(rrule(WEEKLY,byweekday&＃61;(SU),dtstart&＃61;parse(&＃39;2020-01-01&＃39;),until&＃61;parse(&＃39;2020-12-31&＃39;)))

pandas提供了3种时间索引&＃xff1a;DatetimeIndex、TimedeltaIndex、PeriodIndex。

import pandas as pd # DatetimeIndex类型序列 # 生成连续的时间&＃xff0c;默认频率是天 pd.date_range(&＃39;2020-01-01&＃39;, &＃39;2020-06-30&＃39;) # 生成20天的序列 pd.date_range(start&＃61;&＃39;2020-04-01&＃39;, periods&＃61;20) # 生成每月最后一天 pd.date_range(&＃39;2020-01-01&＃39;, &＃39;2020-12-31&＃39;, freq&＃61;&＃39;M&＃39;) # 生成每月最后一个工作日 pd.date_range(&＃39;2020-01-01&＃39;, &＃39;2020-12-31&＃39;, freq&＃61;&＃39;BM&＃39;) # 生成4小时频率生成时间 pd.date_range(&＃39;2020-01-01&＃39;, &＃39;2020-01-02&＃39;, freq&＃61;&＃39;4h&＃39;) # 生成每月第三个周五 pd.date_range(&＃39;2020-01-01&＃39;, &＃39;2020-06-30&＃39;, freq&＃61;&＃39;WOM-3FRI&＃39;) # Timedelta类型 pd.Timedelta(days&＃61;3, hours&＃61;4) td &＃61; pd.Timedelta(&＃39;31 days 5 min 3 sec&＃39;) print(td.days, td.seconds, td.microseconds) pd.timedelta_range(start&＃61;&＃39;1 days&＃39;, periods&＃61;5) # 比如每隔1小时生成100个打点序列 s &＃61; pd.Series(np.arange(100),index&＃61;pd.timedelta_range(&＃39;1 days&＃39;, periods&＃61;100, freq&＃61;&＃39;h&＃39;)) # 再按天统计打点平均值 s.resample(&＃39;D&＃39;).mean() # PeriodIndex类型序列 # 月度时间 pd.period_range(&＃39;2020-01-01&＃39;, &＃39;2020-06-30&＃39;, freq&＃61;&＃39;M&＃39;) # 季度时间 p_q &＃61; pd.PeriodIndex([&＃39;2020Q1&＃39;, &＃39;2020Q2&＃39;, &＃39;2020Q3&＃39;], freq&＃61;&＃39;Q-DEC&＃39;) # 转为月度时间&＃xff0c;首月和最后月 p_q.asfreq(&＃39;M&＃39;, &＃39;start&＃39;) p_q.asfreq(&＃39;M&＃39;, &＃39;end&＃39;) # 年度时间&＃xff0c;以12月作为结束的一整年 p_y &＃61; pd.period_range(&＃39;2006&＃39;, &＃39;2009&＃39;, freq&＃61;&＃39;A-DEC&＃39;) # 转为每年最后一个工作日 p_y.asfreq(&＃39;B&＃39;, how&＃61;&＃39;end&＃39;)

其中&＃xff0c;主要处理方法有3个&＃xff1a;

to_period&＃xff1a;改变显示单位&＃xff0c;但不做统计&＃xff0c;数据量不变&＃xff1b;
asfreq&＃xff1a;重塑间隔单位&＃xff0c;按单位压缩数据量&＃xff1b;
resample&＃xff1a;统计时间段内数据&＃xff0c;聚合计算。

import numpy as np import pandas as pd s &＃61; pd.Series(np.random.randint(0,100,1000), index&＃61;pd.date_range(&＃39;2020-01-01&＃39;,periods&＃61;1000,freq&＃61;&＃39;H&＃39;)) print(type(s.index)) # DatetimeIndex # 按天/月/季/年显示&＃xff0c;但不统计&＃xff0c;数量不变 s.to_period(&＃39;D&＃39;) # 天 s.to_period(&＃39;M&＃39;) # 月 s.to_period(&＃39;Q&＃39;) # 季 s.to_period(&＃39;A&＃39;) # 年 type(s.to_period(&＃39;A&＃39;).index) # PeriodIndex # 按天显示&＃xff0c;数量减少 s.asfreq(&＃39;D&＃39;) s.asfreq(&＃39;M&＃39;) type(s.asfreq(&＃39;M&＃39;).index) # DatetimeIndex # 按日/月/季/年统计 s.resample(&＃39;D&＃39;).sum().to_period(&＃39;D&＃39;) s.resample(&＃39;M&＃39;).sum().to_period(&＃39;M&＃39;) s.resample(&＃39;Q&＃39;).sum().to_period(&＃39;Q&＃39;) s.resample(&＃39;A&＃39;).sum().to_period(&＃39;A&＃39;) # 按时间字符串过滤 s[&＃39;2020-01&＃39;]

时间序列在业务分析中&＃xff0c;主要用于观察数据增长趋势&＃xff0c;或间隔数据统计&＃xff0c;如年度/季度/月度等。

门店型业务分析实战

还是那句话&＃xff1a;数据分析必须回归业务&＃xff0c;第一步就是设定分析目标。

根据上一节介绍的门店型业务分析重点&＃xff0c;制定具体分析目标&＃xff1a;

门店经营维度&＃xff1a;单店日/月订单量和营收&＃xff0c;全国门店年度营收排名。
用户运营维度&＃xff1a;用FRM模型划分用户等级。
产品服务维度&＃xff1a;单店畅销/滞销产品&＃xff0c;全国TOP10畅销产品。

下面就以最常见的奶茶连锁加盟店作为分析对象&＃xff0c;完成上面3个分析目标。

源数据格式介绍

大部分门店型业务品牌在早期开展业务时&＃xff0c;主要借助POS机收银完成交易闭环&＃xff0c;较少具备全国门店统一分析能力&＃xff0c;数据需要从POS系统导出。

本案例会根据实战项目数据结构&＃xff0c;模拟生成各门店导出的交易数据。

其中1张门店清单表&＃xff0c;记录了门店基本信息&＃xff1b;N张主订单表和副订单明细表记录了每个门店订单数据。

主订单描述了“谁在什么时候哪个店消费了多少钱”&＃xff1b;
副订单表描述了“每个订单具体包括哪些产品及其数量”。

具体数据在学习群获取&＃xff0c;可以直接用生成好的数据&＃xff0c;也可以用Notebook生成自己的数据。

门店经营分析

通过pandas的时间索引&＃xff0c;可以很方便统计时间序列的数据。

# 单个门店&＃xff0c;以订单时间为索引 df_shop &＃61; df_shop.set_index(&＃39;订单日期&＃39;) # 按日/月/季/年统计 df_shop.resample(&＃39;D&＃39;)[&＃39;实付&＃39;].sum().to_period(&＃39;D&＃39;) # 日营收 df_shop.resample(&＃39;M&＃39;)[&＃39;实付&＃39;].sum().to_period(&＃39;M&＃39;) # 月营收 df_shop.resample(&＃39;Q&＃39;)[&＃39;实付&＃39;].sum().to_period(&＃39;Q&＃39;) # 季营收 df_shop.resample(&＃39;A&＃39;)[&＃39;实付&＃39;].sum().to_period(&＃39;A&＃39;) # 年营收 df_shop.resample(&＃39;D&＃39;)[&＃39;订单ID&＃39;].count().to_period(&＃39;D&＃39;) # 日单量 df_shop.resample(&＃39;M&＃39;)[&＃39;订单ID&＃39;].count().to_period(&＃39;M&＃39;) # 月单量

单门店和多门店统计方式一致&＃xff0c;当我们从多个表中加载完数据&＃xff0c;可以用concat方法合并成一个大的DataFrame操作。

# 全国门店 df_shop_list &＃61; [] df_shop_x_list &＃61; [] for i in range(10): print(f&＃39;Reading SP{i:04d}...&＃39;) df_shop_x_list.append(pd.read_excel(path.joinpath(f&＃39;SP{i:04d}_X.xlsx&＃39;))) df_shop_list.append(pd.read_excel(path.joinpath(f&＃39;SP{i:04d}.xlsx&＃39;))) print(len(df_shop_list), len(df_shop_x_list)) # 合并成大表 df_shops &＃61; pd.concat(df_shop_list, ignore_index&＃61;True) df_shops_x &＃61; pd.concat(df_shop_x_list, ignore_index&＃61;True) # 调整索引 df_shops.set_index(&＃39;订单日期&＃39;, inplace&＃61;True) del df_shops[&＃39;Unnamed: 0&＃39;] # 统计历年全国门店年度营收 s_all_ym &＃61; df_shops.reset_index().groupby([pd.Grouper(key&＃61;&＃39;订单日期&＃39;,freq&＃61;&＃39;A&＃39;), pd.Grouper(key&＃61;&＃39;门店ID&＃39;) ])[&＃39;实付&＃39;].sum().unstack(&＃39;门店ID&＃39;).to_period(&＃39;A&＃39;).stack(&＃39;门店ID&＃39;) # 历年来单店年营收排名 df_all_ym &＃61; pd.DataFrame({&＃39;年营收&＃39;:s_all_ym}) df_all_ym.sort_values(by&＃61;&＃39;年营收&＃39;) df_all_ym[&＃39;全对比排名&＃39;]&＃61;df_all_ym[&＃39;年营收&＃39;].rank(ascending&＃61;False) df_all_ym[&＃39;按年排名&＃39;]&＃61;df_all_ym.groupby(level&＃61;0, as_index&＃61;False).apply(lambda x: x[&＃39;年营收&＃39;].rank(ascending&＃61;False)).droplevel(0) # 全国门店年度营收统计 df_shops.groupby(&＃39;门店ID&＃39;)[&＃39;实付&＃39;].apply(lambda x: x.resample(&＃39;A&＃39;).sum().to_period(&＃39;A&＃39;))

用户运营分析

通过时间维度的聚合&＃xff0c;可以很方便观察用户消费频率和金额。

# 近半年消费过的用户 s &＃61; df_shop.loc[&＃39;2020-01-01&＃39;:&＃39;2020-06-30&＃39;][&＃39;用户ID&＃39;].value_counts() # 按客户维度统计&＃xff1a;首次/最后一次消费时间&＃xff0c;近Q/半年/1年消费次数 grp_user &＃61; df_shop.reset_index().groupby(&＃39;用户ID&＃39;) grp_user_q &＃61; df_shop.loc[&＃39;2020-04-01&＃39;:&＃39;2020-06-30&＃39;] grp_user_h &＃61; df_shop.loc[&＃39;2020-01-01&＃39;:&＃39;2020-06-30&＃39;] grp_user_y &＃61; df_shop.loc[&＃39;2019-07-01&＃39;:&＃39;2020-06-30&＃39;] df_user_rf &＃61; pd.DataFrame({ &＃39;首次消费&＃39;:grp_user.first()[&＃39;订单日期&＃39;], &＃39;最后一次消费&＃39;:grp_user.last()[&＃39;订单日期&＃39;], &＃39;近Q消费次数&＃39;:grp_user_q[&＃39;用户ID&＃39;].value_counts(), &＃39;近半年消费次数&＃39;:grp_user_h[&＃39;用户ID&＃39;].value_counts(), &＃39;近1年消费次数&＃39;:grp_user_y[&＃39;用户ID&＃39;].value_counts(), &＃39;截止目前总消费次数&＃39;:df_shop[&＃39;用户ID&＃39;].value_counts()}).fillna(0) # 统计&＃xff1a;总消费金额、近Q/半年/1年消费金额 df_user_m &＃61; pd.DataFrame({ &＃39;累计总消费金额&＃39;:grp_user[&＃39;实付&＃39;].sum(), &＃39;近Q消费金额&＃39;:grp_user_q.groupby(&＃39;用户ID&＃39;)[&＃39;实付&＃39;].sum(), &＃39;近半年消费金额&＃39;:grp_user_h.groupby(&＃39;用户ID&＃39;)[&＃39;实付&＃39;].sum(), &＃39;近1年消费金额&＃39;:grp_user_y.groupby(&＃39;用户ID&＃39;)[&＃39;实付&＃39;].sum()}).fillna(0) # 活跃人群&＃xff1a;统计近Q有消费的人群 df_user_rf[df_user_rf[&＃39;近Q消费次数&＃39;]>0] # 流失预警&＃xff1a;统计近半年有消费&＃xff0c;近一个Q没消费的人群 df_user_rf[(df_user_rf[&＃39;近半年消费次数&＃39;]>0) & (df_user_rf[&＃39;近Q消费次数&＃39;]<1)] # 流失用户&＃xff1a;统计近1年都没有消费的人群 df_user_rf[df_user_rf[&＃39;近1年消费次数&＃39;]<1] # 年消费额中位数之上人群 median &＃61; df_user_m[&＃39;近1年消费金额&＃39;].median() df_user_m[df_user_m[&＃39;近1年消费金额&＃39;]>median].sort_values(by&＃61;&＃39;近1年消费金额&＃39;,ascending&＃61;False) # 查看消费最高用户在2020年的消费记录 df_shop[&＃39;2020&＃39;][df_shop[&＃39;用户ID&＃39;]&＃61;&＃61;&＃39;U00000059&＃39;]

根据RFM模型&＃xff0c;我们可以把用户划分成多个等级&＃xff0c;可以借助cut方法对区间段划分。

# 汇总用户表 df_user&＃61;pd.concat([df_user_rf,df_user_m], axis&＃61;1) # 假设按近1年消费额定义4个用户等级 # (0, 2000], (2000, 5000], (5000, 10000], (10000, ~] bins &＃61; [0, 2000, 5000, 10000, df_user_m[&＃39;近1年消费金额&＃39;].max()] user_cut &＃61; pd.cut(df_user_m[&＃39;近1年消费金额&＃39;], bins,labels&＃61;[&＃39;钻石&＃39;,&＃39;黄金&＃39;,&＃39;白银&＃39;,&＃39;青铜&＃39;]) user_cut.value_counts()

根据返回结果&＃xff0c;还可以继续调整区间段&＃xff0c;辅助等级定义。

产品服务分析

一般交易系统都会把订单和订单明细单独存放&＃xff0c;好在pandas支持重复索引&＃xff0c;当分别加载完2张表后&＃xff0c;可以用merge方法按订单号合并后分析。

# 单店分析 df_shop &＃61; pd.read_excel(path.joinpath(&＃39;sample_SP0000.xlsx&＃39;)) df_shopx &＃61; pd.read_excel(path.joinpath(&＃39;sample_SP0000_X.xlsx&＃39;)) # 合并订单表和订单明细表 df_shopa &＃61; df_shop.reset_index().merge(df_shopx, on&＃61;&＃39;订单ID&＃39;, suffixes&＃61;[&＃39;_总订单&＃39;,&＃39;_单项产品&＃39;]).set_index(&＃39;订单日期&＃39;) # 单店分析产品&＃xff0c;统计各产品销售数量 # 历年产品销量统计 df_prod &＃61; pd.DataFrame({&＃39;总销量&＃39;:df_shopa.groupby(&＃39;产品&＃39;)[&＃39;数量&＃39;].sum().sort_values(ascending&＃61;False)}) df_prod[&＃39;总销量排名&＃39;] &＃61; df_prod.rank(ascending&＃61;False) # 统计各年产品销量榜 df_shopa.reset_index().groupby([pd.Grouper(key&＃61;&＃39;订单日期&＃39;,freq&＃61;&＃39;A&＃39;), pd.Grouper(key&＃61;&＃39;产品&＃39;)])[&＃39;数量&＃39;].sum().unstack(&＃39;产品&＃39;).to_period(&＃39;A&＃39;) # 统计2019年最畅销产品 df_shopa[&＃39;2019&＃39;].groupby(&＃39;产品&＃39;)[&＃39;数量&＃39;].sum().sort_values(ascending&＃61;False) # 全国范围分析 df_shopsa &＃61; df_shops.reset_index().merge(df_shops_x, on&＃61;&＃39;订单ID&＃39;, suffixes&＃61;[&＃39;_总订单&＃39;,&＃39;_单项产品&＃39;]).set_index(&＃39;订单日期&＃39;) df_prods &＃61; pd.DataFrame({&＃39;总销量&＃39;:df_shopsa.groupby(&＃39;产品&＃39;)[&＃39;数量&＃39;].sum().sort_values(ascending&＃61;False)}) df_prods[&＃39;总销量排名&＃39;] &＃61; df_prods.rank(ascending&＃61;False) df_prods[df_prods[&＃39;总销量排名&＃39;]<&＃61;10]