python数据分析的交叉分析和分组分析第三次笔记

作者：pbird | 来源：互联网 | 2023-08-23 20:58

python数据分析-第三次笔记–1.交叉分析–2.分组分析1.交叉分析交叉分析的含义是在纵向分析法和横向分析法的基础上，从交叉、立体的角度出发，由浅入深、由低级到高级的一种分析方

python数据分析 -第三次笔记

–1.交叉分析
–2.分组分析

1.交叉分析

交叉分析的含义是在纵向分析法和横向分析法的基础上，从交叉、立体的角度出发，由浅入深、由低级到高级的一种分析方法。这种方法虽然复杂，但它弥补了“各自为政”分析方法所带来的偏差。
其实主要的用法是：用于分析两个变量之间的关系。
交叉分析一定要和假设检验连用会更好
首先，作者的理解是：交叉分析，一定是二维的，需要两个因子，要不无法交叉，那既然交叉了，就可以做成透视表，这两个因子一个为行，一个为列，然后做假设检验，判断P值是否小于0.0.5，这样就更加清晰明了
编程实现：
采用的是T检验假设
*第一步，提取数据

import pandas as pd import numpy as np import scipy.stats as ss import matplotlib.pyplot as plt import seaborn as sns #设置图片的字体 font_scale sns.set_context(font_scale=1.5) df=pd.read_csv("./data/HR.csv") #分组indices获得分组后的数据的索引，下标 #''' dp_indices=df.groupby(by="department").indices #取出left的sales的值 #loc : 通过行标签索引行数据 #iloc : 通过行号索引行数据 sales_values=df["left"].iloc[dp_indices["sales"]].values #取出left的technical的值 technical_values=df["left"].iloc[dp_indices["technical"]].values

*第二步，T检验

#输出这两个变量的t检验的P值 ss.ttest_ind()[1] print(ss.ttest_ind(sales_values,technical_values)[1]) #然后分组后的department数据，按组为一个因子两两求P值 #取出department分组后的keys键名称 dp_keys=list(dp_indices.keys()) #初始化一个dp_t_mat的矩阵 dp_t_mat=np.zeros([len(dp_keys),len(dp_keys)]) #便利每一个数据 for i in range(len(dp_keys)): for j in range(len(dp_keys)): #t检验 p_value=ss.ttest_ind(df["left"].iloc[dp_indices[dp_keys[i]]].values,\ df["left"].iloc[dp_indices[dp_keys[j]]].values)[1] #t检验的P值小于0.05赋-1，就是让heatmap绘出的图形，更加具有区分性 if p_value<0.05: dp_t_mat[i][j]=-1 else: #把P值赋给dp_t_mat矩阵 dp_t_mat[i][j] = p_value

*第三步，绘图

#画图 sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys) plt.show()

《python数据分析的交叉分析和分组分析 -第三次笔记》

*利用透视表，交叉分析

#建一个透视表pd.pivot_table（） #values="left"我们看得值是left,横坐标index设置为promotion_last_5years，再指定一个salary， #纵坐标columns 表示Work_accident，聚合方法aggfunc，设为平均数，是一个函数 piv_tb=pd.pivot_table(df,values="left",index=["promotion_last_5years","salary"],\ columns=["Work_accident"],aggfunc=np.mean) #画图，透视表，填入这张表piv_tb，最小值vmin,最大值vmax,颜色cmap sns.heatmap(piv_tb,vmin=0,vmax=1,cmap=sns.color_palette("Reds",n_colors=256)) plt.show()

《python数据分析的交叉分析和分组分析 -第三次笔记》

2.分组分析

*分组分析的含义：是指将客体（问卷、特征、现实）按研究要求进行分类编组，使得同组客体之间的差别小于各种客体之间的差别，进而进行分析研究的方法。
分组分析，一般是利用条形图绘制的，绘制条形图主要是利用seaborn模块的barplot()和countplot()条形图函数。
这里讲一下barplot（）和countplot（）之间的区别：
*barplot(条形图)
条形图表示数值变量与每个矩形高度的中心趋势的估计值，并使用误差线提供关于该估计值附近的不确定性的一些指示。具体用法如下：
*countplot（）绘制
一个计数图可以被认为是一个分类直方图，而不是定量的变量。基本的api和选项与barplot（）相同，因此您可以比较嵌套变量中的计数。（工作原理就是对输入的数据分类，条形图显示各个分类的数量）具体用法如下：
seaborn.countplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, color=None, palette=None, saturation=0.75, dodge=True, ax=None, **kwargs)
注：countplot参数和barplot基本差不多，可以对比着记忆，有一点不同的是countplot中不能同时输入x和y，且countplot没有误差棒。

*分组分析的编程实现

import pandas as pd import matplotlib.pyplot as plt import seaborn as sns #设置图片的字体 font_scale sns.set_context(font_scale=1.5) df=pd.read_csv("./data/HR.csv") #离散分组 #绘条形图 #sns.barplot(x="salary",y="left",hue="department",data=df) #plt.show() #连续分组 sl_s=df["satisfaction_level"] sns.barplot(list(range(len(sl_s))), sl_s.sort_values()) plt.show()

绘图结果
《python数据分析的交叉分析和分组分析 -第三次笔记》

*第二种，利用不纯度（Gini系数）

#可能平方和 def getProbSS(s): if not isinstance(s,pd.core.series.Series): s=pd.Series(s) prt_ary = pd.groupby(s, by=s).count().values / float(len(s)) return sum(prt_ary**2) #求Gini的值 def getGini(s1,s2): d=dict() for i in list(range(len(s1))): d[s1[i]]=d.get(s1[i],[]) + [s2[i]] return 1-sum([getProbSS(d[k])*len(d[k]) / float(len(s1)) for k in d]) print("getGini",getGini(s1,s2))

推荐阅读

int
Python交叉分析学习笔记

Python交叉分析学习笔记本文将介绍两种方法来进行交叉分析：1.独立T检验2.数据透视表。数据源：百度网盘，课程来源：慕课网数据源共包括10个变量，如下：satisfaction ... [详细]

蜡笔小新 2023-09-25 15:44:34
text
在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板

本文介绍了在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板的方法和步骤，包括将ResourceDictionary添加到页面中以及在ResourceDictionary中实现模板的构建。通过本文的阅读，读者可以了解到在Xamarin XAML语言中构建控件模板的具体操作步骤和语法形式。 ... [详细]

蜡笔小新 2023-12-12 17:52:50
text
Python使用支持向量机（SVM）方法对UCI 乳腺癌诊断数据集二分类任务

数据集：本文数据来自UCIrepository美国威斯康星州的乳腺癌诊断数据集，实验所用的编译环境为python3.6，主要引用numpy ... [详细]

蜡笔小新 2023-09-24 09:15:46
case
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
text
引号快捷键_首选项和设置——自定义快捷键

3.3自定义快捷键（CustomizingHotkeys）ChemDraw快捷键由一个XML文件定义，我们可以根据自己的需要， ... [详细]

蜡笔小新 2023-10-17 19:10:46
function
动量|收益率_基于MT策略的实战分析

篇首语：本文由编程笔记#小编为大家整理，主要介绍了基于MT策略的实战分析相关的知识，希望对你有一定的参考价值。基于MT策略的实战分析 ... [详细]

蜡笔小新 2023-10-17 15:13:20
text
人脸检测 pyqt+opencv+dlib

一、实验目标绘制PyQT界面，调用摄像头显示人脸信息。在界面中，用户通过点击不同的按键可以实现多种功能：打开和关闭摄像头， ... [详细]

蜡笔小新 2023-10-17 12:37:18
datetime
开发笔记:共享单车数据分析

篇首语：本文由编程笔记#小编为大家整理，主要介绍了共享单车数据分析相关的知识，希望对你有一定的参考价值。共享单车数据分析和共享单车用户行为分析PPT从数据分 ... [详细]

蜡笔小新 2023-10-10 10:55:15
search
从CornerNet到CornerNetLite再到训练自己的数据

从CornerNet到CornerNet-Lite再到训练自己的数据相关论文与代码相关工作CornerNetCornerNet-Lite训练自己的数据一．论文论 ... [详细]

蜡笔小新 2023-09-24 17:39:42
datetime
python数据集_Python 数据集探索与可视化实例指南

翻译：AI研习社（Suen）在今天的文章中，您将学习：如何合并和整理数据，如何探索和分析数据 ... [详细]

蜡笔小新 2023-09-24 09:45:12
string
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
web
ASP.NET2.0数据教程之十四：使用FormView的模板

本文介绍了在ASP.NET 2.0中使用FormView控件来实现自定义的显示外观，与GridView和DetailsView不同，FormView使用模板来呈现，可以实现不规则的外观呈现。同时还介绍了TemplateField的用法和FormView与DetailsView的区别。 ... [详细]

蜡笔小新 2023-12-13 08:07:00
web
mysql字符集和表字符集_Mysql数据库表引擎与字符集

Mysql数据库表引擎与字符集1.服务器处理客户端请求其实不论客户端进程和服务器进程是采用哪种方式进行通信，最后实现的效果都是：客户端进程向服务器进程发送一段文本(MySQL语句) ... [详细]

蜡笔小新 2023-10-16 10:34:13
function
如何在热图中使单元格大小使用R调解数据分辨率？ - How can I make cell size in an heatmap mediate data resolution using R?

Giventhefollowingexample:给出以下示例：X<-matrix(nrow3,ncol3)X[1,]<-c(0.3,0.4,0.45)X ... [详细]

蜡笔小新 2023-09-25 15:42:56
function
开发笔记:如何快速绘制相关系数矩阵

本文由编程笔记#小编为大家整理，主要介绍了如何快速绘制相关系数矩阵相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-09-24 17:24:32

pbird

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章