python数据可视化seaborn（四）——分类数据可视化

作者：diy2099_d94639 | 来源：互联网 | 2023-10-12 14:56

之前的文章关注的是两个变量都是数值变量的情况,当有一个变量是分类变量的时候&＃xff0c;我们就需要其他类型的图形来展示分析数据。在seaborn中有多种类型的图形且非常易于上手。import num

之前的文章关注的是两个变量都是数值变量的情况,当有一个变量是分类变量的时候&＃xff0c;我们就需要其他类型的图形来展示分析数据。在seaborn中有多种类型的图形且非常易于上手。

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inlinesns.set(style&＃61;"whitegrid",font_scale&＃61;1.4,context&＃61;"paper") # 设置风格、尺度 import warnings warnings.filterwarnings(&＃39;ignore&＃39;) # 不发出警告

seaborn中&＃xff0c;分类图主要分为三个部分&＃xff1a;

分类散点图&＃xff1a;
- stripplot(默认&＃xff0c;kind &＃61; “strip”)
- swarmplot(kind &＃61; “swarm”)
分类分布图&＃xff1a;
- boxplot(kind&＃61;“box”)
- violinplot(kind&＃61;“violin”)
- boxenplot(kind&＃61;“boxen”)
分类估计图&＃xff1a;
- pointplot(kind&＃61;“point”)
- barplot(kind&＃61;“bar”)
- countplot(kind&＃61;“count”)

以上三种系列分别代表了不同粒度级别的数据。当然&＃xff0c;在实际使用的过程中&＃xff0c;其实没有必要记住这么多&＃xff0c;因为seaborn中的分类系列有统一的图形界面catplot(),只需要这一个函数&＃xff0c;就能访问所有分类图像类型。

分类散点图

seaborn.stripplot(x&＃61;None, y&＃61;None, hue&＃61;None, data&＃61;None, order&＃61;None, hue_order&＃61;None, jitter&＃61;True, dodge&＃61;False, orient&＃61;None, color&＃61;None, palette&＃61;None, size&＃61;5, edgecolor&＃61;‘gray’, linewidth&＃61;0, ax&＃61;None, **kwargs)

jitter : 是否抖动&＃xff0c;True&＃xff0c;false or float
dodge : 当有hue参数时&＃xff0c;是否沿轴分离不同颜色
orient : 图形方向&＃xff0c;垂直&＃xff08;“v”&＃xff09;或者水平(“h”)

# 1、catplot() 默认情况下&＃xff0c;kind&＃61;&＃39;strip&＃39; # 按照不同类别对样本数据进行分布散点图绘制tips &＃61; sns.load_dataset("tips") print(tips.head()) # 加载数据sns.catplot(x&＃61;"day", # x → 设置分组统计字段y&＃61;"total_bill", # y → 数据分布统计字段# 这里xy数据对调&＃xff0c;将会使得散点图横向分布data&＃61;tips, # data → 对应数据jitter &＃61; True, height&＃61;6, #当点数据重合较多时&＃xff0c;jitter可以控制点抖动&＃xff0c;也可以设置间距如&＃xff1a;jitter &＃61; 0.1s &＃61; 6, edgecolor &＃61; &＃39;w&＃39;,linewidth&＃61;1,marker &＃61; &＃39;o&＃39; , # 设置点的大小、描边颜色或宽度、点样式)

total_bill tip sex smoker day time size 0 16.99 1.01 Female No Sun Dinner 2 1 10.34 1.66 Male No Sun Dinner 3 2 21.01 3.50 Male No Sun Dinner 3 3 23.68 3.31 Male No Sun Dinner 2 4 24.59 3.61 Female No Sun Dinner 4

在这里插入图片描述

# 1、stripplot() # 通过kind&＃61;&＃39;swarm&＃39; 来调整点防止重合sns.catplot(x&＃61;"day", y&＃61;"total_bill",kind&＃61;&＃39;swarm&＃39;,hue&＃61;&＃39;sex&＃39;,data&＃61;tips,height&＃61;5,s&＃61;5.5) # 通过让点沿轴分布来防止重合&＃xff0c;这只使用与较小数据集

在这里插入图片描述

# 1、stripplot() # 设置调色盘sns.catplot(x&＃61;"sex", y&＃61;"total_bill", hue&＃61;"day",data&＃61;tips, jitter&＃61;True,palette&＃61;"Set2", # 设置调色盘dodge&＃61;True, # 是否拆分)

在这里插入图片描述

# 排序 print(tips[&＃39;day&＃39;].value_counts()) # 查看day字段的唯一值sns.catplot(x&＃61;"day", y&＃61;"total_bill", data&＃61;tips,order &＃61; [&＃39;Sun&＃39;,&＃39;Sat&＃39;]) # order → 筛选类别,控制排序

Sat 87 Sun 76 Thur 62 Fri 19 Name: day, dtype: int64

在这里插入图片描述

分类分布图

箱线图 boxplot()

seaborn.boxplot(x&＃61;None, y&＃61;None, hue&＃61;None, data&＃61;None, order&＃61;None, hue_order&＃61;None, orient&＃61;None, color&＃61;None, palette&＃61;None, saturation&＃61;0.75, width&＃61;0.8, dodge&＃61;True, fliersize&＃61;5, linewidth&＃61;None, whis&＃61;1.5, notch&＃61;False, ax&＃61;None, **kwargs)

saturation : float,颜色饱和度
fliersize : 异常值标记的大小
whis : float,超出IQR多少比例被视为异常值&＃xff0c;默认1.5
notch : 是否用中位数设置凹槽

# 箱线图 catplot(kind&＃61;&＃39;box&＃39;) sns.catplot(x&＃61;&＃39;day&＃39;, y&＃61;&＃39;total_bill&＃39;, data&＃61;tips,kind&＃61;&＃39;box&＃39;,linewidth&＃61;2, # 线宽width&＃61;0.6, # 箱之间的间隔比例fliersize&＃61;5, # 异常点大小palette&＃61;&＃39;hls&＃39;, # 调色板whis&＃61;1.5, # 设置IQRnotch&＃61;True, # 设置是否用中位数做凹槽order&＃61;[&＃39;Thur&＃39;, &＃39;Fri&＃39;, &＃39;Sat&＃39;, &＃39;Sun&＃39;], #筛选类别)

在这里插入图片描述

# 通过hue参数再分类 # 多种类型图混合# 绘制箱型图 sns.catplot(x&＃61;"day", y&＃61;"total_bill", data&＃61;tips,kind&＃61;&＃39;box&＃39;,hue &＃61; &＃39;smoker&＃39;,height&＃61;6)# 绘制散点图 sns.swarmplot(x&＃61;"day", y&＃61;"total_bill", data&＃61;tips,color &＃61;&＃39;k&＃39;,s&＃61; 3,alpha &＃61; 0.8) # 添加分类散点图&＃xff0c;这里添加散点图要用各自的函数swarmplot() # 不能再用高级端口catplot() 否则就是两个图了

在这里插入图片描述

对于数据量较大的数据集&＃xff0c;散点图会显的很拥挤&＃xff0c;这时我们可以使用boxenplot(),这种图表类似箱线图&＃xff0c;既能够展示数据的分布也可以如箱线图展示数据的统计信息

diamonds &＃61; sns.load_dataset("diamonds") print(diamonds.head(3)) sns.catplot(x&＃61;&＃39;color&＃39;,y&＃61;&＃39;price&＃39;,kind&＃61;&＃39;boxen&＃39;,data&＃61;diamonds.sort_values("color"),height&＃61;6)

carat cut color clarity depth table price x y z 0 0.23 Ideal E SI2 61.5 55.0 326 3.95 3.98 2.43 1 0.21 Premium E SI1 59.8 61.0 326 3.89 3.84 2.31 2 0.23 Good E VS1 56.9 65.0 327 4.05 4.07 2.31

在这里插入图片描述

提琴图

小提琴图将核密度估计和箱线图结合起来

seaborn.violinplot(x&＃61;None, y&＃61;None, hue&＃61;None, data&＃61;None, order&＃61;None, hue_order&＃61;None, bw&＃61;‘scott’, cut&＃61;2, scale&＃61;‘area’, scale_hue&＃61;True, gridsize&＃61;100, width&＃61;0.8, inner&＃61;‘box’, split&＃61;False, dodge&＃61;True, orient&＃61;None, linewidth&＃61;None, color&＃61;None, palette&＃61;None, saturation&＃61;0.75, ax&＃61;None, **kwargs)

bw : (“scott”,“silverman”,float),核大小的比例因子&＃xff0c;实际效果是越大越平滑。
cut : float,用于将密度扩展到极端数据点之外的距离&＃xff0c;设置为0以将小提琴范围限制在观测数据的范围内。
scale : 小提琴图的宽度&＃xff1a;area-面积相同&＃xff0c;count-按照样本数量决定宽度&＃xff0c;width-宽度一样
scale_hue : bool,当有hue时&＃xff0c;决定实在分组内还是图上所有小提琴计算缩放比例
gridsize : 和必读估计离散网格中的点数&＃xff0c;越高越平滑
inner : &＃xff08;“box”, “quartile”, “point”, “stick”, None&＃xff09;&＃xff0c;内部显示样式
split : 当有颜色嵌套是&＃xff0c;是否分别绘制每侧的小提琴。

# 2、violinplot() # 小提琴图sns.catplot(x&＃61;"day", y&＃61;"total_bill", data&＃61;tips,kind&＃61;&＃39;violin&＃39;,linewidth &＃61; 2, # 线宽width &＃61; 0.8, # 箱之间的间隔比例height&＃61;6,palette &＃61; &＃39;hls&＃39;, # 设置调色板order &＃61; [&＃39;Thur&＃39;,&＃39;Fri&＃39;,&＃39;Sat&＃39;,&＃39;Sun&＃39;], # 筛选类别scale &＃61; &＃39;area&＃39;, # 测度小提琴图的宽度&＃xff1a;# area-面积相同&＃xff0c;count-按照样本数量决定宽度&＃xff0c;width-宽度一样gridsize &＃61; 30, # 设置小提琴图边线的平滑度&＃xff0c;越高越平滑inner &＃61; &＃39;box&＃39;, bw &＃61; .5 # 控制拟合程度&＃xff0c;一般可以不设置)

在这里插入图片描述

# 2、violinplot() # 通过hue参数再分类sns.catplot(x&＃61;"day", y&＃61;"total_bill", data&＃61;tips,kind&＃61;&＃39;violin&＃39;,hue &＃61; &＃39;smoker&＃39;,palette&＃61;"muted", split&＃61;True, # 设置是否拆分小提琴图inner&＃61;"quartile",height&＃61;6)

在这里插入图片描述

# 2、violinplot() # 结合散点图sns.catplot(x&＃61;"day", y&＃61;"total_bill", data&＃61;tips,kind&＃61;&＃39;violin&＃39;,palette &＃61; &＃39;hls&＃39;,inner &＃61; None,height&＃61;6,cut&＃61;0 # 设置为0&＃xff0c;将图限制在观测数据范围内。)# 插入散点图 sns.swarmplot(x&＃61;"day", y&＃61;"total_bill", data&＃61;tips,color&＃61;"k", alpha&＃61;.5)

在这里插入图片描述

统计图

seaborn.barplot(x&＃61;None, y&＃61;None, hue&＃61;None, data&＃61;None, order&＃61;None, hue_order&＃61;None, estimator&＃61;, ci&＃61;95, n_boot&＃61;1000, units&＃61;None, orient&＃61;None, color&＃61;None, palette&＃61;None, saturation&＃61;0.75, errcolor&＃61;’.26’, errwidth&＃61;None, capsize&＃61;None, dodge&＃61;True, ax&＃61;None, **kwargs)

estimator : 分类箱内使用的统计函数
ci : &＃xff08;float,“sd”,None&＃xff09;
units : 变量名称&＃xff0c;对变量的每个采样单独绘制&＃xff0c;可用于绘制重复数据
errwidth : 误差线宽度
capsize : 误差条帽的宽度

# 1、barplot() # 置信区间&＃xff1a;样本均值 &＃43; 抽样误差 titanic &＃61; sns.load_dataset("titanic") # print(titanic.head()) # 加载数据sns.catplot(x&＃61;"sex", y&＃61;"survived", data&＃61;titanic,kind&＃61;&＃39;bar&＃39;,palette &＃61; &＃39;hls&＃39;, hue&＃61;"class",order &＃61; [&＃39;male&＃39;,&＃39;female&＃39;], # 筛选类别capsize &＃61; 0.05, # 误差线横向延伸宽度saturation&＃61;.8, # 颜色饱和度errcolor &＃61; &＃39;gray&＃39;,errwidth &＃61; 2, # 误差线颜色&＃xff0c;宽度height&＃61;6,ci &＃61; &＃39;sd&＃39;# 置信区间误差 → 0-100内值、&＃39;sd&＃39;、None) print(titanic.groupby([&＃39;sex&＃39;,&＃39;class&＃39;]).mean()[&＃39;survived&＃39;]) print(titanic.groupby([&＃39;sex&＃39;,&＃39;class&＃39;]).std()[&＃39;survived&＃39;]) # 计算数据

sex class female First 0.968085Second 0.921053Third 0.500000 male First 0.368852Second 0.157407Third 0.135447 Name: survived, dtype: float64 sex class female First 0.176716Second 0.271448Third 0.501745 male First 0.484484Second 0.365882Third 0.342694 Name: survived, dtype: float64

在这里插入图片描述

# 1、barplot() # 柱状图 - 置信区间估计 # 可以这样子改变风格sns.catplot(x&＃61;"day", y&＃61;"total_bill", data&＃61;tips,linewidth&＃61;2.5,facecolor&＃61;(1,1,1,0),kind&＃61;&＃39;bar&＃39;,edgecolor &＃61; &＃39;k&＃39;,)

在这里插入图片描述

# 1、barplot()crashes &＃61; sns.load_dataset("car_crashes").sort_values("total", ascending&＃61;False) print(crashes.head()) # 加载数据f, ax &＃61; plt.subplots(figsize&＃61;(10, 15)) # 创建图表# sns.set_color_codes("pastel") sns.barplot(x&＃61;"total", y&＃61;"abbrev", data&＃61;crashes,label&＃61;"Total", color&＃61;"b",edgecolor &＃61; &＃39;w&＃39;) # 设置第一个柱状图# sns.set_color_codes("muted") sns.barplot(x&＃61;"alcohol", y&＃61;"abbrev", data&＃61;crashes,label&＃61;"Alcohol-involved", color&＃61;"y",edgecolor &＃61; &＃39;w&＃39;) # 设置第二个柱状图ax.legend(ncol&＃61;2, loc&＃61;"lower right") sns.despine(left&＃61;True, bottom&＃61;True)

total speeding alcohol not_distracted no_previous ins_premium \ 40 23.9 9.082 9.799 22.944 19.359 858.97 34 23.9 5.497 10.038 23.661 20.554 688.75 48 23.8 8.092 6.664 23.086 20.706 992.61 3 22.4 4.032 5.824 21.056 21.280 827.34 17 21.4 4.066 4.922 16.692 16.264 872.51 ins_losses abbrev 40 116.29 SC 34 109.72 ND 48 152.56 WV 3 142.39 AR 17 137.13 KY

在这里插入图片描述

# 2、countplot() # 计数柱状图sns.catplot(x&＃61;"class", hue&＃61;"who", data&＃61;titanic,kind&＃61;&＃39;count&＃39;,palette &＃61; &＃39;magma&＃39;)sns.catplot(y&＃61;"class", hue&＃61;"who", data&＃61;titanic,kind&＃61;&＃39;count&＃39;,palette &＃61; &＃39;magma&＃39;) # x/y → 以x或者y轴绘图&＃xff08;横向&＃xff0c;竖向&＃xff09; # 用法和barplot相似

在这里插入图片描述

# 3、pointplot()sns.catplot(x&＃61;"time", y&＃61;"total_bill", hue &＃61; &＃39;smoker&＃39;,data&＃61;tips,kind&＃61;&＃39;point&＃39;,palette &＃61; &＃39;hls&＃39;,height&＃61;7,dodge &＃61; True, # 设置点是否分开join &＃61; True, # 是否连线markers&＃61;["o", "x"], linestyles&＃61;["-", "--"], # 设置点样式、线型) # 计算数据 # # 用法和barplot相似

在这里插入图片描述

推荐阅读

window
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08
text
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
text
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
uri
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41
cookie
提升Python编程效率的十点建议

本文介绍了提升Python编程效率的十点建议，包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间，提高编程效率。同时，还提供了相关参考链接供读者深入学习。 ... [详细]

蜡笔小新 2023-12-14 21:51:04
rsa
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
text
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
uri
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
uri
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
uri
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
ip
Java学习笔记之面向对象编程（OOP）

本文介绍了Java学习笔记中的面向对象编程（OOP）内容，包括OOP的三大特性（封装、继承、多态）和五大原则（单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则）。通过学习OOP，可以提高代码复用性、拓展性和安全性。 ... [详细]

蜡笔小新 2023-12-13 08:44:30
case
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
hash
python中安装并使用redis相关的知识

本文介绍了在python中安装并使用redis的相关知识，包括redis的数据缓存系统和支持的数据类型，以及在pycharm中安装redis模块和常用的字符串操作。 ... [详细]

蜡笔小新 2023-12-09 10:31:54
text
x86 linux的进程调度,x86体系结构下Linux2.6.26的进程调度和切换

进程调度相关数据结构task_structtask_struct是进程在内核中对应的数据结构，它标识了进程的状态等各项信息。其中有一项thread_struct结构的 ... [详细]

蜡笔小新 2023-10-17 18:41:38
text
AstridDAO 专访：波卡稳定币黑马 BAI

加入Pol ... [详细]

蜡笔小新 2023-10-17 18:14:14

diy2099_d94639

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章