热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

pythonseaborn_大白话Python绘图系列Seaborn篇

1.目的了解python第三方绘图包seaborn,从常用绘图实例开始,快速体验seaborn绘图。建议用时:10分钟绘图例子:12个每个例子代码量:1

1. 目的

了解python第三方绘图包seaborn,从常用绘图实例开始,快速体验seaborn绘图。

  • 建议用时: 10分钟

  • 绘图例子: 12个

  • 每个例子代码量: 1-6行, 90%仅1行

1.1 环境

  • ipython notebook

  • 安装python包: seaborn, matplotlib, pandas, numpy

在微信公共账号回复,ipython, 会返回临时云端学习环境网址和密码, 也可自己搭建。

2. Seaborn快速绘图

2.1 练习数据

seaborn自带很多练习数据,我们任选一个数据集,比如: Iris, 当做绘图数据使用, 简单介绍该数据源:

Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

加载Iris数据

import seaborn as sn
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline
# 加载seaborn自带数据: iris
df = sn.load_dataset("iris")
df.head()

  • 输出结果:

c819dc12a5e6a3aa2c09b2b0353544d5.png

2.2 数据集洞察

  • 代码: 1行

先简单看下该数据基本统计信息:

  • 样本数量: count

  • 平均值: mean

  • 标准差: std

  • 最小值: min

  • 最大值: max

  • 25%, 50%, 75%分位数

df.descirbe()

  • 输出结果:

51534e9a0cbe16da4b96a3cc782db719.png

2.3 分类聚集

  • 代码: 1行

  • 场景: 样例两个属性, 一个是离散分类,一个是连续值,希望一张图绘出每类的散点图

  • 方法:

    • stripplot: 可以绘制分类数据的散点图,由于过多的点会聚集一处,使用jitter 进行随机抖动,以在每一个分类数据中对应变量在某一点的集中/分布趋势。

    • swarmplot: 函数会使用内置的算法对数据进行抖动,保证点不会重合

talk is cheap, show u code.

# swarm绘图散点以树状连接个点, 不重合
sn.swarmplot(x="species", y="petal_length", data=df, size=10)
# 可以体验下与下面绘图结果的不同:
# sn.stripplot(x='species', y='petal_length', data=df, jitter=True)

  • 输出结果:

b84b9963fbf9fb71dcd54ffdd8a39474.png

2.4 直方图

  • 代码: 1行

  • 场景: 连续属性分段查看分布

sn.distplot(df.sepal_length, bins=20, kde=True, rug=True)

  • 输出结果:

ea3d92d245a3750921cc45f9b3e895df.png

2.5 柱状图

  • 代码: 1行

  • 场景: 连续属性分段查看分布

sn.barplot(x='species', y='sepal_length', data=df)

  • 输出结果:

7f7fc2ae1d89c1ca1b87b41b6a3074d7.png

2.6 点图

  • 代码: 1行

  • 介绍: 表示一个数值的中心趋势的估计。根据散点图点的位置变化,并提供一些,用误差线表示该估计的不确定性

# 点图
sn.pointplot(x='species', y='sepal_length', data=df)

  • 输出结果:

567e9e48f936966bb8e1ee8adae81658.png

2.7 双变量图

  • 代码: 1行

sn.jointplot(x='sepal_length', y='sepal_width', data=df)
# 尝试改变属性值
# sn.jointplot(x='x', y='y', data=df2, kind='hex')
# sn.jointplot(x='x', y='y', data=df2, kind='kde')

  • 输出结果:

6ad46d7c1d54f61bef7ee78a5f7100f1.png

2.8 热力图

  • 代码: 1行

# 取10个样本, 查看不同属性的值, 用热力图显示
sn.heatmap(df.iloc[:10,:4])

  • 输出结果:

1e5fc271fce0c7d9d3144242d0aab74b.png

2.9 箱图

  • 代码: 1行

  • 如何读箱图见《大白话Python绘图系列》Matplotlib篇 箱图部分

sn.boxplot(x='species', y='sepal_length', data=df)

  • 输出结果:

ee7fdac2fa93b7932efd79c55e178cc5.png

2.10 小提琴图

  • 代码: 6行

  • 场景: 小提琴类似箱图, 但能更直观看数据集聚程度

# 场景: 看密度分布比较形象具体
fig, axes = plt.subplots(2,2, figsize=(20,20))
sn.violinplot(x='species', y='sepal_length', data=df, ax=axes[0,0])
sn.violinplot(x='species', y='sepal_length', data=df, ax=axes[0,1], hue='species')
sn.violinplot(y='species', x='sepal_length', data=df, ax=axes[1,0], hue='species', inner='stick')
sn.violinplot(y='species', x='sepal_length', data=df, ax=axes[1,1], hue='species', inner=None)
sn.swarmplot(y='species', x='sepal_length', data=df, ax=axes[1,1],alpha=.5, hue='species',color="r")

  • 输出结果:

c3c7cfa65f29762fbe5af2b054b7c17f.png

2.11 线性拟合

  • 代码: 1行

  • 场景: 查看两列关系

sn.lmplot(x='sepal_length', y='petal_length', data=df)

  • 输出结果:

f46bab6822ec052b6161edab80e4bdb5.png

2.12 非线性拟合

  • 代码: 1行

  • 场景: 查看两列关系, 下面用二次多项式

sn.regplot(x='sepal_length', y='petal_length', order=2, data=df)

  • 输出结果:

decfae20a88ad48f2a04ad1d32998e4c.png

2.13 数据集两两属性关系

  • 代码: 2行

  • 场景: 当需要快速了解数据集中属性两两关系时. 数据需要是连续值且非空

# 相同变量直方图显示, 不同变量散点图显示, 其中数据中不能含有NaN
l = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
sn.pairplot(df[l])

  • 输出结果:

fe9a7896c44585c8b855aeebba139d4e.png

2.14 Grid自定义绘制

  • 场景: 多子图显示

# 多图绘制: 数据集某属性species, 将数据集分三类
# 下面, 一次性汇出三类数据的直方图
g = sn.FacetGrid(df,col="species")
g.map(plt.hist,"sepal_length")
g.add_legend()

  • 输出结果:

ccb6f8e6766b7d78f61de35fc7dbf365.png

3. About Me

来自北京回龙观的一名数据民工, 2019年开始写写数据民工那些大白话

  • 微信公众号: workindata

  • 个人微信号: ITlooker

  • 知乎专栏: 大数据那些儿大白话




推荐阅读
  • 本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期,包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时,还介绍了一段使用正则表达式的代码,可以支持中文日期和一些特殊的时间识别,例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]
  • 超级简单加解密工具的方案和功能
    本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头,并根据特定长度进行加密,加密后将加密部分写入源文件。同时,该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法,并给出了Python代码示例。 ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • 本文介绍了多因子选股模型在实际中的构建步骤,包括风险源分析、因子筛选和体系构建,并进行了模拟实证回测。在风险源分析中,从宏观、行业、公司和特殊因素四个角度分析了影响资产价格的因素。具体包括宏观经济运行和宏经济政策对证券市场的影响,以及行业类型、行业生命周期和行业政策对股票价格的影响。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
  • 本文介绍了如何使用python从列表中删除所有的零,并将结果以列表形式输出,同时提供了示例格式。 ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • 模板引擎StringTemplate的使用方法和特点
    本文介绍了模板引擎StringTemplate的使用方法和特点,包括强制Model和View的分离、Lazy-Evaluation、Recursive enable等。同时,还介绍了StringTemplate语法中的属性和普通字符的使用方法,并提供了向模板填充属性的示例代码。 ... [详细]
  • 深入理解Java虚拟机的并发编程与性能优化
    本文主要介绍了Java内存模型与线程的相关概念,探讨了并发编程在服务端应用中的重要性。同时,介绍了Java语言和虚拟机提供的工具,帮助开发人员处理并发方面的问题,提高程序的并发能力和性能优化。文章指出,充分利用计算机处理器的能力和协调线程之间的并发操作是提高服务端程序性能的关键。 ... [详细]
  • 使用Spring AOP实现切面编程的步骤和注意事项
    本文介绍了使用Spring AOP实现切面编程的步骤和注意事项。首先解释了@EnableAspectJAutoProxy、@Aspect、@Pointcut等注解的作用,并介绍了实现AOP功能的方法。然后详细介绍了创建切面、编写测试代码的过程,并展示了测试结果。接着讲解了关于环绕通知的使用方法,并修改了FirstTangent类以添加环绕通知方法。最后介绍了利用AOP拦截注解的方法,只需修改全局切入点即可实现。使用Spring AOP进行切面编程可以方便地实现对代码的增强和拦截。 ... [详细]
  • 本文介绍了Python字典视图对象的示例和用法。通过对示例代码的解释,展示了字典视图对象的基本操作和特点。字典视图对象可以通过迭代或转换为列表来获取字典的键或值。同时,字典视图对象也是动态的,可以反映字典的变化。通过学习字典视图对象的用法,可以更好地理解和处理字典数据。 ... [详细]
author-avatar
z苏苏575
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有