热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python(describe())_Python预览数据的几种常见方法

用Python数据分析,往往得先把原始数据导入到pandas的Dataframe.如下图处理数据前,我们得先粗略了解数据面貌,至少要清楚数据有几列,有几行,哪些是数值,能求平均数、

用Python数据分析, 往往得先把原始数据导入到pandas的Dataframe. 如下图

90c8a462f285c7920bd3fee5339e3fde.png

处理数据前, 我们得先粗略了解数据面貌, 至少要清楚数据有几列, 有几行, 哪些是数值, 能求平均数、最大值、最小值, 哪些些类别型数据, 需要统计数量.

1. 几行几列

db

英文shape, 表示形状, 数据结果为

(318,20)

表示数据共有318行, 20列

2. 前几行, 最后几列

db.head()

42cdf0694d1404f34ac071f3428f057a.png

默认输出前5列, 可以在()写想要的行数. 比如需要显示前10行,

db.head(10)

用tail()显示最后几列,

db.tail()

tail意思是“尾巴”.

你可能注意到, 刚刚输出结果的列显示不全. 除了往右拖鼠标查看(列数太多也会不方便), 还可以用下面方法.

3. 每一列的内容是什么

信息总览, 首选info (information)

db.info()

6a224731d2a698918e37496e4ca92786.png

上图结果, 学过英文, 很容易理解

[1] index: 索引,作用相当于excel最左边的1,2,3, 用来定位第几行; entry (entries) 表示条目/记录, 上图显示db一共有318条记录(行). Afghanistan是第一条的索引, Zimbabwe是最后一条的索引.

9677ab870b41d54cbbba2f775fad2b59.png

[2] column (columns): 列, 本次数据共有20列 ( 不含索引)

6a224731d2a698918e37496e4ca92786.png

[3] 每一列的名称

[4]non-null: null表示“空”, non=非, 因此non-null表示该列不是空白的单元格.

float64: 单元格里面数据的类型, float表示带小数点的数值, 64占64bits内存

有时候, 只想了解一下列名就行, columns能派上用场了.

db.columns

b026b751a34d17ac5f45bf15d3d5b699.png

数据有上百列时, .columns特别有用

4. 每一列的数据有什么特征

  • 数值类 (numerical data)

想要了解每一个的最大值, 最小值, 平均值等统计信息时, .describe()一键搞定

db.describe()

98594b4952db3b0ea5c8bcc875a63a2c.png

结果包括

  • count: 非空格行数
  • mean: 平均值, excel中的average
  • std: standard deviation缩写, 标准差
  • min: minimum缩写, 最小值
  • 25%, 50%...(percentile) : 第25%的值
  • max: maximum缩写, 最大值

我们也可以定制化统计内容, 比如只求所有行的平均数

db.agg(np.mean)

1fb3a27674b9b82892a6769c2eec3336.png
  • agg: aggregate缩写. aggregate英文意思是“合计, 总计“, ()里面填写需要合集的公式
  • np.mean: 使用前, 需先导入numpy库

你可以按需要多加几个统计量, 比如平均值,最小值, 最大值

db.agg([np.mean, min, max])

acfd98ff9c0f7136f9ce485185bed615.png

注意, 此时agg() 里面是一个列表(list), 所有公式外加[]

  • 类别型数据(categorical data)

类别型数据, 就是那些不能四则运算的数据

0227c34e148fe947ec2f6b23ac22b8ee.png

describe()也同样适用

db.describe()

99d19587f21773cf788c8b4d3e1c765a.png
  • count: 统计共有多少行
  • unique: 比如State那列是50, 表示State(州)那列, 除掉重复的, 共有几个州
  • top: 出现频率最高的一项
  • freq: frequence缩写, 出现最高频率是几次

看到这, 你难免想知道哪个州出现频率第二多, 第三多, 哪个州最少, 可以用value_counts()

db['State'].value_counts()

4e4ba8da33f0c73e50cb18a1659f1d3b.png
  • db['State']: 选择State列

系统默认下从高频项排到低频项, 想要从小到大排列, 可以加ascending=False

db

  • ascending: 来自ascend (上升)+ ing

如果想知道每一项的出现频率占比, 只要加入normalize=True即可

db['State'].value_counts(normalize=True)

63cdd4bed8a31194adec9176bd8df911.png

这是我自学数据分析的第一篇总结.

相关阅读:

沧海为水:Python文本处理(一)基础小抄​zhuanlan.zhihu.com
1591ea163a719cd0dea5c66f3b662126.png
沧海为水:Python文本处理(二)文本格式化(formatting)​zhuanlan.zhihu.com
1591ea163a719cd0dea5c66f3b662126.png

这是我的第1篇Python学习笔记. 题图来自unsplash.



推荐阅读
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Postgresql备份和恢复的方法及命令行操作步骤
    本文介绍了使用Postgresql进行备份和恢复的方法及命令行操作步骤。通过使用pg_dump命令进行备份,pg_restore命令进行恢复,并设置-h localhost选项,可以完成数据的备份和恢复操作。此外,本文还提供了参考链接以获取更多详细信息。 ... [详细]
  • 手把手教你使用GraphPad Prism和Excel绘制回归分析结果的森林图
    本文介绍了使用GraphPad Prism和Excel绘制回归分析结果的森林图的方法。通过展示森林图,可以更加直观地将回归分析结果可视化。GraphPad Prism是一款专门为医学专业人士设计的绘图软件,同时也兼顾统计分析的功能,操作便捷,可以帮助科研人员轻松绘制出高质量的专业图形。文章以一篇发表在JACC杂志上的研究为例,利用其中的多因素回归分析结果来绘制森林图。通过本文的指导,读者可以学会如何使用GraphPad Prism和Excel绘制回归分析结果的森林图。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 开发笔记:Python之路第一篇:初识Python
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python之路第一篇:初识Python相关的知识,希望对你有一定的参考价值。Python简介& ... [详细]
  • Python 可视化 | Seaborn5 分钟入门 (六)——heatmap 热力图
    微信公众号:「Python读财」如有问题或建议,请公众号留言Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seabo ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
    本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法,包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]
  • 合并列值-合并为一列问题需求:createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]
  • 2月4日每日安全热点节日期间某企远程办公遭XRed攻击 ... [详细]
author-avatar
懒得张开眼睛看你
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有