热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据分析|数据的整理&展示

统计学:是收集、整理(筛选、纠错)、分析(找规律:备注)、表述(用图表列示)和解释数据的科学。统计学在数据科学是非常重要的,同时是数据工程师必备的技能;本章主要讲数据的整理&

数据分析|数据的整理&展示

统计学:是收集、整理(筛选、纠错)、分析(找规律:备注)、表述(用图表列示)和解释数据的科学。统计学在数据科学是非常重要的,同时是数据工程师必备的技能;本章主要讲数据的整理&展示基本都是理论~

目录

  1. 数据预处理

  2. 品质数据的整理与展示

  3. 数值型数据的整理与展示

  4. 数据展示

数据预处理

数据审核:(检查数据中的错误)

    原始数据(完整性审核,准确性审核)

    二手数据(适用性审核,时效性审核,确认是否必要做进一步的加工整理)

筛选:找出符合条件的数据

排序 :升序和降序、寻找数据的基本特征

品质数据的整理与展示

分类数据的整理与展示:

基本过程:

    1.列出各类别

    2.计算各类别的频数

    3.制作频数分布表

    4.用图像显示数据

频数:落在各类别中的数据的个数

比例:某一类别数据占全部数据的比值

百分比:将比例转成分母为100的形式

比率:不同类别直接的比值

顺序数据的整理与展示:

–亦可计算累计频数(累积百分比):将各类别的频数逐级累加

–亦可计算累计频率:将各类别的频率(百分比)逐级累加

–累积有两种:向上累积(沿顺序方向累加)与向下累积(逆顺序方向累加)

数据分析|数据的整理&展示

数值型数据的整理与展示

数据分组

数据分析|数据的整理&展示

什么是单变量分组?(概念要点)

1.将一个变量值作为一组

2.适合于离散变量

3.适合于变量值较少的情况

数据分析|数据的整理&展示

 

什么是组距分组?(概念要点)

1.将变量值的一个区间作为一组

2.适合于连续变量

3.适合于变量值较多的情况

4.必须遵循“不重不漏”的原则

5.可采用等距分组,也可采用不等距分组

数据分析|数据的整理&展示

数据展示

直方图

1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布

2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)

3.直方图下的总面积等于1

数据分析|数据的整理&展示

折线图

1.折线图也称频数多边形图(Frequency polygon)

2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。

3.折线图的两个终点要与横轴相交,具体的做法是

第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。

折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。

数据分析|数据的整理&展示

茎叶图(未分组数据)

1.用于显示未分组的原始数据的分布

2.由“茎”和“叶”两部分构成,其图形是由数字组成的

3.以该组数据的高位数值作树茎,低位数字作树叶

4.对于n(20≤n≤300)个数据,茎叶图最大行数不超过

 L = [ 10 × log 10 n ]

5.    茎叶图类似于横置的直方图,但又有区别

l直方图可大体上看出一组数据的分布状况,但没有给出具体的数值

l茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息

数据分析|数据的整理&展示

注:茎叶图第一行数据 树茎:10   树叶:788   数据个数:3   表示 为数据 107,108,108

箱线图

数据分析|数据的整理&展示

1.用于显示未分组的原始数据或分组数据的分布

2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成

3.其绘制方法是:

首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU)

连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接

数据分析|数据的整理&展示

往期精选


推荐阅读
  • MACElasticsearch安装步骤及验证方法
    本文介绍了MACElasticsearch的安装步骤,包括下载ZIP文件、解压到安装目录、启动服务,并提供了验证启动是否成功的方法。同时,还介绍了安装elasticsearch-head插件的方法,以便于进行查询操作。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • PHP设置MySQL字符集的方法及使用mysqli_set_charset函数
    本文介绍了PHP设置MySQL字符集的方法,详细介绍了使用mysqli_set_charset函数来规定与数据库服务器进行数据传送时要使用的字符集。通过示例代码演示了如何设置默认客户端字符集。 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 给定一个二维平面上的一些点,通过计算曼哈顿距离,求连接所有点的最小总费用。只有任意两点之间有且仅有一条简单路径时,才认为所有点都已连接。给出了几个示例并给出了对应的输出。 ... [详细]
  • 本文介绍了如何将CIM_DateTime解析为.Net DateTime,并分享了解析过程中可能遇到的问题和解决方法。通过使用DateTime.ParseExact方法和适当的格式字符串,可以成功解析CIM_DateTime字符串。同时还提供了关于WMI和字符串格式的相关信息。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
author-avatar
绅(bian)士(tai)
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有