热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

二分类变量相关性分析spss_SPSS相关分析之两变量相关分析

什么是相关分析?相关分析属于数据分析流程前端的探索性分析,探究变量间关系及性质,能够简单有效说明两变量间存在什么关系,这些关

什么是相关分析?

相关分析属于数据分析流程前端的探索性分析,探究变量间关系及性质,能够简单有效说明两变量间存在什么关系,这些关系的常见描述语句有:线性相关、正相关、负相关等。其结果在于指导下一步采取何种方法,是数据挖掘之前的基础工作;

相关关系的分类

相关关系从不同的角度有不同的分类方式。首先是按照相关关系强度划分:完全相关,弱相关和不相关。也能按照相关关系的方向分类:正相关和负相关。以上两种是最常用的分类方式。除此之外,还有两种分类方式,需要重点介绍。

  • 按照相关关系形态划分,可以分为线性相关非线性相关。在直角坐标系里,两个变量的观测值的分布大致在一条直线上,那么这两个变量之间的相关关系是线性关系;如果在直角指标系内,两个变量的观测值分布是一条曲线,那么它们之间的相关关系是非线性相关。
  • 按照变量的个数划分,可以分为单相关,复相关偏相关单相关是两个变量之间的关系,这两个变量一个是因变量,一个是自变量。两个变量的相关关系分析也被称为二元变量相关分析。复相关是指三个或三个以上的变量之间的关系,即一个因变量对两个或两个以上自变量的相关关系。偏相关综合了单相关和复相关的特点,当一个变量与多个变量相关,但是只关心其中一个因变量与自变量的关系,需要屏蔽其他因变量对自变量的影响,这样的相关关系就叫做偏相关。

相关系数

要想更精确地描述变量间的相关关系,就要计算相关关系的相关系数。计算相关系数一般需要大样本,样本容量最好大于30个,这样才能比较准确反映两个变量间的关系。相关系数r的取值一般介于-1~+1之间。

9e2e0c8b36774dc1ee496f71691c6962.png

下面我们首先介绍双变量相关分析

双变量相关分析的步骤

67e326b2e7d5b8549305e217a119113c.png

问题描述:下面以腰围、体重、脂肪比重为例,来说明应该怎样进行相关分析。

第1步:绘制散点图

在SPSS中,绘制散点图非常简单。操作步骤如下:

1)点击图形图表构建程序。

2)在库中选择散点图,双击简单散点图。

3)分别将腰围和体重,拖入X轴和Y轴,确定即可。

4aebc1bfb17a3aa26a7b79c0933eb9d6.png
e69130367cfa6cc5bc9469848c1bc621.png
观察散点图,可知:腰围与体重应该是存在线性相关性的,或者说,腰围对体重是有影响的。不过,这相关程度(或影响程度)有多大,则需要进一步计算相关系数来度量。

第2步:选择系数公式

因为,Pearson相关系数要求变量服从正态分布,所以在计算相关系数之前,需要先确定两变量是否都服从正态分布,或者近似正态分布。

如果采用其它相关系数,则可以省略正态性检验。在SPSS中,判断两变量是否服从正态分布操作步骤如下:

1)点击分析描述统计-探索,进入探索界面。

2)将待判断的变量选入因变量列表。

3)打开绘制界面,选中带检验的正态图,确定。

7af852146fe6f741d400198ba1f5fab6.png

确定后得到如下的正态性检验结果:

84ff2d574a9f2bdf8a7a23bb69a8604a.png
在SPSS中,采用的是K-S检验以及Shapiro-Wilk检验的结果。当Sig>0.05时,表明该变量服从正态分布,否则为非正态分布。如表所示,显然腰围和体重两个变量都是服从正态分布的,所以可以采用Pearson相关系数。

第3步:计算相关系数

在SPSS中,计算相关系数的操作步骤如下:

1)打开数据文档,点击分析-相关-双变量,进入相关分析界面。

2)将要判断的几个变量全部选入变量列表,确定,即可得到相关系数矩阵。

f03b4f9da02e73deaf331199b928c832.png

【相关系数】选项

Pearson积差相关 ,计算连续变量或是等间距测度的变量间的相关分析。应用最最多的一种分析方法,要求数据服从正态分布或近似正态分布;这是参数检验的方法;

使用条件:

  • 两个变量都是由测量获得的连续型数据,即等距或等比数据。
  • 两个变量的总体都呈正态分布或接近正态分布,至少是单峰对称分布,当然样本并不一定要正态。
  • 必须是成对的数据,并且每对数据之间是相互独立的。
  • 两个变量之间呈线性关系,一般用描绘散点图的方式来观察。

Kendall等级相关,用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,绝对值越大相关性越强,正负号表示相关的方向。此检验适合于正方形表格;

Spearman等级相关,计算斯皮尔曼相关,适用于连续等级资料或不满足正态分布假设的等间隔数据,属于非参数统计方法,适用范围要广些。

【显著性检验】选项

双侧检验:侧检验只关心两个总体参数之间是否有差异,而不关心谁大谁小。

单侧检验:单侧检验则强调差异的方向性,即关心研究对象是高于还是低于某一总体水平。

【标记显著性相关】选项:用*号来表示显著型,一颗表示有显著性,两颗代表p值小于0.01,就认为极其显著。原假设H0:两变量不存线性相关

输出结果:

9261a45387705b4cc908353a6b11033a.png
相关系数矩阵是对称矩阵,而且对角线上的相关系数全为1(即变量自身的相关系数为1)。从上表中可知,腰围和体重的相关系数r=0.853,存在强相关;脂肪比重和体重的相关系数r=0.697,存在中度相关。

第4步:显著性检验

在相关系数矩阵中&#xff0c;查看显著性一行&#xff0c;腰围和体重对应的概率P&#61;0.000&#xff08;因精度的原因&#xff0c;看起来概率为0&#xff09;&#xff0c;显然P<0.05&#xff0c;即根据显著性检验&#xff0c;也可知腰围和体重、脂肪比重和体重&#xff0c;都存在显著的线性相关关系。

第5步&#xff1a;进行业务判断

根据前面的相关分析&#xff0c;可得到数据分析结论&#xff1a;

1、根据显著性判断&#xff0c;可知腰围与体重、脂肪比重与体重&#xff0c;都存在显著线性相关性。

2、根据相关系数&#xff0c;可知腰围与体重存在强相关&#xff0c;脂肪比重与体重存在中度相关。

然后&#xff0c;再从业务上对分析结果进行解读&#xff0c;并给出相应的业务策略或建议&#xff1a;

1、业务解读&#xff1a;腰围对体重的影响很大&#xff0c;脂肪比重对体重的影响较大。

2、业务建议&#xff1a;要减轻体重&#xff0c;最好先减小腰围&#xff0c;少吃脂肪类食物



推荐阅读
  • 解决Sharepoint 2013运行状况分析出现的“一个或多个服务器未响应”问题的方法
    本文介绍了解决Sharepoint 2013运行状况分析中出现的“一个或多个服务器未响应”问题的方法。对于有高要求的客户来说,系统检测问题的存在是不可接受的。文章详细描述了解决该问题的步骤,包括删除服务器、处理分布式缓存留下的记录以及使用代码等方法。同时还提供了相关关键词和错误提示信息,以帮助读者更好地理解和解决该问题。 ... [详细]
  • 数据分析的组成部分及其商业价值
    本文介绍了数据分析的组成部分,包括数据采集、数据挖掘和数据可视化,并强调了数据挖掘的商业价值和数据可视化的重要性。数据分析是通过挖掘数据中的规律来指导业务的过程,而数据可视化则可以直观地呈现数据分析的结果。 ... [详细]
  • PHP组合工具以及开发所需的工具
    本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件,包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境,包括推荐的AppServ等版本。 ... [详细]
  • ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
    一、认识ElasticSearch是一个基于Lucene的开源搜索引擎,通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索,分析系统&# ... [详细]
  • 本文介绍了在Ubuntu 11.10 x64环境下安装Android开发环境的步骤,并提供了解决常见问题的方法。其中包括安装Eclipse的ADT插件、解决缺少GEF插件的问题以及解决无法找到'userdata.img'文件的问题。此外,还提供了相关插件和系统镜像的下载链接。 ... [详细]
  • 本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算,然后根据这些系数的性质选择适当的ARMA模型进行拟合,并估计模型中的位置参数。接着进行模型的有效性检验,如果不通过则重新选择模型再拟合,如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]
  • Python 可视化 | Seaborn5 分钟入门 (六)——heatmap 热力图
    微信公众号:「Python读财」如有问题或建议,请公众号留言Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seabo ... [详细]
  • 应用场景当遇到数据分类,聚类,预测等场景问题,普通的SQL方法无法解决,需要借助算法这件武器,比如聚类算法,分类算法,预测算法等等,但是手动去研究一个算法比较吃力,有没有那种工具, ... [详细]
  • 数据仓库、LODP、OLAP
    数据仓库:也称为企业数据仓库,是一种数据存储系统,它将来自于不同数据源的数据进行结构化数据聚合起来,用于业务智能领域的比较和分析 ... [详细]
  • 一份来自清华的数据分析笔记,请查收!
    之前发过很多数据分析的文章,收到不少好评,但也有一些困惑:入门数据分析该学哪些知识点?该看哪些书?是从Pyth ... [详细]
  • 未来大行其道的仿真×××机器人,你会花10万块钱买一个吗?
    这两天小编在追脑洞科幻剧《西部世界》,看到下面这一幕时↓↓不禁让小编想起了“仿真机器人”。今日无写作灵感的小编,立马用超级写手Giiso写作机器人小智& ... [详细]
  •   数据挖掘作为近年来新兴的一门计算机边缘学科,其在国内外引起了越来越多的关注。并且随着数据挖掘技术的不断改进和数据挖掘工具的不断完善,数据挖掘必将在各行各业中得到广泛的应用。   ... [详细]
  • 大数据学习入门难,给初学者支招 ... [详细]
  • 数据可视化技术的应用,行业优秀案例分享
    ​数据可视化并不是什么新型技术,二十世纪50年代电子计算机图形学的初期,就可以利用软件建立出了第一批图形图表。伴随着近几年来大数据备受关注, ... [详细]
  • sqlserver触发器写法_技术书籍荐读不可错过的SQL Server数据库书单来袭!
    朱熹读书之法,在循序渐进,熟读而精思。2019年转眼就要过去了,这一年,你读了哪些书,得到了哪些收获ÿ ... [详细]
author-avatar
yunzjyun
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有