热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据分析必备的统计学知识(三)

01写在前面数据分析师的必备技能栈里,除了熟悉业务、掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在

01 写在前面

数据分析师的必备技能栈里,除了熟悉业务、掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识。

为什么对于数据分析师来说统计学那么重要?其实答案显而易见,数据分析的价值就是通过数据去洞察业务背后的信息,避免之前的“一拍脑袋决定,二拍胸脯保证,三拍屁股走人”的主观误判,一切用数据说话!数据怎么能说话呢,算出一个数据,怎么知道这个数据是好还是坏?有多好有多坏?两组数据呈现在你面前,怎么判断这两组数据是否有明显差异?要回答这些问题,就必须要用到统计学知识,而不是相信自己的眼睛,因为眼睛有时候也会说谎,你看到的“好”不一定是好,你看到的“没有差异”不代表没有差异。

但是很多刚入门的数据分析师在学习统计学知识时都很头疼(也包括我哈哈哈),因为统计学的书籍里都是写晦涩难懂的公式,真不是一般人能看懂的。其实,对于大部分数据分析师来说,我们并不需要掌握的那么全面和深入,我们只需要掌握部分知识点,理论看不懂,但是知道在什么场景下用就行,用起来你才会慢慢地搞懂!

所以为了让大家更容易学习掌握统计学的基础知识,这里整理了数据分析工作中最常见的一些统计学基础知识,尽量用简单白话的形式去解释,这样无论是在面试中还是以后的工作中,都能把统计学的知识用起来!
在这里插入图片描述


02 数据分析中的统计学

Q1、如何理解假设检验中的P值和显著性水平α?
讲显著性水平α我们就得提到前面文章中提到的第一类错误和第二类错误,可以翻看系列文章:【数分面试宝典】数据分析必备的统计学知识(一)
我们还是举之前谈恋爱的栗子,面前有一个男生,我们有2个假设:
H0:一个真心爱你的男生
H1:一个不是真心爱你的男生
如果H0实际上成立,而你凭经验拒绝了H0,也就是说,你拒绝了一个你认为不爱你而实际上真心爱你的男生,那么你就犯了第一类“弃真”错误,也称为α风险,错杀了好人;
如果H0实际上不成立,而你接受了H0,同样的道理,你接受了一个你感觉爱你而实际上并不爱你的男生,那么你就犯了第二类“纳伪”错误,也称为β风险,放走了坏人。
第一类错误和第二类错误这两个错误概率互相制约,你大我就会变小,你小我就会变大,基于保护零假设的原则,我们一般把一类错误概率固定住,让第一类错误概率不超过某个阀值(也就是α值),也就是我们常说的“显著性水平α”,即代表好人被冤枉的概率。通常情况下,我们不希望好人被冤枉,所以显著性水平α通常比较小。

显著性水平α是你冤枉好人的可能性,然而,每个人在这一点上是有分歧的,有的人希望α大一点儿,有的人希望α小一点儿(α越大,意味着检验越严格,我们冤枉好人的概率就越大)。

在这种情况下,我们就期望回答一个问题:对于面前的这个男生,我们不会冤枉他的最严格的检验水平,即最大的α是多少呢?得到了这个问题的答案,我们就可以轻松完成在任意严格程度上的检验了,即如果α大于这个值,那么我们就认为该男生不喜欢你,反之亦可。

而这个最大的α,就是我们的P值。只是这2个概念是有明显的区别的。显著性水平α是在每次统计检验之前人为规定的,通常取α=0.05或α=0.01。这表明,当做出拒绝原假设的决定时,其犯错误的可能性为α=0.05或α=0.01,而P值是根据实验结果计算得出的。如果计算出来的概率(P值)小于这个标准(显著性水平α),就说明拒绝原假设错误的可能性很小,那就可以放心地拒绝原假设,认为这个男生确实是不爱你的;反之,大于这个标准则说明拒绝原假设错误的可能性较大,那还是接受原假设,也就是没有充足的证据,认为这个男生还是爱你的。

Q2、如何理解置信度与置信区间?
置信区间是我们所计算出的变量存在的范围,置信水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。
举例来讲,如果我们有95%的把握,让真正的数值在我们所计算的范围里,那么在这里,95%是置信水平,而计算出的范围,就是置信区间。
如果置信度为95%, 则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。

Q3、如何理解极大似然估计?
利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。“似然”是“像这个样子”的意思。
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
假如有一个黑箱子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道箱子中白球和黑球的比例,但我们不能把箱子中的球全部拿出来数。现在我们可以每次任意从已经摇匀的箱子中拿一个球出来,记录球的颜色,然后把拿出来的球再放回箱中。这个过程可以重复,我们可以用记录的球的颜色来估计箱中黑白球的比例。假如在前面的一百次重复记录中,有70次是白球,请问箱子中白球所占的比例最有可能是多少?
很多人马上就有答案了:70%。而其后的理论支撑是什么呢?

我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。

这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,70次是白球的,30次为黑球事件的概率是P(样本结果|Model)。

如果第一次抽象的结果记为x1,第二次抽样的结果记为x2…那么样本结果为(x1,x2…,x100)。这样,我们可以得到如下表达式:
P(样本结果|Model)
  = P(x1,x2,…,x100|Model)
  = P(x1|Model)P(x2|Model)…P(x100|Model)
  = p70(1-p)30.

好的,我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数,也就是求的式中的p。

那么我们怎么来求这个p呢?
不同的p,直接导致P(样本结果|Model)的不同。
好的,我们的p实际上是有无数多种分布的。如下:
图片
那么求出 p70(1-p)30为 7.8 * 10^(-31)
p的分布也可以是如下:
图片
那么也可以求出p70(1-p)30为2.95* 10^(-27)
那么问题来了,既然有无数种分布可以选择,极大似然估计应该按照什么原则去选取这个分布呢?
答:采取的方法是让这个样本结果出现的可能性最大,也就是使得p70(1-p)30值最大,那么我们就可以看成是p的方程,求导即可!
那么既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。
我们想办法让观察样本出现的概率最大,转换为数学问题就是使得:
p70(1-p)30最大,这太简单了,未知数只有一个p,我们令其导数为0,即可求出p为70%,与我们一开始认为的70%是一致的。其中蕴含着我们的数学思想在里面。

Q4、详细介绍一种非参数统计方法,并叙述其优缺点
非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。
机器学习:决策树,随机森林,SVM;
假设检验:符号,符号秩,秩和检验
优点:
非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。
缺点:
由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
对于大样本,如不采用适当的近似,计算可能变得十分复杂。

Q5、如何简单理解过拟合?如何防止过拟合?
好比你想找个女朋友。
你可能会先找你表妹问她喜欢什么,表妹说她喜欢阳光干净的男生,还说她喜欢王力宏,喜欢火锅,喜欢日料,七七八八合计一百个爱好。你规规矩矩地按照这个标准学训练自己,终于符合表妹的一切要求,完美零误差,训练完成,超级自信准备出去试试追个妹子。
可是换了个妹子,发现学到的完全没用。第二个妹子只要你阳光干净。剩下的她都不care,她甚至讨厌王力宏,那后面的那些只会增加误差。这就事过拟合了。
怎么防止过拟合呢?应该用cross validation,交叉比对。解释起来就是,你在你表妹那儿学到的东西,在你表姐那儿测试一下对不对。在你表姐那儿学到的,在你女同学那测试一下。来来回回用不同的测试对象和训练对象做交叉比对。这样学到规律就不会过拟合啦。

以上就是【数分面试宝典】系列—统计学基础知识第3篇文章的内容,部分历史文章请回翻公众号:【数据分析星球】,更多数据分析面试笔试的文章持续更新中,敬请期待,如果觉得不错,也欢迎分享、点赞和点在看哈~


推荐阅读
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 机器学习之数据均衡算法种类大全+Python代码一文详解
    目录前言一、为什么要做数据均衡?二、数据场景1.大数据分布不均衡2.小数据分布不均衡三、均衡算法类型1.过采样2.欠采样3.组合采样四、算法具体种类1 ... [详细]
  • 开发笔记:小白python机器学习之路——支持向量机
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了小白python机器学习之路——支持向量机相关的知识,希望对你有一定的参考价值。支持 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度
    介绍在我们学习机器算法的时候,可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器,但你要明白这些兵器是需要在合适的时间合理 ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 1.活体相关文献综述调研参考:https:blog.csdn.netCVAIDLarticledetails845673192.基于LBP纹理特征的检测1)基于LBP_256特征提 ... [详细]
  • Stanford机器学习第九讲. 聚类
    原文:http:blog.csdn.netabcjenniferarticledetails7914952本栏目(Machinelearning)包括单参数的线性回归、多参数的线性 ... [详细]
author-avatar
沙漏虎
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有