热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

统计学有多无聊?谷歌统计学家带你证明

https:www.toutiao.coma6678870676780089869大数据文摘出品来源:medium编译:王缘缘、蔡婕、小七统计学是

https://www.toutiao.com/a6678870676780089869/

 

统计学有多无聊?谷歌统计学家带你证明

 

 

大数据文摘出品

来源:medium

编译:王缘缘、蔡婕、小七

统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。

嗯,以上是统计学课本中对统计学的定义!

但是近日,一位来自谷歌的统计学家却发长文表示“统计学很无聊。“

这位统计学家叫Cassie Kozyrkov,目前是Google的首席决策师。在这篇文章中,她提到:“别看我们平时都是在做一些看起来'高大上'的计算,其实核心都很单调的;另外,数据是很无聊的,人性化的事情才是难点。”

让我们先普及一些统计学的入门级概念,然后跟着这位统计学家一起,看看她的逻辑证明。

 

统计学有多无聊?谷歌统计学家带你证明

 

 

 

总体

 

当一个普通人想到“population”这个词时,他会想到什么?人,对吗?不只是一两个,而是很多,几乎是所有的人!在我们的学科中,它更像是所有的事物的集合。总体可以是人、像素、南瓜、神奇宝贝,或者任何你喜欢的东西。


总体是我们感兴趣的所有项目的集合。

 

先停一下,在总体的确定上是需要花点时间的,因为这是研究的基础。

规则是这样的:通过写下你对总体的描述,你就确定了你的总体是什么,除此之外没有任何东西可以影响你的决定。通过进一步阅读,你就能接受这些术语和相应的限定条件了。

提出你感兴趣的总体并没有听起来那么令人望而生畏,请记住,是由你自己来选择你想要感兴趣的事物。没有错误的选择,只要它是具体和全面的就可以是一个总体。接下来我会讲得很详尽,并且建议以下图中的树木作为本文感兴趣的总体。

 

统计学有多无聊?谷歌统计学家带你证明

 

 

如果我的总体是这片森林中的树木,那么 它们就代表了我所关心的关于这个决定的一切。我对这些树感到很兴奋。坦白地说,这种兴奋是绝对真实的: 我非常喜欢这个图形,因为我在自己的讲座中使用它很多年了。请允许我再怀念它一次……当然,飞机上漂浮着一些树木,从空间上来说是非常合理的。

由于这是我的总体,我应该记住,我并没有理由从自己的分析中得出我已经从其他森林中的树木了解到的结论。我的发现充其量只适用于这些树木。最糟糕的是,嗯......我只想说数据科学家的生活中有时候是需要去构建特征的,不只是描述表面特征。

这里有你看不到的树吗?这样的研究没意义。它不是我们总体的一部分。挑选任何一棵树?同样没有意义,因为这不是你的整个总体。只有他们同时在一起对我们来说才是有意义的。这就是总体的概念。

样本

 

来自总体中的任意项目集合的样本。


样本是你拥有的数据,而总体是你“希望”拥有的数据。

 

统计学有多无聊?谷歌统计学家带你证明

 

 

这些橙色树木集合中的任何一个都是样本。我希望你们能有一些直觉知道哪个更好。在之后的文章中,我将告诉你如何使样本成为一个好样本。我将用这个例子的其余部分刺激专业人士来证明这一点。

观测值

 

观测值是对样品中单个项目的测量。

 

统计学有多无聊?谷歌统计学家带你证明

 

 

我们在这个蓝色标记的树上进行的测量是一个观测值。坚持使用精确语言的人会注意到,“sample”是一组观察结果的集合名词。从理论上讲,“samples”作为复数并不表示“观测到的多个值”,而是表示“多个观测值的集合”。

统计数据

 

啊哈!统计数据!这当然是很重要的,因为我们在研究了这些数据之后命名了我们的学科!


统计数据是通过任意一种方法去获得样本数据。

 

那么什么是统计数据?这只是统计我们拥有的数据的一种方式。是不是很失望,不用失望,事实证明,统计和统计学科是两码事。

 

统计学有多无聊?谷歌统计学家带你证明

 

 

 

统计数据的示例:如果我们对树的高度感兴趣,那么看到所有这些橙色标记树的平均高度等统计数据就不会感到惊讶。如果你愿意,你也可以采用那些样本树高,找到最高的前三个,把它们加起来,取对数,加上最低的两个树高的差值的平方根,通过这样的计算加工可以产生另一个统计数据!也许有用,也许不是那么有用,但也是一个统计数据。

如何证明统计学是无聊的

 

假设我们对树的平均高度感兴趣,对于这个样本,树的平均高度恰好是22.5米。这个数字对我们意义吗?

让我们回顾一下总体的概念:只对总体的研究是感兴趣的。这个样本是总体吗?不是。因此,它对我们来说并不重要。我们从一些无聊的树上取了一些无聊的测量值,然后我们把这些无聊的测量值进行加工计算……从这个过程中得出的结果也很无聊。

所以,我已经向你们证明了你们心中一直知道的事实:统计学是无聊的!证明完毕。

用词不当!

 

统计学家们疯了吗?为什么我们要用一些无聊的数字来命名我们的学科呢?实际上,这是用词不当。

如今我们对这些术语进行深度剖析,分析的是关于计算统计数据的学科,但统计学不仅仅是研究那些数据,而是要从那些数据中挖掘信息,从而实现对未知领域的探索,但也有可能这只是伊卡洛斯式的飞跃,最后得不到任何成果。

我们学科的真实名称(这个名称更能体现学科的含义)更加晦涩:统计数据的消化……但这听起来有点恶心,所以我们把它简化为平易近人的说法。

让我来解释一下。

参数

 

接下来讲我们的主角:参数。这个东西太花哨太闪亮。是那种演出结束后会获得一个花束的角色,它甚至有属于自己的希腊字母(通常是θ)。你可以将参数看作是总体里的一个统计量,它是由所有我们感兴趣的总体计算得来的,但是通常无法直接获得。


参数总结了总体特征

我们承认这些树木使我们深感兴奋,现在要我总结一下你关心的一切。

 

统计学有多无聊?谷歌统计学家带你证明

 

 

参数值显示:所有树木的真实平均高度恰好是21.1米。

 

想象一下,这是周六早上,你站在这片森林的空地中间。你还没测量过任何树木,但你超想知道这个数字,这是你梦寐以求的一切。

知道参数需要什么?

你必须精确的测量所有树!一旦做完了,你会有任何不确定的吗?不,你拥有了所有的信息。你可以通过分析继续计算平均值。因为你的样本是总体,这样统计量就是参数。你正在处理的纯粹是事实问题。由于拥有准确和完整的数据,因此无需进行复杂的计算。

我碰巧住在纽约市,尽可能远离树木。因此,当我面临像“精确测量所有这些树木”这样令人生畏的任务时,惰性就开始了。我真心想知道这个参数,但我反问自己:“我真的需要完全了解它还是只要测量一些树木?也许我只需对整个画面进行局部观察,以形成对该参数的最佳猜测......这表面上就足以完成工作要求了。”

当我这么想的时候,我在用统计学的方式思考!我永远不会知道答案。我的懒惰意味着我必须放弃获取事实或确定答案,但希望我最终会得到一些仍然有助于做决策的结果。我仍然可以把它变成一个合理的行动。这就是统计学的精髓。

无中生有?

 

你们当中有些人希望我会说,“有了这个神奇的公式,你就可以将不确定的变成确定!”不,当然不会。没有任何神奇的东西可以无中生有。


当我们不知道事实时,我们所能希望的是将数据与假设结合起来做出合理的决策。

 

假设

一个假设是描述宇宙可能的样子,但它不一定是真的。我们需要搞清楚,我们的样本是否使得之前的假设看上去很荒谬,以此判断是否要改变我们的想法,但这超出了本篇博文的范围,在这里提一下思路。

 

统计学有多无聊?谷歌统计学家带你证明

 

 

我在这里说了一些乱七八糟的话,如“所有树木的真正平均高度不到20米。”这是一个假设。你知道真相(我错了!)因为你在这个例子中无所不知......但我什么都不知道。我的陈述是一个完全有效的假设,描述了潜在的真实性。我将会在得到一些数据后才能知道自己的假设是否合理。

估计和估计量

 

如果知道参数,我们就不用做这些了。我们正在寻找事实,但不幸的是事实并不总能获得准确结果。由于我们无法计算参数,只能使用统计信息对其进行最佳猜测。


估计是对最佳猜测的一个华丽的表述

 

估计只是对参数真实值的最佳猜测的一个华丽表述。这是你的猜测值,而估计量是你用于获得该数字的公式。

让我告诉你,你在统计估计方面已经非常了不起。准备好了吗?

假设你只知道其中一棵树高23米。你能告诉我对所有树木的真实平均高度的估计吗?

23米?对,我也这么觉得!

如果这是我们唯一的信息,我们只能猜测23米;如果我们猜测其他任何数字,我们就是在胡诌。23米是我们知道的全部,所以我们只能猜23米。为了得到别的东西,我们必须结合更多的信息(在这个例子中没有)或者做出假设......这就又是另外的事情了。

好的,我们做另一个尝试!假设我们有一个样本,我们所知道的是它的高度平均为22.5米。现在你最好的猜测是什么。

 

统计学有多无聊?谷歌统计学家带你证明

 

 

 

22.5米?

根据几个教科书中的估计方法,包括矩法估计法,极大似然估计法等得到的最后答案和你的直觉是相同的!在现实生活中99%以上的案例表明,只需将你的样本视为你的总体并随意使用其中的任何内容即可获得最佳猜测。你不需要任何特殊课程。棒棒哒,我们完成了!

你总是需要统计学,这是一个谎言;你不需要。如果你只是想得到最好的猜测而获得灵感,分析是你的最佳选择。摆脱p值,你不需要不必要的压力。

相反,你可以选择按照这些原则生活:越多(相关)数据越好,并且你的直觉非常适合做出最好的猜测,但不知道这些猜测有多准确......所以要保持谦虚。

但是,请不要认为我在抨击我的学科。我花了十多年的时间致力于统计学,它并不是一门一无是处的学科。

所以,在合适的时候使用统计方法才是有用的,非常有用的。

最后,你什么时候真的需要统计学呢?Cassie也给出了这张决策图,拿好不谢

统计学有多无聊?谷歌统计学家带你证明

 


推荐阅读
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • Ubuntu安装常用软件详细步骤
    目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • 拥抱Android Design Support Library新变化(导航视图、悬浮ActionBar)
    转载请注明明桑AndroidAndroid5.0Loollipop作为Android最重要的版本之一,为我们带来了全新的界面风格和设计语言。看起来很受欢迎࿰ ... [详细]
  • 3.223.28周学习总结中的贪心作业收获及困惑
    本文是对3.223.28周学习总结中的贪心作业进行总结,作者在解题过程中参考了他人的代码,但前提是要先理解题目并有解题思路。作者分享了自己在贪心作业中的收获,同时提到了一道让他困惑的题目,即input details部分引发的疑惑。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
  • 本文介绍了Java集合库的使用方法,包括如何方便地重复使用集合以及下溯造型的应用。通过使用集合库,可以方便地取用各种集合,并将其插入到自己的程序中。为了使集合能够重复使用,Java提供了一种通用类型,即Object类型。通过添加指向集合的对象句柄,可以实现对集合的重复使用。然而,由于集合只能容纳Object类型,当向集合中添加对象句柄时,会丢失其身份或标识信息。为了恢复其本来面貌,可以使用下溯造型。本文还介绍了Java 1.2集合库的特点和优势。 ... [详细]
  • Centos7搭建ELK(Elasticsearch、Logstash、Kibana)教程及注意事项
    本文介绍了在Centos7上搭建ELK(Elasticsearch、Logstash、Kibana)的详细步骤,包括下载安装包、安装Elasticsearch、创建用户、修改配置文件等。同时提供了使用华为镜像站下载安装包的方法,并强调了保证版本一致的重要性。 ... [详细]
  • 本文介绍了互联网思维中的三个段子,涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例,探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验,三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]
author-avatar
牛妈是007
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有