热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

到2025年,所有统计学家都应该成为数据科学家

到2025年,所有统计学家都应该成为数据科学家介绍长期以来,数据分析所需的技能一直是对统计理论、概念和概率论及其应用有很好的理解。早在1974年左右由PeterNaur创造数据科学

到 2025 年,所有统计学家都应该成为数据科学家

介绍

长期以来,数据分析所需的技能一直是对统计理论、概念和概率论及其应用有很好的理解。早在 1974 年左右由 Peter Naur 创造数据科学术语之前,统计学家就是这种情况。

然而,今天后者感觉主宰了数据分析领域,似乎将传统统计学家推到了一边。应该是这样吗?统计领域是否受到数据科学专业的威胁?数据科学家比统计学家好吗?我们如何在这些不同的技能组合上妥协并协调工作,以追求对输出质量的相同分析接受?

好吧,我不会重新回顾过去关于这两个核心领域的辩论,但数据科学的背后是统计学,除了后者从数量和分析其他非传统数据(例如图像、视频)的角度来看待大数据复杂的技术。简而言之,如果没有统计学知识,数据科学家就无法完成工作,统计学家需要掌握数据科学技能并将其添加到 21 世纪的技能清单中。我在某处读到 Jeff Wu 曾使用过这个词 ** 数据科学** 作为替代名称 ** 统计数据** 1985 年。因此,这为本文提出的论点提供了支持。

我是一名专业的经济学家,在我生活的大部分时间里都应用了统计技能。我的学位是经济发展,从第一年开始学习准系统统计数据,直到第四年。在那些日子里,唯一可用于统计分析的工具是 STATA、电子视图 (E-Views) 和其他工具。在肯特大学攻读硕士学位期间,我还掌握了 90% 统计应用的计量经济学。大学没有提供数据科学软件包,而且该术语从未实现。

简而言之,我在 2011 年自学了数据科学,并使用 R markdown 起草了我的论文。那是我对数据科学领域感兴趣的开始,今天我了解了这个领域的 80% 并且很高兴。

数据科学回顾

在数据科学领域,所有提供数据科学课程的机构都明确指出数据科学的三个基石是拥有领域知识

·数学-统计,

· 商业知识

· 编码(黑客)技能

如下面的维恩图所示。

这些领域可能有不同的技术术语,但指的是相同的事物。掌握这三个领域将更接近数据科学专业。

统计学家的论据:

小计算:如果以上 3 个领域知识相当于 100% 的数据科学维恩图,则意味着统计学家只需学习 33% 的图表即可成为数据科学家,因为他们已经满足 统计数据业务领域 ,在他们目前的工作中。剩下的就是让统计学家摆脱使用数据科学编程语言的传统统计软件。与数据科学领域的新手相比,需要 100% 的学习才能成为数据科学家(有人告诉他们 6 个月内!)。

那么,当统计学家已经达到所需技能的 66.6% 时,为什么他们不转向数据科学领域呢?让我们打破上面的维恩图来了解统计学家的立场。



  1. 统计学家已经具备商业和统计知识 数据分析师 .

2. Statistics 和 Coding 的交集相当于 机器学习 .这要求统计学家除了传统的统计软件知识外,还必须获得新的计算技能(有待填补)。

3. 统计、商业和编码之间的交叉相当于 数据科学 .这是最后的摊位。获得编码知识(也称为黑客技能)并将其应用于他们的业务将使统计学家进入数据科学的世界。

统计学家面临的唯一挑战是放弃使用传统的软件包,转而采用 R 和 Python 等 21 世纪的编程语言。

以上清楚地表明,数据科学是将统计和黑客技能应用于商业领域。因此,通过应用获得的技能的实践,获得编码技能将使统计学家更接近数据科学专业。

统计学家的新起点

我们已经确定了统计学家需要掌握的编码技能差距。对专有软件的依赖可能已成为过去。拥抱新的免费开源编程语言是学习编码技能的最佳方式。你猜怎么着——数据科学中的决策基于使用统计工具,这些工具确信统计学家在他们的应用中拥有广泛的曝光率。唯一的额外要求是如何将这些技能整合到机器学习研究中。以下是三个步骤:

首先 ,我建议有抱负的数据科学家使用这本书: 统计学习简介:在 R 中的应用 .这本书讲授了如何使用 R 编程语言应用统计数据。我在学习阶段使用了这本书,对于那些想要掌握数据科学的统计应用,尤其是使用 R 进行机器学习的人来说,这本书是最值得推荐的书。

第二 为了加深您的数据科学技能,拥有一系列项目,您可以在其中应用编程语言从数据中获得洞察力。从简单开始,随着时间的推移扩展您的领域。在工作中使用现有项目尝试在 R 或 Python 中处理相同的数据,进行探索性数据分析,创建图表,并向工作场所的专业数据科学家寻求帮助,不要害羞地接近他们。如果您的预算有限,可以利用 Udemy、Coursera、Data Camp 和其他公司提供的在线课程——您的目标不应该是“始终”获得证书,而是专注于获得新的相关技能,因为您已经做到了受过教育。不断地练习才是正道。

第三 ,学习编码技能有多种途径,常见的有:

统计学家 你在统计理论方面有很好的基础,并且多年来你已经将你的商业头脑和统计数据应用于制定商业决策。您只需要扩展一个领域知识,那就是上面讨论的编码。老实说,你真的不需要学习诸如人工智能之类的困难概念和一些你永远不会在工作中应用的机器学习概念(如果你已经被雇用的话)。

鼓舞人心的挑战 : 仔细看下面的维恩图,尝试在 PowerPoint 中重新创建图表,名称位于每个圆圈的中间,并重新定位圆圈,每个域名都不会穿过任何线条。你看到了什么?哪个部分最小?这就是获得数据科学技能徽章的容易程度。您已经具备成为数据科学家的技能!

结论

请记住,您可以通过仅使用一种编程语言(例如 R 或 Python)成为数据科学家(我说的是准系统应用程序,但也有一些基于重载的软件,例如 Hadoop 等)。不要强迫自己同时学习 R 和 Python,因为掌握其中一种语言的知识以后很容易过渡到另一种语言。这就像一个从纽波特去伦敦的计划,你可以开车、坐火车、坐飞机或步行!这是你的选择。从小处着手,犯错误,然后从中学习并改进。这就是要走的路。

到 2025 年,所有统计学家都必须成为数据科学家。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/25886/29081100



推荐阅读
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 如何用UE4制作2D游戏文档——计算篇
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 本文介绍了iOS开发中检测和解决内存泄漏的方法,包括静态分析、使用instruments检查内存泄漏以及代码测试等。同时还介绍了最能挣钱的行业,包括互联网行业、娱乐行业、教育行业、智能行业和老年服务行业,并提供了选行业的技巧。 ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
  • 闭包一直是Java社区中争论不断的话题,很多语言都支持闭包这个语言特性,闭包定义了一个依赖于外部环境的自由变量的函数,这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例,介绍了闭包的定义和特性。 ... [详细]
  • 数据结构与算法的重要性及基本概念、存储结构和算法分析
    数据结构与算法在编程领域中的重要性不可忽视,无论从事何种岗位,都需要掌握数据结构和算法。本文介绍了数据结构与算法的基本概念、存储结构和算法分析。其中包括线性结构、树结构、图结构、栈、队列、串、查找、排序等内容。此外,还介绍了图论算法、贪婪算法、分治算法、动态规划、随机化算法和回溯算法等高级数据结构和算法。掌握这些知识对于提高编程能力、解决问题具有重要意义。 ... [详细]
  • 在本教程中,我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后,我们将看到使用Flask创建AP ... [详细]
author-avatar
我爱盘小静永远永远
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有