热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

2016数据科学报告:数据科学家依然受追捧

本文为数盟原创译文,转载时请务必注明出处为“数盟社区”,并将原文链接置于文首。出品方:CloudFlower前言我们的《2016数据科学家报告》是去年的努力的后续行动。我们的目的是调

本文为数盟原创译文,转载时请务必注明出处为“数盟社区”,并将原文链接置于文首。

出品方:CloudFlower

前言

我们的《2016数据科学家报告》是去年的努力的后续行动。我们的目的是调查有着多年经验和专业领域的专业数据科学家,从而了解他们的职业,以及他们每天的日常工作是怎样的。

我们的发现非常有趣。对创业公司而言,数据科学家把多数时间花在做他们不喜欢做的事。然而,他们中的绝大多数仍然热爱他们的工作。我们重点关注数据科学家认为机器学习在特殊领域和整个行业中有何等的重要性。我们还得到了关于这个领域未来五年发展的各种观点迥异的预测。

方法

与我们的《2015数据科学报告》相同的是,今年的报告来自于对真实科学家的真实调查和访谈。我们问了他们一系列关于他们的日常工作的问题,他们遇到什么挫折,以及更多问题。我们也在我们的平台上提供了几个职位来寻找雇主正在寻找的特定技能,从而使科学家知道什么技能是需求量最大的。我们将最有趣的趋势整理出来,并在报告中呈现。我们希望你喜欢它。

谁参与了调查?

首先,让我们了解一下我们调查的数据科学家种类。我们的观点收集覆盖了从高级CDO到初入领域的人。他们有不同的技能和多样化的专长领域。

由于数据科学仍然是一个相对新的领域——曾经在《哈佛商业评论》中被D.J Patil称为21世纪称为21世纪最性感的工作——这并不奇怪,大约三分之二的受访者进入该领域仅5年或更少。

这并不是说我们只调查刚从大学毕业的数据科学家,其实,我们最大的受访者范围介于两年到五年经验之间。

发现

数据科学家依然供不应求(而且可能会变得更严重)

去年我们发现,有79%的受访者表示,有在该领域的数据科学家的短缺。虽然这已经十分惊人,但我们的调查发现在2016年这种情况可能会变得更糟。

83%的受访者表示没有足够的数据科学家来解决问题。而随着越来越多的企业和组织对数据进行投资,这一趋势可能继续。

数据科学家热爱他们的工作

尽管没有我们没有足够的数据科学家来走访,典型的数据科学家是热爱自己的工作的。我们要求受访者在一个简单的五点量表上排出他们在当前位置的幸福感。超过三分之一的受访者(35%),给他们工作打出最高分。约一半(47%)给了4分。

换一种说法?超过80%的数据科学家在工作中真的很开心。

那么,为什么会这样?当然,你很难从一个简单的调查来解释它。但是从不同的反应来看我们得到了关于数据科学的未来,最显著的收获是受访者对工作领域的革新如此兴奋。他们通过实践举出示例,他们看到他们的工作如何变得更加有趣、减少重复,都同时表达着真实的对工作的热情。

随着数据的科学变得越来越司空见惯,同时也在一点点的被揭秘,我们预计这一趋势将持续下去。毕竟,去年的受访者对他们的工作同样表示兴奋(约79%是“满意”或更好)。

一个数据科学家如何度过一天

这里对数据科学家的流行看法与现实相左。一般情况下,我们认为数据科学家就是建立算法,研究数据,做预测分析。但是这实际上不是他们花费大部分时间在做的事。

正如你可以从上面的图看到的,我们所调查的每5个数据科学家中有3个实际把最多的时间花在清理和组织数据上。你可能听说过这个被称为“数据的争吵”或相对于数字看门的工作。来自列表验证中的一切删除逗号来调试数据库-那段时间加起来,这极大地增加了。凌乱数据是迄今为止典型数据科学家的工作流程最费时的地方。而近60%的人表示他们花了太多的时间做这个事。

为什么会出现上述问题?

简单的说,数据争吵很无趣。它是无止境的。事实上,在几年以前,纽约时报估计多达80%的数据科学家都把时间花在这种工作上。

在这里有必要指出,数据清洗非常重要。你不能做那种数据科学家真正喜欢与杂乱的数据做的工作。它需要清洗,贴标签,并被丰富,你才能信任它的输出值。

这里的问题是双重的:数据科学家们根本不喜欢做这种工作,正如前面所提到的,这类工作占用了大部分时间。我们问我们的受访者什么是他们的工作里最不愉快的一部分。

这是他们的回答:

请注意最后的两个图表是怎样反映出彼此的。科学家们做的最多事情是他们最喜欢的事情。去年,我们发现,受访者更倾向于做他们的工作中更具创造性的、有趣的部分,如预测分析和挖掘数据的模式。那是真正的价值所在。但同样,你根本不能做这项工作,除非数据被正确地标记。没有人喜欢标签数据。

数据科学家们有他们需要的吗?

有了世界上的数据科学家的短缺,我们想知道他们是否认为他们在工作中得到了正确的支持。毕竟,当你需要更多的数据科学家的时候,你会发现只有一个人在做各种工作。

大多数情况下,他们有他们所需要的工具。更广泛的说,这包括了工具、应用和程序。我们询问被调查者是否同意下列声明:我有我需要的、使我的工作有效的工具。

以下是他们的答案:

值得注意的是,只有14%的被调查者认为他们被他们的工具所阻碍。证据表明,虽然数据科学家的数量不够,但是他们的组织致力于给他们成功的最佳机会。这也不是一件坏事,我们想了解一些东西。我们问我们的受访对象,他们希望他们的雇主提供什么领域的支持,但是没有得到。答案并不惊奇:大约有四分之一的受访者希望有一个更大的团队。数据科学家短缺的数据已经预测到了这一点。但他们最希望的是来自他们的管理或管理团队更多的支持和方向(27%)。

数据科学技能需求TOP10

数据科学,作为一个领域,仍然是不断发展的。也就是说今天的最佳技能可能会被日后更好的技能取代。我们看了近4000个在LinkedIn上展示的数据科学工作,研究招聘者希望新员工具备哪些技能。我们把那些招聘信息通过CrowdFlower平台po出来并且标上我们的独特标记:哪些技能出现在哪些岗位上。

以下是数据科学家的技能需求TOP10:

数据科学的下一步是什么?

接下来,简单地说,就是机器学习。机器学习在某种程度上已经普及了,大多数的世界上最大的公司,科技界的大玩家像谷歌、微软、亚马逊、IBM和Facebook将他们的机器学习工具开源,产生了巨大的推动作用。

我们想知道我们的受访者是否会在未来的一年关注机器学习。我们问他们机器学习有多重要,用1-5来衡量。换句话说:真的很重要。超过一半的受访者指出机器学习对他们的公司和部门有意义,而在10个人中只有1个人标记这不是很重要。我们期望这个10%到明年会继续缩小。

结论

随着越来越多的组织采用的数据作为决策的主要驱动力,简单化、流程顺利的数据科学团队将是最重要的。但目前的现状很可能是不可持续的。一方面,我们看到数据科学家的缺乏,他们花太多时间清理和修改数据。这是一次可以更好的服务于预测分析和建立机器学习的做法,这并不是说清洁和标记数据是不重要的,当然。对不良数据进行分析是一种吞吐垃圾的场景。相反,想要得到数据的组织应该有目的地解决他们的团队现在的问题。组织应该和他们沟通,并找出什么占用了他们的时间。通过减少他们的团队花在清洁数据上的时间,他们将能够使他们的团队做数据科学家真正喜欢做的有价值的任务。


推荐阅读
  • 2018深入java目标计划及学习内容
    本文介绍了作者在2018年的深入java目标计划,包括学习计划和工作中要用到的内容。作者计划学习的内容包括kafka、zookeeper、hbase、hdoop、spark、elasticsearch、solr、spring cloud、mysql、mybatis等。其中,作者对jvm的学习有一定了解,并计划通读《jvm》一书。此外,作者还提到了《HotSpot实战》和《高性能MySQL》等书籍。 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 本文介绍了如何使用Power Design(PD)和SQL Server进行数据库反向工程的方法。通过创建数据源、选择要反向工程的数据表,PD可以生成物理模型,进而生成所需的概念模型。该方法适用于SQL Server数据库,对于其他数据库是否适用尚不确定。详细步骤和操作说明可参考本文内容。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • PHP设置MySQL字符集的方法及使用mysqli_set_charset函数
    本文介绍了PHP设置MySQL字符集的方法,详细介绍了使用mysqli_set_charset函数来规定与数据库服务器进行数据传送时要使用的字符集。通过示例代码演示了如何设置默认客户端字符集。 ... [详细]
  • 本文是一位90后程序员分享的职业发展经验,从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光,包括与朋友一起玩DOTA的回忆,并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队,如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验,作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ... [详细]
  • 本文介绍了在Hibernate配置lazy=false时无法加载数据的问题,通过采用OpenSessionInView模式和修改数据库服务器版本解决了该问题。详细描述了问题的出现和解决过程,包括运行环境和数据库的配置信息。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
author-avatar
敬炜8965肀
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有