热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据科学家无需太多,让大数据好用就够了

编者注:纽约时报曾撰文称大数据时代已经来临,数据科学家曾被冠以最性感职业之称,可是电子商务咨询公司Baynote的创始人兼CTOScottBrave却说我们不需要更多的数据


    编者注:纽约时报曾撰文称大数据时代已经来临,数据科学家曾被冠以最性感职业之称,可是电子商务咨询公司 Baynote 的创始人兼 CTO Scott Brave 却说我们不需要更多的数据科学家,让大数据更方便使用就够了。以下是他的看法:


   大数据是今年的热门,以至于纽约时报等媒体均宣称大数据时代已经来临。挖掘大数据可以产出洞察力以及利用大数据进行知情决策和行动所需的激励和架构。而挖掘这些金矿的矿工,就是数据科学家,所以这种矿工也被冠以未来最性感职业的称号。但是,今天任何一篇有关大数据的文章最后都不可避免地得出这样一个结论,即数据科学家严重短缺。麦肯锡 2011 年被热议的一项调查就指出,许多组织普遍缺乏这类熟练技能的人才。


   但是如何绕开这一瓶颈,让大数据直接为商业领袖所用却很少有人讨论。软件产业此前已经做过这样的事情,现在我们还可以再效仿。



   为了实现这一目标,首先必须理解数据科学家在大数据中的角色。目前,大数据就是类似于类似 Hadoop、NoSQL、Hive 以及 R 那样的分布式数据架构和工具的一个大熔炉。在这种高技术环境下,数据科学家充当了这些系统和业务侧领域专家之间信息传递者与中介。


   总的来说数据科学家有三个主要角色:数据架构、机器学习以及分析。虽然这些角色都很重要,但是并非所有的公司都需要像 Google 和 Facebook 那样拥有一支高度专业的数据团队。只要能开发出与目的相符的产品,并让技术的复杂性尽可能的低,那么大数据的威力就可以直接交到业务用户手上。


   作为例子,我们可以回顾一下世纪之交的 web 内容管理革命。网站曾风靡一时,但领域专家却屡屡碰壁,因为 IT 是瓶颈。每每有新内容添加时都需要进行编排,有时候甚至需要 IT 精英硬编码进去。这个问题后来是如何解决掉的?我们把这些基本需求概括并抽象进内容管理系统之中,然后让它们简单到连不懂技术的人也懂使用。瓶颈于是被打破了。


   接下来,我们以网上贸易为背景分别看看数据科学家的这三种角色。


   数据架构


   降低复杂性的关键是限制范围。几乎所有的电商都关心用户行为的捕捉—活动、购物、离线交易以及社会化数据,几乎每一个电商也都会有产品目录和客户档案。


   只要把范围限制到这一基本功能上,就可以为标准数据输入创建模板,从而大大简化数据捕捉与管道连接。在 2/8 原则下(80% 的大数据用例可利用 20% 的技术实现),我们不需要把所有不同的数据架构和工具(Hadoop、Hbase、 Hive、Pig、Cassandra 以及 Mahout)都打包进来。


   机器学习


   好吧,数据架构似乎可以用系统搞定,机器学习总得要人来调教吧。如果需求是高度定制化的话,也许数据科学家是必要的。这里面的很多事情都可以抽象出来,像推荐引擎和个性化系统等。比方说,数据科学家的很大一部分工作是做出“特征”模式,即把输入数据组合好,让机器有效学习。过程差不多就是数据科学家把数据摆弄好然后塞进机器,再按一下“启动”即可,数据科学家的工作只是需要帮助机器以一种有意义的方式来审视这个世界。


   可是如果按照单个领域来看,特征创建也是可以模板化的。比方说,每个电子商务网站都有购买流和用户细分的概念。如果领域专家可以直接将其思路编码进系统,将领域体现到系统里面去,那么数据科学家这个翻译和中介是不是就可以省掉了?


   分析


   从数据当中自动分析出最有价值的东西从来都不是一件易事。但是提供针对单个领域的透视镜是有可能的—这可以让业务专家做试验,就像数据科学家那样。这似乎是一个最容易解决的问题,因为市场上早已经有了各种特定领域的分析产品。


   但是这些产品对于领域专家来说约束太多,不易接近。界面友好性绝对还有改进的空间。我们还需要考虑机器如何从分析得出的结果中学习。这是关键的反馈环路,业务专家希望能修改这个环路。这又是一个提供模板化界面的机会。


   正如 CMS 领域的情况一样,这些解决方案也不能包治百病。但是针对泛化的一组数据问题采用技术解决方案可以缓解数据科学家的瓶颈问题。一旦领域专家能够直接跟机器学习系统协作,我们就能够进入大数据的新时代—一个人和机器可以相互学习的新世纪。也许到了那个时候,大数据能解决的问题就能多于它制造的问题了。



推荐阅读
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • 本文介绍了如何在Mac上使用Pillow库加载不同于默认字体和大小的字体,并提供了一个简单的示例代码。通过该示例,读者可以了解如何在Python中使用Pillow库来写入不同字体的文本。同时,本文也解决了在Mac上使用Pillow库加载字体时可能遇到的问题。读者可以根据本文提供的示例代码,轻松实现在Mac上使用Pillow库加载不同字体的功能。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • Sleuth+zipkin链路追踪SpringCloud微服务的解决方案
    在庞大的微服务群中,随着业务扩展,微服务个数增多,系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来,实现请求链路跟踪。通过Feign调用和Request传递TraceId,将整个调用链路的服务日志归组合并,提供定位和追踪的功能。 ... [详细]
  • ejava,刘聪dejava
    本文目录一览:1、什么是Java?2、java ... [详细]
  • 在本教程中,我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后,我们将看到使用Flask创建AP ... [详细]
  • AstridDAO 专访:波卡稳定币黑马 BAI
    加入Pol ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
author-avatar
violet
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有