热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoop进军机器学习:Cloudera收购Myrrix共创“BigLearning”

摘要:作为人工智能的一个分支机器学习已经实现商业化,并成为大数据的典型使用案例。Hadoop领头公司Cloudera收购了机器学习创业公司Myrrix&
摘要:作为人工智能的一个分支机器学习已经实现商业化,并成为大数据的典型使用案例。Hadoop领头公司Cloudera收购了机器学习创业公司Myrrix,Hadoop又会在机器学习领域创造怎样的奇迹呢?

机器智商已达四岁:亲,是时候考虑你的饭碗了一文引起了大家的广泛关注,好多读者发表了一些很科幻的评论,很有创意可以去写篇科幻小说了。也有很多读者在评论中说真正的人工智能距离我们还很遥远,估计我们这些人的有生之年是看不到像我们这么聪明的机器了。但是作为人工智能的一个分支——机器学习已经了实现商业化,比如推荐引擎技术,最常见的应用就是我们浏览网页时各种为你”量身定做“的小广告。

目前机器学习已经成为大数据的典型使用案例,通过收购机器学习创业公司Myrrix,Cloudera又朝着其大数据一站式服务点的目标迈进了一步。Myrrix创始人Sean Owen, 7月16日上午在博客中正式宣布了这一收购,Sean Owen目前已担任Cloudera位于伦敦的数据科学部总监。

 

Cloudera在Hadoop生态系统中,算得上是规模最大、知名度最高的公司之一。Cloudera创建于2008年,致力于为数据驱动型企业提供基于Apache Hadoop的软件、支持、服务和培训。纽约时报曾这样报道Cloudera的成立:Cloudera的成立是一个典型的硅谷故事——来自Google(Christophe Bisciglia)、Facebook(Jeff Hammerbacher)和Yahoo!(Amr Awadallah)的顶级工程师联合Oracle前高管(Mike Olson)共同解决快速分析大规模数据的相关问题。

2012年,Owen创办了Myrrix,Myrrix是一个实时的、可扩展的集群和推荐系统,从 Apache Mahout项目演变而来。

应客户的需求,Cloudera需要在应用层面取得更大发展,目前还很难判断这项收购对Cloudera的意义。正如Owen在文章中提到的:

机器学习已经是一个有几十年历史的领域了,为什么大家现在这么热衷于这项技术?Hadoop和便宜的硬件使得大数据分析更加容易了。随着硬盘和CPU越来越便宜,以及开源数据库和计算框架的成熟,创业公司甚至个人都可以进行TB级以上的复杂计算。对于机器学习来说这是千载难逢的好机会。因为更多的数据可以使机器学习算法表现得更好。如果收集和分析数据的成本变低,而学习的价值提高的话,机器学习的应用场景也会呈爆炸式的增长。

Cloudera的高管们多年来一直坚称, 该公司会一直提供平台服务,不会进入应用领域。但是该公司最近的一些动作,比如 Impala引擎和 Cloudera搜索,表明他至少已经意识到自己不应该只做MapReduce作业的平台。

Owen在忙于将Myrrix技术与Cloudera的CDH(Cloudera’s Distribution Including Apache Hadoop)做有效的结合,机器学习新技术还有多久才能落实到Cloudera的应用层面还有待观察。但是Owen相信与Cloudera的合作肯定能够实现其称为“Big Learning”的目标:

没有可用的上层应用程序,便宜的基础设施也于事无补。而且,机器学习大多数研究假设所有数据都在一台机器上进行计算,所以机器学习算法运用到数据并行计算的Hadoop中需要一些巧妙的改造。这在Mahout项目中体现得最为明显,很多算法都在Hadoop中实现了并行化。 

将机器学习与Hadoop相结合还有很多工作要做,早期Hadooop也只是一个爱冒险的专家才会积极尝试的源代码包。但是,Cloudera通过扩展、打包和提供支持,将Hadoop推向了一个更大的平台。同样的事情也会发生在Myrrix这种“Big Learning”的应用程序上,这一直也都是Myrrix的愿景,现在我们在与Cloudera合作朝着这个愿景努力。 

无独有偶,另一家机器学习的创业公司Ayasdi,也在7月16日宣布获得了3060万美元的B轮融资。Gunnar Carlsson和Gurjeet Singh共同创立了Ayasdi公司,该公司使用一项称为拓扑数据分析的技术,创建有视觉震撼力的视图,帮助客户为产品进行分类。 

许多人对机器学习的印象可能都是实验室中大量晦涩难懂的理论和数据分析,然而已经有很多创业公司将其商业化,以下是五家试图将机器学习简单化的创业公司:

Alpine data Labs:Greenplum的子公司(EMC是其投资者之一),主要研究方向是预测分析,其软件可以嵌入到公司内部的数据存储中(无论是Hadoop还是其它任意流行的数据库)。通过绘制流程图,用户可以对数据进行分析。

 

图:Alpine Data的用户界面

Context Relevant:Context Relevant通过一个预先包装好的算法库,可以在数秒内为用户数据建立预测模型,主要用于欺诈检测、客户流失以及其它的经典预测分析用例。其创始人兼CEO Stephen Purpura说:“只要会用Excel,就能很好的使用我们的产品”。

Datameer:几年前,Datameer为Hadoop分析开发了一个电子表格界面,目前,这个电子表格中已添加了数百个功能。在3.0版本中,通过预置的机器学习算法,用户只需点击几次鼠标就可以建立集群和列依赖。

 

图:Datameer生产的列依赖图表

Skytree:Skytree的主要产品是一些大型的企业级机器学习软件,但是它们也推出了一个针对小型用户的产品Adviser,目前还是测试版。它是一个桌面应用程序,可以方便地连接到网络、本地或数据源,用户可以选择算法库以及输出样式。界面的设计还不太完善,但是你可以免费的在客户端分析10万行的数据,并得到交互式的报告结果还有什么可抱怨的!

图:关于UFO目击者的Skytree Adviser生成报告 

Wise.io:Wise.io的计划是将其创始人作为天文学研究人员的经验应用到商业领域。Wise.io的产品是一个直观、易于使用的机器学习平台,几个简单的点击就可以建立和部署模型,而且很快。联合创始人Joshua Bloom曾说某客户在使用其产品后,分析TB级大小的传感数据所用时间从300个小时减少到了20分钟。(编译/周小璐 审校/仲浩)

相关链接: 

Myrrix Joins Cloudera to Bring "Big Learning" to Hadoop

Cloudera buys machine learning startup Myrrix

Meet the startups making machine learning an elementary affair


Cloud Edge:2013年国际“云先锋”系列报道
序号 公司名称 成立时间 CEO/CTO 风险投资 公司产品/方向
1. HStreaming 2011年 Jana Uhlig $ 1M (B) 实时Hadoop系统
2. CitusData  2012年   Matt Ocko    CitusDB 
3. Backblaze  2009年  Gleb Budman    开源存储硬件 
4. Kickboard  2009年 Jennifer Medberry $2.8M(A)  Kickboard(数据分析) 
5. Elasticsearch  2012年  Shay Banon  $24 M(B)  开源搜索引擎 
6. Appcore  2008年 Jeff Tegethoff  $6M  (B)  企业内部部署IaaS平台 
7. Pertino  2011年 Craig Elliott  $20 M(B)  软件定义网络(SDN) 
8. SwiftStack 2011年 Joe Arnold $6.1M(A) 软件定义存储
9. Spiral Genetics  2009年 Adina Mangubat $3M(A)  DNA序列数据分析平台
10. DNNResearch  2012年 Geoffrey Hinton    深度学习
11. AppNeta  2011年 Jim Melvin  $16M(C)   应用性能管理(APM) 
12. Concurrent  2008年 Chris K. Wensel $4M(A)   Java大数据框架 
13. AirWatch  2003年 John Marshall  $200M(A)  移动设备管理 
14. Pluribus   2012年 Robert Drost  $44M(C)   虚拟化网络
15. Bina Technology  2006年 Narges Bani Asadi  $6.5M(B)  基因测序平台
16. Sociocast  2010年 Albert Azout   $1M(B)  数据预测分析
17. ParElastic  2010年  Ken Rugg   $5.7M(A)  数据库虚拟化引擎 
18. Optimizely  2009年  Dan Siroker   $28M(A)  A/B 测试服务 
19. Instart Logic  2010年  Manav Mital   $17M(B)  网络性能 
20. CloudFlare  2010年  Matthew Prince   $20M(B)  云安全、网络性能 
21. Ionic Security  2012年  Ted Schlein   $9.4M(A)  云安全 
22. MemSQL  2011年  Eric Frenkiel   $5M(A)  MemSQL 
23. Qubole  2012年  Ashish Thusoo   $7M(A)  AWS平台Hive服务 
24. Clustrix  2005年  Robin Purohit   $16.5M(C) Clustrix Sierra 
25. Cloudant  2008年  Derek Schoettle   $12M(B)  DBaaS 
26. DataTorrent  2012年  Phu Hoang   $8M(B)  实时数据分析
27. WibiData  2010年  Christophe Bisciglia   $15M(B)  Hadoop商用套件
28. Dataminr  2009年  Ted Bailey   $30M(C)  实时数据分析
29. PlumGrid  2011年  Awais Nemat   $10.7M(A) 软件定义网络(SDN) 
30. Meldium  2012年 Anton Vaynshtok   $1 M(A)  商业密码管理 
31. Myrrix 2012年 Sean Owen    大数据,机器学习
32. Alpine data Labs  2010年 Joe Otto  $7.5 M(A) 大数据预测分析
33. Context Relevant  2012年 Stephen Purpura  $7 M(A)  大数据预测分析
34. Datameer  2009年 Stefan Groschupf $9.2M(B)  大数据预测分析
35. Skytree  2012年 Alexander Gray    机器学习
36. Wise.io  2012年 Joshua Bloom    机器学习


推荐阅读
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • Ubuntu安装常用软件详细步骤
    目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取,用于解析LOCAL_LISTENER,并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例,并展示了listener.ora文件的内容。 ... [详细]
author-avatar
man_2_瞳皆哥仔
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有