MapReduce或Spark在Hadoop上进行批处理?

 全球时_尚热门焦点吧 发布于 2022-12-14 10:03

我知道MapReduce是一个很好的Hadoop批处理框架.但是,Spark也可以用作Hadoop上的批处理框架,与MapReduce相比,它提供了可扩展性,容错性和高性能.Cloudera,Hortonworks和MapR也开始用YARN支持Spark on Hadoop.

但是,很多公司仍在使用Hadoop上的MapReduce Framework进行批处理而不是Spark.

那么,我试图了解Spark在Hadoop上用作批处理框架的当前挑战是什么?

有什么想法吗?

1 个回答
  • 对于迭代算法,Spark比mapreduce快一个数量级,因为它可以将中间数据缓存在本地JVM中,从而获得显着的加速.

    Spark 1.1主要包括一个新的shuffle实现(基于排序的shuffle而不是基于hash的shuffle),一个新的网络模块(基于netty而不是使用块管理器来发送shuffle数据),一个新的外部shuffle服务使Spark执行最快的PetaByte排序(在具有46TB RAM的190个节点上)和TeraByte排序打破了Hadoop的旧记录.

    Spark可以轻松处理比集群的聚合内存大一个数量级的数据集.所以,我的想法是Spark正朝着正确的方向前进,最终会变得更好.

    作为参考,此博客文章解释了数据库如何执行PB级排序.

    2022-12-14 10:05 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有