非hdfs文件系统上的hadoop/yarn和任务并行化

 快乐小天使2602926543 发布于 2022-12-28 16:15

我已经实例化了一个Hadoop 2.4.1集群,并且我发现运行MapReduce应用程序将根据输入数据所处的文件系统类型进行不同的并行化.

使用HDFS,MapReduce作业将生成足够的容器,以最大限度地利用所有可用内存.例如,一个具有172GB内存的3节点集群,每个映射任务分配2GB,将创建大约86个应用程序容器.

在不是HDFS的文件系统上(如NFS或我的用例,并行文件系统),MapReduce作业将只分配可用任务的子集(例如,使用相同的3节点集群,大约25-40个容器是创建).由于我使用的是并行文件系统,所以我并不关心如果使用NFS会遇到的瓶颈问题.

是否有YARN(yarn-site.xml)或MapReduce(mapred-site.xml)配置,这将使我能够有效地最大限度地利用资源?

撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有