我是hadoop的新手,我也有同样的问题.
这就是我在hadoop中所理解的.
1)当在hadoop中写入任何文件时,它以块的形式存储在所有数据节点上(默认为64MB)
2)当我们运行MR作业时,将从该块创建拆分,并在每个数据节点上处理拆分.
3)从每个拆分记录读取器将用于在映射器侧生成键/值对.
问题:
1)一个数据节点一次可以处理多个拆分吗?如果数据节点容量更大怎么办?
我认为这是MR1的限制,而MR2 YARN我们有更好的资源利用率.
2)是否会在数据节点以串行方式读取拆分,还是可以并行处理以生成键/值对?[通过随机访问数据节点拆分中的磁盘位置]
3)map/reduce架构中的'slot'术语是什么?我正在阅读其中一篇博客,并表示YARN将在Datanode中提供更好的插槽利用率.