有人可以解释这个计算并给出清晰的解释吗?
快速计算表明,如果寻道时间约为10 ms且传输速率为100 MB/s,为了使寻道时间为传输时间的1%,我们需要使块大小约为100 MB.默认值实际为64 MB,但许多HDFS安装使用128 MB块.随着新一代磁盘驱动器的传输速度的增长,这个数字将继续向上修正.
Svend.. 26
块将作为磁盘上的连续信息存储,这意味着完全读取它的总时间是定位它的时间(寻找时间)+读取其内容的时间而不再进行任何搜索,即sizeOfTheBlock / transferRate = transferTime
.
如果我们保持比率seekTime / transferTime
很小(文本中接近.01),这意味着我们正在从磁盘读取数据的速度几乎与磁盘施加的物理限制一样快,并且花费最少的时间来查找信息.
这很重要,因为在map reduce作业中,我们通常遍历(读取)整个数据集(由HDFS文件或文件夹或文件夹集表示)并在其上执行逻辑,因此我们必须花费全部transferTime
来完成所有操作从磁盘中取出数据,让我们尽量减少大块搜索和读取所花费的时间,因此数据块的大小.
在更传统的磁盘访问软件中,我们通常不会每次都读取整个数据集,因此我们宁愿花更多的时间在较小的块上进行大量的搜索,而不是浪费时间来传输我们不需要的太多数据.
块将作为磁盘上的连续信息存储,这意味着完全读取它的总时间是定位它的时间(寻找时间)+读取其内容的时间而不再进行任何搜索,即sizeOfTheBlock / transferRate = transferTime
.
如果我们保持比率seekTime / transferTime
很小(文本中接近.01),这意味着我们正在从磁盘读取数据的速度几乎与磁盘施加的物理限制一样快,并且花费最少的时间来查找信息.
这很重要,因为在map reduce作业中,我们通常遍历(读取)整个数据集(由HDFS文件或文件夹或文件夹集表示)并在其上执行逻辑,因此我们必须花费全部transferTime
来完成所有操作从磁盘中取出数据,让我们尽量减少大块搜索和读取所花费的时间,因此数据块的大小.
在更传统的磁盘访问软件中,我们通常不会每次都读取整个数据集,因此我们宁愿花更多的时间在较小的块上进行大量的搜索,而不是浪费时间来传输我们不需要的太多数据.