我尝试过各种各样的推理,但我真的不明白这个情节.它基本上以不同的步幅显示了不同大小数组的读写性能.我明白,对于4个字节的小步幅,我读取了缓存中的所有单元格,因此我有很好的性能.但是当我拥有2 MB阵列和4k步幅时会发生什么?还是4M和4k的步幅?为什么表现如此糟糕?最后为什么当我有1MB阵列并且步幅是1/8的尺寸性能是不错的时候,当1/4的尺寸性能变得最差然后只有一半尺寸时,性能是否超级好?请帮助我,这件事让我发疯.
在此链接中,代码为:https://dl.dropboxusercontent.com/u/18373264/membench/membench.c