我对此很好奇.
我想检查哪个函数更快,所以我创建了一个小代码,我执行了很多次.
public static void main(String[] args) { long ts; String c = "sgfrt34tdfg34"; ts = System.currentTimeMillis(); for (int k = 0; k < 10000000; k++) { c.getBytes(); } System.out.println("t1->" + (System.currentTimeMillis() - ts)); ts = System.currentTimeMillis(); for (int i = 0; i < 10000000; i++) { Bytes.toBytes(c); } System.out.println("t2->" + (System.currentTimeMillis() - ts)); }
"第二个"循环更快,因此,我认为hadoop中的Bytes类比String类中的函数更快.然后,我改变了循环的顺序,然后c.getBytes()变得更快.我执行了很多次,我的结论是,我不知道为什么,但是在第一个代码执行后我的VM中发生了一些事情,以便第二个循环的结果变得更快.
你知道有什么不对,因为内部Bytes.toBytes
调用c.getBytes
:
public static byte[] toBytes(String s) { try { return s.getBytes(HConstants.UTF8_ENCODING); } catch (UnsupportedEncodingException e) { LOG.error("UTF-8 not supported?", e); return null; } }
来源取自这里.这告诉你呼叫不可能比直接呼叫更快 - 在最好的情况下(即如果它被内联)它将具有相同的时间.但是,一般情况下,由于调用函数的开销很小,因此您会期望它稍慢一些.
这是在解释的垃圾收集环境中使用微型基准测试的经典问题,其中组件在任意时间运行,例如垃圾收集器.最重要的是,有一些硬件优化,如缓存,扭曲图片.因此,了解正在发生的事情的最佳方式通常是查看来源.
这是一个经典的Java基准测试问题.Hotspot/JIT/etc会在您使用它时编译您的代码,因此在运行期间它会变得更快.
首先在循环中运行至少3000次(在服务器上或在64位上) - 然后进行测量.
最有可能的是,代码在第一个循环运行时仍在编译或尚未编译.
将整个方法包装在外部循环中,这样您就可以运行几次基准测试,并且您应该看到更稳定的结果.
阅读:动态编译和性能测量.
"第二个"循环更快,因此,
当您执行方法至少10000次时,它会触发整个方法进行编译.这意味着你的第二个循环可以
更快,因为它是在第一次运行时编译的.
较慢,因为在优化时它没有关于代码执行方式的良好信息/计数器.
最好的解决方案是将每个循环放在一个单独的方法中,这样一个循环不会优化另一个循环并运行几次,忽略第一次运行.
例如
for(int i = 0; i < 3; i++) { long time1 = doTest1(); // timed using System.nanoTime(); long time2 = doTest2(); System.out.printf("Test1 took %,d on average, Test2 took %,d on average%n", time1/RUNS, time2/RUNS); }
您可能只是通过调用getBytes()为对象分配了这么多空间,JVM垃圾收集器启动并清理未使用的引用(带出垃圾).