调用numbajit函数时,cProfile会增加很多开销

作者：Yyao | 来源：互联网 | 2022-12-10 13:40

如何解决《调用numbajit函数时,cProfile会增加很多开销》经验，为你挑选了1个好方法。

将纯Python无操作函数与装饰的无操作函数进行比较@numba.jit,即:

import numba

@numba.njit
def boring_numba():
    pass

def call_numba(x):
    for t in range(x):
        boring_numba()

def boring_normal():
    pass

def call_normal(x):
    for t in range(x):
        boring_normal()

如果我们计算时间%timeit,我们会得到以下结果:

%timeit call_numba(int(1e7))
792 ms ± 5.51 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit call_normal(int(1e7))
737 ms ± 2.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

一切都很合理; numba函数的开销很小,但并不多.

但是,如果我们使用cProfile这个代码进行分析,我们会得到以下结果:

cProfile.run('call_numba(int(1e7)); call_normal(int(1e7))', sort='cumulative')

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
     76/1    0.003    0.000    8.670    8.670 {built-in method builtins.exec}
        1    6.613    6.613    7.127    7.127 experiments.py:10(call_numba)
        1    1.111    1.111    1.543    1.543 experiments.py:17(call_normal)
 10000000    0.432    0.000    0.432    0.000 experiments.py:14(boring_normal)
 10000000    0.428    0.000    0.428    0.000 experiments.py:6(boring_numba)
        1    0.000    0.000    0.086    0.086 dispatcher.py:72(compile)

cProfile认为调用numba函数有很大的开销.这扩展到"真正的"代码:我有一个函数,简单地称我的昂贵的计算(计算是numba-JIT编译),并cProfile报告包装函数占用了总时间的三分之一左右.

我不介意cProfile添加一些开销,但如果它在增加开销的地方大不一致,那就不是很有帮助了.有没有人知道为什么会发生这种情况,是否有任何可以做的事情,和/或是否有任何其他的分析工具与numba没有严重的交互？

1> MSeifert..：

当你创建一个numba函数时,你实际上创建了一个numba Dispatcher对象.该对象"重定向"一个"调用"到boring_numba正确的(就类型而言)内部"jitted"函数.所以即使你创建了一个名为的函数boring_numba- 这个函数没有被调用,所谓的是基于你的函数的编译函数.

只是这样你可以看到函数boring_numba被调用(即使它不是,所谓的是CPUDispatcher.__call__)在分析期间Dispatcher对象需要挂钩到当前线程状态并检查是否有运行的探查器/跟踪器以及是否"是"它使它看起来像boring_numba被调用.这最后一步是产生开销的原因,因为它必须伪造一个"Python堆栈帧" boring_numba.

更技术性:

当你调用numba函数时,boring_numba它实际上调用Dispatcher_Call哪个是包装器call_cfunc,这是主要区别:当你有一个分析器运行时,处理分析器的代码构成了函数调用的大部分(只需将if (tstate->use_tracing && tstate->c_profilefunc)分支与else分支进行比较)如果没有探查器/跟踪器,则正在运行):

static PyObject *
call_cfunc(DispatcherObject *self, PyObject *cfunc, PyObject *args, PyObject *kws, PyObject *locals)
{
    PyCFunctionWithKeywords fn;
    PyThreadState *tstate;
    assert(PyCFunction_Check(cfunc));
    assert(PyCFunction_GET_FLAGS(cfunc) == METH_VARARGS | METH_KEYWORDS);
    fn = (PyCFunctionWithKeywords) PyCFunction_GET_FUNCTION(cfunc);
    tstate = PyThreadState_GET();
    if (tstate->use_tracing && tstate->c_profilefunc)
    {
        /*
         * The following code requires some explaining:
         *
         * We want the jit-compiled function to be visible to the profiler, so we
         * need to synthesize a frame for it.
         * The PyFrame_New() constructor doesn't do anything with the 'locals' value if the 'code's
         * 'CO_NEWLOCALS' flag is set (which is always the case nowadays).
         * So, to get local variables into the frame, we have to manually set the 'f_locals'
         * member, then call `PyFrame_LocalsToFast`, where a subsequent call to the `frame.f_locals`
         * property (by virtue of the `frame_getlocals` function in frameobject.c) will find them.
         */
        PyCodeObject *code = (PyCodeObject*)PyObject_GetAttrString((PyObject*)self, "__code__");
        PyObject *globals = PyDict_New();
        PyObject *builtins = PyEval_GetBuiltins();
        PyFrameObject *frame = NULL;
        PyObject *result = NULL;

        if (!code) {
            PyErr_Format(PyExc_RuntimeError, "No __code__ attribute found.");
            goto error;
        }
        /* Populate builtins, which is required by some JITted functions */
        if (PyDict_SetItemString(globals, "__builtins__", builtins)) {
            goto error;
        }
        frame = PyFrame_New(tstate, code, globals, NULL);
        if (frame == NULL) {
            goto error;
        }
        /* Populate the 'fast locals' in `frame` */
        Py_XDECREF(frame->f_locals);
        frame->f_locals = locals;
        Py_XINCREF(frame->f_locals);
        PyFrame_LocalsToFast(frame, 0);
        tstate->frame = frame;
        C_TRACE(result, fn(PyCFunction_GET_SELF(cfunc), args, kws));
        tstate->frame = frame->f_back;

    error:
        Py_XDECREF(frame);
        Py_XDECREF(globals);
        Py_XDECREF(code);
        return result;
    }
    else
        return fn(PyCFunction_GET_SELF(cfunc), args, kws);
}



我假设这个额外的代码(在分析器运行的情况下)在你进行cProfile时会减慢功能.

有点不幸的是,当您运行探查器时,numba函数会增加很多开销,但如果您在numba函数中执行任何实质性操作,那么减速实际上几乎可以忽略不计.如果你也想for在一个numba函数中移动循环,那么更是如此.

如果您注意到numba函数(运行或不运行探测器)需要花费太多时间,那么您可能会经常调用它.然后你应该检查你是否可以在numba函数中实际移动循环,或者将包含循环的代码包装在另一个numba函数中.

注意:所有这些都是(有点)推测,我实际上没有使用调试符号构建numba并在运行探查器的情况下对C-Code进行分析.但是,如果运行分析器运行的操作量使得这似乎非常合理.所有这一切都假设为numba 0.39,不确定这是否适用于过去的版本.




    
        
                        python
                        import
                        range
                        int
                        function
                        扩展
                        编译
                        cpu
                        ci
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        js
                        vue使用
                    

                    
                                                
                            
                        
                                                
                        关键词： ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 19:14:56
                    

                

                
                                
                    
                        io
                        Java猜拳小游戏代码
                    

                    
                                                
                        本文介绍了一个Java猜拳小游戏的代码，通过使用Scanner类获取用户输入的拳的数字，并随机生成计算机的拳，然后判断胜负。该游戏可以选择剪刀、石头、布三种拳，通过比较两者的拳来决定胜负。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:39:08
                    

                

                                
                    
                    
                
                
                                
                    
                        io
                        Java序列化对象传给PHP的方法及原理解析
                    

                    
                                                
                            
                        
                                                
                        本文介绍了Java序列化对象传给PHP的方法及原理，包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用，以及代码执行序列化所需要的权限。最后指出，序列化会将对象实例的所有字段都进行序列化，使得数据能够被表示为实例的序列化数据，但只有能够解释该格式的代码才能够确定数据的内容。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:25:15
                    

                

                
                                
                    
                        js
                        求解hdu 1003 java题目的动态规划优化方法
                    

                    
                                                
                        本文讨论了如何优化解决hdu 1003 java题目的动态规划方法，通过分析加法规则和最大和的性质，提出了一种优化的思路。具体方法是，当从1加到n为负时，即sum(1,n)sum(n,s)，可以继续加法计算。同时，还考虑了两种特殊情况：都是负数的情况和有0的情况。最后，通过使用Scanner类来获取输入数据。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 13:11:00
                    

                

                
                                
                    
                        string
                        如何在有序字符序列中插入新字符并保持有序
                    

                    
                                                
                        本文介绍了如何在给定的有序字符序列中插入新字符，并保持序列的有序性。通过示例代码演示了插入过程，以及插入后的字符序列。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 11:16:33
                    

                

                
                                
                    
                        version
                        baresip android编译、运行教程1语音通话
                    

                    
                                                
                            
                        
                                                
                        本文介绍了如何在安卓平台上编译和运行baresip android，包括下载相关的sdk和ndk，修改ndk路径和输出目录，以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 10:53:48
                    

                

                
                                
                    
                        python
                        去掉空格的方法——Python工程师招聘标准与实践
                    

                    
                                                
                            
                        
                                                
                        本文介绍了去掉空格的方法，并结合2019独角兽企业招聘Python工程师的标准与实践进行讨论。同时提供了一个转载链接，链接内容为更多相关信息。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 02:04:37
                    

                

                
                                
                    
                        python
                        python创建一个窗口_等一个大佬啊 要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...
                    

                    
                                                
                        展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:26:09
                    

                

                
                                
                    
                        js
                        手机移动端HTML5和JavaScript如何实现视频上传和压缩视频质量？
                    

                    
                                                
                        本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量，或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频，只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量，只有使用JAVA编写Android客户端才能实现压缩。此外，作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因，并提供了解决方法。最后，作者还介绍了一个用于处理图片的类，可以实现图片剪裁处理和生成缩略图的功能。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 15:58:44
                    

                

                
                                
                    
                        js
                        Express App如何提供不需要的静态文件？
                    

                    
                                                
                        本文介绍了如何使用Express App提供静态文件，同时提到了一些不需要使用的文件，如package.json和/.ssh/known_hosts，并解释了为什么app.get('*')无法捕获所有请求以及为什么app.use(express.static(__dirname))可能会提供不需要的文件。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 14:38:07
                    

                

                
                                
                    
                        string
                        Java自带的观察者模式及实现方法详解
                    

                    
                                                
                            
                        
                                                
                        本文介绍了Java自带的观察者模式，包括Observer和Observable对象的定义和使用方法。通过添加观察者和设置内部标志位，当被观察者中的事件发生变化时，通知观察者对象并执行相应的操作。实现观察者模式非常简单，只需继承Observable类和实现Observer接口即可。详情请参考Java官方api文档。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 13:52:38
                    

                

                
                                
                    
                        js
                        vue cli 3.x移除console采坑记
                    

                    
                                                
                        本文记录了在vue cli 3.x中移除console的一些采坑经验，通过使用uglifyjs-webpack-plugin插件，在vue.config.js中进行相关配置，包括设置minimizer、UglifyJsPlugin和compress等参数，最终成功移除了console。同时，还包括了一些可能出现的报错情况和解决方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 21:16:05
                    

                

                
                                
                    
                        python
                        IOS开发之短信发送与拨打电话的方法详解
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式，一种是使用系统底层发送，虽然无法自定义短信内容和返回原应用，但是简单方便；另一种是使用第三方框架发送，需要导入MessageUI头文件，并遵守MFMessageComposeViewControllerDelegate协议，可以实现自定义短信内容和返回原应用的功能。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 20:15:47
                    

                

                
                                
                    
                        js
                        VueCLI多页分目录打包的步骤记录
                    

                    
                                                
                            
                        
                                                
                        本文介绍了使用VueCLI进行多页分目录打包的步骤，包括页面目录结构、安装依赖、获取Vue CLI需要的多页对象等内容。同时还提供了自定义不同模块页面标题的方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 16:14:11
                    

                

                
                                
                    
                        version
                        PHP常量的定义和使用方法
                    

                    
                                                
                        本文介绍了PHP常量的定义和使用方法，包括常量的命名规则、大小写敏感性、全局范围和标量数据的限制。同时还提到了应尽量避免定义resource常量，并给出了使用define()函数定义常量的示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 10:19:40

















    

    
        
            
            
                
                
            

            
                Yyao            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    bytecode
                
                                
                    数组
                
                                
                    format
                
                                
                    controller
                
                                
                    lua
                
                                
                    char
                
                                
                    buffer
                
                                
                    spring
                
                                
                    shell
                
                                
                    plugins
                
                                
                    function
                
                                
                    httprequest
                
                                
                    install
                
                                
                    select
                
                                
                    range
                
                                
                    join
                
                                
                    uri
                
                                
                    python2
                
                                
                    string
                
                                
                    httpclient
                
                                
                    io
                
                                
                    solr
                
                                
                    emoji
                
                                
                    python
                
                                
                    heatmap
                
                                
                    foreach
                
                                
                    js
                
                                
                    version
                
                                
                    nodejs
                
                                
                    hashset
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1android binder 机制 (ServiceManager)
                
                                
                    2什么是事件池反应？
                
                                
                    3poroto3 坑 枚举_ProtocolBuffer 使用及 一些坑
                
                                
                    4留学英国如何选择最合适专业
                
                                
                    5我为什么要开发一个Marsjava
                
                                
                    6如何有效的关闭Win10自动更新？（5种方法）
                
                                
                    7工作流管理平台Airflow
                
                                
                    8彻底解决mysql中文乱码 eclipse中文乱码 jdbc乱码 各种乱码。。。
                
                                
                    9POI测试Excel报表导出（包含导出公式）
                
                                
                    10js字符串处理之绝妙的代码
                
                                
                    11给XML文件定义DTD
                
                                
                    12yum修改镜像源,centos7本地镜像做yum源
                
                                
                    13如何连oracle,如何连接打印机和电脑
                
                                
                    14如何在 Google 表格中使用粘贴特殊选项
                
                                
                    15ArangoDB 完成 B 轮融资，总融资额达到 4700 万美元