在Tensorflow中添加GPUOp

作者：丁志翔64164 | 来源：互联网 | 2023-02-01 20:39

如何解决《在Tensorflow中添加GPUOp》经验，应该怎么办？

我正在尝试在本文档之后宽松地向TensorFlow添加新操作。不同之处在于我正在尝试实现基于GPU的操作。我要添加的操作是此处的cuda操作（cuda_op.py，cuda_op_kernel.cc，cuda_op_kernel.cu.cc）。我正在尝试在tensorflow之外编译这些文件，并使用tf.load_op_library它们将它们拉入。我进行了一些更改，所以这里是我的文件：

cuda_op_kernel.cc

#include "tensorflow/core/framework/op.h"
#include "tensorflow/core/framework/shape_inference.h"
#include "tensorflow/core/framework/op_kernel.h"

using namespace tensorflow;  // NOLINT(build/namespaces)

REGISTER_OP("AddOne")
    .Input("input: int32")
    .Output("output: int32")
    .SetShapeFn([](::tensorflow::shape_inference::InferenceContext* c) {
      c->set_output(0, c->input(0));
      return Status::OK();
    });

void AddOneKernelLauncher(const int* in, const int N, int* out);

class AddOneOp : public OpKernel {
 public:
  explicit AddOneOp(OpKernelConstruction* context) : OpKernel(context) {}

  void Compute(OpKernelContext* context) override {
    // Grab the input tensor
    const Tensor& input_tensor = context->input(0);
    auto input = input_tensor.flat();

    // Create an output tensor
    Tensor* output_tensor = NULL;
    OP_REQUIRES_OK(context, context->allocate_output(0, input_tensor.shape(),
                                                     &output_tensor));
    auto output = output_tensor->template flat();

    // Set all but the first element of the output tensor to 0.
    const int N = input.size();
    // Call the cuda kernel launcher
    AddOneKernelLauncher(input.data(), N, output.data());

  }
};

REGISTER_KERNEL_BUILDER(Name("AddOne").Device(DEVICE_GPU), AddOneOp);

cuda_op_kernel.cu

#define EIGEN_USE_GPU
#include 
#include 

__global__ void AddOneKernel(const int* in, const int N, int* out) {
  for (int i = blockIdx.x * blockDim.x + threadIdx.x; i >>(in, N, out);

  cudaError_t cudaerr = cudaDeviceSynchronize();
  if (cudaerr != cudaSuccess)
    printf("kernel launch failed with error \"%s\".\n", cudaGetErrorString(cudaerr));
}

CMakeLists.txt

cmake_minimum_required(VERSION 3.5)

#found from running python -c 'import tensorflow as tf; print(tf.sysconfig.get_include())'
include_directories(/usr/local/lib/python3.5/dist-packages/tensorflow/include)

find_package(CUDA)

#set flags based on tutorial
set (CMAKE_CXX_FLAGS "--std=c++11 -fPIC -O2 -D_GLIBCXX_USE_CXX11_ABI=0")

#pass flags to c++ compiler
SET(CUDA_PROPAGATE_HOST_FLAGS ON)

#create library
cuda_add_library(
    cuda_op SHARED
    src/cuda_op_kernel.cu
    src/cuda_op_kernel.cc
    OPTIONS -gencode=arch=compute_20,code=sm_20)

#copy test file to build folder
configure_file(src/test.py test.py COPYONLY)

test.py

import tensorflow as tf
mod = tf.load_op_library('./libcuda_op.so')
with tf.Session() as sess:
    start = [5,4,3,2,1]
    print(start)
    print(mod.add_one(start).eval())

我能够编译并test.py成功运行，但是输出始终为[0 0 0 0 0]。如果我更换AddOneKernel<<<32, 256>>>(in, N, out);用for (int i = 0; i 和DEVICE_GPU与DEVICE_CPU，运算输出右值[6 5 4 3 2]（具有完全一样的CMakeList.txt）。



任何想法如何获取正确的值以返回？




    
        
                        c++
                        python
                        tensorflow
                        gpu
                        编译
                        文件
                        include
                        int
                        build
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        email
                        web.py开发web 第八章 Formalchemy 服务端验证方法
                    

                    
                                                
                            
                        
                                                
                        本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例，详细说明了对各字段的验证要求，包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 16:36:00
                    

                

                
                                
                    
                        spring
                        r2dbc配置多数据源
                    

                    
                                                
                            
                        
                                                
                        R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 16:38:53
                    

                

                                
                    
                    
                
                
                                
                    
                        cmd
                        通过Anaconda安装tensorflow，并安装运行spyder编译器的完整教程
                    

                    
                                                
                            
                        
                                                
                        本文提供了一个完整的教程，介绍了如何通过Anaconda安装tensorflow，并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统，并提供了相关的网址供参考。通过本教程，读者可以轻松地安装和配置tensorflow环境，以及运行spyder编译器进行开发。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-09 09:46:32
                    

                

                
                                
                    
                        io
                        YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
                    

                    
                                                
                            
                        
                                                
                        本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 18:28:01
                    

                

                
                                
                    
                        version
                        安装mysqlclient失败解决办法
                    

                    
                                                
                            
                        
                                                
                        本文介绍了在MAC系统中，使用django使用mysql数据库报错的解决办法。通过源码安装mysqlclient或将mysql_config添加到系统环境变量中，可以解决安装mysqlclient失败的问题。同时，还介绍了查看mysql安装路径和使配置文件生效的方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 18:24:10
                    

                

                
                                
                    
                        int
                        开发笔记:加密&json&StringIO模块&BytesIO模块
                    

                    
                                                
                            
                        
                                                
                        篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:18:35
                    

                

                
                                
                    
                        io
                        使用 Ubuntu 中的 Python 获取浏览器历史记录
                    

                    
                                                
                        使用Ubuntu中的Python获取浏览器历史记录原文: ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 08:57:59
                    

                

                
                                
                    
                        int
                        Android源码深入理解JNI技术的概述和应用
                    

                    
                                                
                            
                        
                                                
                        本文介绍了Android源码中的JNI技术，包括概述和应用。JNI是Java Native Interface的缩写，是一种技术，可以实现Java程序调用Native语言写的函数，以及Native程序调用Java层的函数。在Android平台上，JNI充当了连接Java世界和Native世界的桥梁。本文通过分析Android源码中的相关文件和位置，深入探讨了JNI技术在Android开发中的重要性和应用场景。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 10:00:57
                    

                

                
                                
                    
                        string
                        Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
                    

                    
                                                
                            
                        
                                                
                        本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法，包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 20:56:55
                    

                

                
                                
                    
                        cmd
                        Go Cobra命令行工具入门教程
                    

                    
                                                
                            
                        
                                                
                        本文介绍了Go语言实现的命令行工具Cobra的基本概念、安装方法和入门实践。Cobra被广泛应用于各种项目中，如Kubernetes、Hugo和Github CLI等。通过使用Cobra，我们可以快速创建命令行工具，适用于写测试脚本和各种服务的Admin CLI。文章还通过一个简单的demo演示了Cobra的使用方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 20:02:41
                    

                

                
                                
                    
                        cmd
                        包的基础知识及使用方法
                    

                    
                                                
                        本文介绍了包的基础知识，包是一种模块，本质上是一个文件夹，与普通文件夹的区别在于包含一个init文件。包的作用是从文件夹级别组织代码，提高代码的维护性。当代码抽取到模块中后，如果模块较多，结构仍然混乱，可以使用包来组织代码。创建包的方法是右键新建Python包，使用方式与模块一样，使用import来导入包。init文件的使用是将文件夹变成一个模块的方法，通过执行init文件来导入包。一个包中通常包含多个模块。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 17:52:19
                    

                

                
                                
                    
                        int
                        【openwrt】设备mt7628关于wan侧eth0.1 mac地址固定的问题
                    

                    
                                                
                        本文讨论了在openwrt-17.01版本中，mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下，而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等，生成后的mac地址会保存在/etc/config/network下。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 17:47:48
                    

                

                
                                
                    
                        int
                        Spring学习（4）：Spring管理对象之间的关联关系
                    

                    
                                                
                            
                        
                                                
                        本文是关于Spring学习的第四篇文章，讲述了Spring框架中管理对象之间的关联关系。文章介绍了MessageService类和MessagePrinter类的实现，并解释了它们之间的关联关系。通过学习本文，读者可以了解Spring框架中对象之间的关联关系的概念和实现方式。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 13:44:30
                    

                

                
                                
                    
                        int
                        （三）多表代码生成的实现方法
                    

                    
                                                
                            
                        
                                                
                        本文介绍了一种实现多表代码生成的方法，使用了java代码和org.jeecg框架中的相关类和接口。通过设置主表配置，可以生成父子表的数据模型。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 19:46:13
                    

                

                
                                
                    
                        int
                        系数应为整数：syy diophantine方程 - Coefficients should be Integers: sympy diophantine equations
                    

                    
                                                
                        Ihaveapolynomial(generatedfromthecharacteristicpolynomialofamatrix)andIdliketosolve ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 09:20:31

















    

    
        
            
            
                
                
            

            
                丁志翔64164            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    c语言
                
                                
                    web3
                
                                
                    stream
                
                                
                    cpython
                
                                
                    hashtable
                
                                
                    io
                
                                
                    string
                
                                
                    tags
                
                                
                    audio
                
                                
                    version
                
                                
                    heap
                
                                
                    case
                
                                
                    ip
                
                                
                    chat
                
                                
                    spring
                
                                
                    express
                
                                
                    range
                
                                
                    php7
                
                                
                    replace
                
                                
                    email
                
                                
                    timestamp
                
                                
                    const
                
                                
                    jar
                
                                
                    controller
                
                                
                    int
                
                                
                    plugins
                
                                
                    blob
                
                                
                    node.js
                
                                
                    settings
                
                                
                    cmd
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1访问方式更改为https的方法
                
                                
                    2tf.control_dependencies
                
                                
                    3Version information: 4.6.6deb4 No User Tab or Priviledges
                
                                
                    4idea中Java实体类怎样生成序列化的版本号
                    原创
                
                                
                    5java shiro 权限管理系统_java shiro 开源权限管理系统
                
                                
                    6[对android程序作代码混淆]
                
                                
                    7Mahout协同过滤算法源码分析（3-3）QR分解数据流
                
                                
                    8Canal  作为 消息中间件 实时消费MySQL中新增数据
                
                                
                    9单点登录 SSO 的前世今生
                
                                
                    10html响应式布局，左侧栏目固定，右侧内容随着屏幕宽度变化而变化
                
                                
                    11物联网毕设中的问题解决
                
                                
                    12mysql版本与php不一致,mysql 50前后版本差异
                
                                
                    13织梦DedeCMS专题模版{dede:field.note/}代码修改方法
                
                                
                    14VS2017搭建linux开发环境
                
                                
                    15比较 Java 中的两个 HashMap 对象