作者:虚线老母阳 | 来源:互联网 | 2023-01-28 13:49
我正试图在Anaconda的Numba软件包中使用cuBLAS功能并遇到问题.我需要输入矩阵为C顺序.输出可以是Fortran顺序.
我可以在这里运行随包提供的示例脚本.该脚本有两个功能,gemm_v1
和gemm_v2
.在gemm_v1
,用户必须以Fortran顺序创建输入矩阵.在gemm_v2
,它们可以传递给GEMM的cuda实现并转换到设备上.我可以使用这些示例来处理方形矩阵.但是,我无法弄清楚如何gemm_v2
使用非方形输入矩阵.有没有办法使用非正方形的C阶输入矩阵?
注意:
理想情况下,在调用GEMM以用于其他计算之后,输入和输出矩阵都将保留在设备上(这是迭代方法的一部分).