熬了几个通宵，我写了份CUDA新手入门代码

CUDA C++ PyTorch TensorFlow

编程算法

发布日期: 2021-03-28

作者: 韦阳

文章字数: 626

阅读时长: 2 分

阅读次数:

在用PyTorch或者TensorFlow搭积木的时候，你是不是也遇到过下面这些情况：

这时候你就会想，要是能自己实现一个速度又快、又能满足需求的算子就好了。

你想到了CUDA，自己写一个CUDA算子不就完事了嘛！

然后问题又来了，写是写完了，怎么用python代码调用它呢？

还有一个问题，这个算子它没梯度啊，自动求导机制不顶用了！

你去网上各种搜索，方法倒是全有，但是源码都好复杂，你一个新手怎么可能有心思看完那么复杂的教程？

这时候，你突然看到了这篇文章，看完后你惊呼：“怎么会有这么简洁的示例代码，这就是我想要的！”

没错，这就是我熬了好几个通宵，查了无数bug后，写出来的一份示例代码。

我给它命名为“Neural Network CUDA Example”，简称“NN CUDA Example”，意思就是神经网络调用CUDA的示例。

那么这玩意到底有啥用呢？目前为止，它可以让你学到下面这些东西：

你直呼内行，要是早点能看到这篇文章，能多发好几篇论文啊。

看完代码，有些细节你还是懵逼了，这这这都是啥意思啊，为啥这么写啊？

这时候你又看到了几篇教程，哦原来都有讲解，那没事了。

从那以后，你代码能力飞速提升，一连发了好几篇顶会。

然后你顺手一键三连，把这篇文章转给了身边有需要的人，个个都夸你发现了宝藏。

转载规则

《熬了几个通宵，我写了份CUDA新手入门代码》由韦阳采用知识共享署名 4.0 国际许可协议进行许可。

最近有学妹问我，我训了一个Transformer模型，但是预测好慢啊，有啥解决方案吗？我心想，你又想好，又想快，咋不上天🚀呢？于是我跟她说，你可以试试lightseq啊，跟闪电⚡️一样快，用了你就可以上天了。她一脸懵比，light

2021-04-13 编程算法

CUDA LightSeq PyTorch

在前面两篇教程中，我们详细讲解了如何编写cuda算子，并用PyTorch进行调用，并且详细讲述了三种编译cuda算子的方式，具体可以看前面两篇： https://godweiyang.com/2021/03/18/torch-cpp-cud

2021-03-24 编程算法

CUDA C++ PyTorch