讨论一下 Cuda 程序模型和 GPU 硬件模型_综合

1

Cuda 是一个海量线程的框架。

一个 Cuda 程序，就是一个 Grid ，它包含了一大堆一模一样的 Block。

一个 GPU 硬件，就是一个芯片，它包含了一大堆一模一样的 SM 处理器。

一个 Cuda 程序分派到一个 GPU 上去运行，实际上就是把一大堆 Block 扔到一大堆 SM 处理器上。

Cuda 程序要想取得最佳的并行运算效率，Block 的数量应该是 SM 处理器数量的整数倍，这样才能让每个 SM 都没有机会闲着。

所以，编写一个 Cuda 之前，记得先看看你的 GPU 有多少个 SM 处理器。当然，如果你能写个通用的程序，根据GPU规格动态调整 Grid 的结构，那就最理想了！

然而，这并没结束！

Block 还可以分解成一大堆一模一样的线程，每个 SM 处理器又可细分成 8 个 SP 计算核，可以同时运行 32 个线程。

同样道理，如果想让每个 SP 核都不能偷懒，Block 中的线程数量必须是 32 的倍数。

作为硬件的限制，Block中线程的数量不能超过 1024，否则的话，SM 处理器就容纳不下了。

你可能觉得这个二级的软件和硬件架构有点多此一举，Grid 下面直接放一大堆线程，GPU下面直接放一大堆 SP 核，问题不就简单化了吗？

其实，这个二级架构是为了共享内存。因为同一个 Block 里面的线程是可以共用相同的 share 内存的。不同的 Block 中的线程，只能通过全局内存来共享数据。share 内存的访问速度远远高于全局内存。