从头开始进行CUDA编程：线程间协作的常见技术

在前一篇文章中，我们介绍了如何使用 GPU 运行的并行算法。这些并行任务是那些完全相互独立的任务，这点与我们一般认识的编程方式有很大的不同，虽然我们可以从并行中受益，但是这种奇葩的并行运行方式对于我们来说肯定感到非常的复杂。所以在本篇文章的Numba代码中，我们将介绍一些允许线程在计算中协作的常见技术。,首先还是载入相应的包,不要忘记，我们这里是CUDA编程，所以NV的GPU是必须的，比如可以去colab或者Kaggle白嫖。,我们将从一个非常简单的问题开始本节:对数组的所有元素求和。这个算法非常简单。如果不使用NumPy，我们可以这样实现它:,这看起来不是很 Pythonic。但它能够让我们了解它正在跟踪数组中的所有元素。如果 s 的结果依赖于数组的每个元素，我们如何并行化这个算法呢？首先，我们需要重写算法以允许并行化，如果有无法并行化的部分则应该允许线程相互通信。,到目前为止，我们还没有学会如何让线程相互通信……事实上，我们之前说过不同块中的线程不通信。我们可以考虑只启动一个块，但是我们上次也说了，在大多数 GPU 中块只能有 1024 个线程！,如何克服这一点？如果将数组拆分为 1024 个块（或适当数量的threads_per_block）并分别对每个块求和呢？然后最后，我们可以将每个块的总和的结果相加。下图显示了一个非常简单的 2 块拆分示例。, 从头开始进行CUDA编程：线程间协作的常见技术 ,上图就是对数组元素求和的“分而治之”方法。,如何在 GPU 上做到这一点呢？首先需要将数组拆分为块。每个数组块将只对应一个具有固定数量的线程的CUDA块。在每个块中，每个线程可以对多个数组元素求和。然后将这些每个线程的值求和，这里就需要线程进行通信，我们将在下一个示例中讨论如何通信。,由于我们正在对块进行并行化，因此内核的输出应该被设置为一个块。为了完成Reduce，我们将其复制到 CPU 并在那里完成工作。,这里需要注意的是必须共享数组，并且让每个数组块变得“小”,这里的“小”：确切大小取决于 GPU 的计算能力，通常在 48 KB 和 163 KB 之间。请参阅此表中的“每个线程块的最大共享内存量”项。,在编译时有一个已知的大小（这就是我们调整共享数组threads_per_block而不是blockDim.x的原因）。我们总是可以为任何大小的共享数组定义一个工厂函数……但要注意这些内核的编译时间。,这里的数组需要为 Numba 类型指定的 dtype，而不是 Numpy 类型（这个没有为什么！）。,在谷歌Colab上测试，得到了10倍的加速。,题外话：上面这个方法之所以说是简单的规约算法，是因为这个算法最简单，也最容易实现。我们在大数据中常见的Map-Reduce算法就是这个算法。虽然实现简单，但是他容易理解，所以十分常见，当然他慢也是出名的，有兴趣的大家可以去研究研究。,上面的算法最 “朴素”的，所以有很多技巧可以加快这种代码的速度（请参阅 CUDA 演示文稿中的 Optimizing Parallel Reduction 以获得基准测试）。,在介绍更好的方法之前，让我们回顾一下内核函数的的最后一点：,我们并行化了几乎所有的操作，但是在内核的最后，让一个线程负责对共享数组 s_block 的所有 threads_per_block 元素求和。为什么不能把这个总和也并行化呢？,听起来不错对吧，下图显示了如何在 threads_per_block 大小为 16 的情况下实现这一点。我们从 8 个线程开始工作，第一个将对 s_block[0] 和 s_block[8] 中的值求和。第二个求和s_block[1]和s_block[9]中的值，直到最后一个线程将s_block[7]和s_block[15]的值相加。,在下一步中，只有前 4 个线程需要工作。第一个线程将对 s_block[0] 和 s_block[4] 求和；第二个，s_block[1] 和 s_block[5]；第三个，s_block[2] 和 s_block[6]；第四个也是最后一个，s_block[3] 和 s_block[7]。,第三步，只需要 2 个线程来处理 s_block 的前 4 个元素。,第四步也是最后一步将使用一个线程对 2 个元素求和。,由于工作已在线程之间分配，因此它是并行化的。这不是每个线程的平等划分，但它是一种改进。在计算上，这个算法是 O(log2(threads_per_block))，而上面“朴素”算法是 O(threads_per_block)。比如在我们这个示例中是 1024 次操作，用于了两个算法差距有10倍,最后还有一个细节。在每一步，我们都需要确保所有线程都已写入共享数组。所以我们必须调用 cuda.syncthreads()。, 从头开始进行CUDA编程：线程间协作的常见技术 ,可以看到，这比原始方法快25%。,重要说明：你可能很想将同步线程移动到 if 块内，因为在每一步之后，超过当前线程数一半的内核将不会被使用。但是这样做会使调用同步线程的 CUDA 线程停止并等待所有其他线程，而所有其他线程将继续运行。因此停止的线程将永远等待永远不会停止同步的线程。如果您同步线程，请确保在所有线程中调用 cuda.syncthreads()。,其实归约算法并不简单，所以Numba 提供了一个方便的 cuda.reduce 装饰器，可以将二进制函数转换为归约。所以上面冗长而复杂的算法可以替换为：,上面的运行结果我们可以看到手写代码通常要快得多（至少 2 倍），但 Numba 给我们提供的方法却非常容易使用。这对我们来说是格好事，因为终于有我们自己实现的Python方法比官方的要快了,这里还有一点要注意就是默认情况下，要减少复制因为这会强制同步。为避免这种情况可以使用设备上数组作为输出调用归约：,并行约简技术是非常伟大的，如何将其扩展到更高的维度？虽然我们总是可以使用一个展开的数组(array2 .ravel())调用，但了解如何手动约简多维数组是很重要的。,在下面这个例子中，将结合刚才所学的知识来计算二维数组。,到目前为止，我们只讨论了内核函数，它是启动线程的特殊GPU函数。内核通常依赖于较小的函数，这些函数在GPU中定义，只能访问GPU数组。这些被称为设备函数（Device functions）。与内核函数不同的是，它们可以返回值。,我们将展示一个跨不同内核使用设备函数的示例。该示例还将展示在使用共享数组时同步线程的重要性。,在CUDA的新版本中，内核可以启动其他内核。这被称为动态并行，但是Numba 的CUDA API还不支持。,我们将在固定大小的数组中创建波纹图案。首先需要声明将使用的线程数，因为这是共享数组所需要的。, 从头开始进行CUDA编程：线程间协作的常见技术 ,左:同步(正确)内核的结果。正确:来自不同步(不正确)内核的结果。,本文介绍了如何开发需要规约模式来处理1D和2D数组的内核函数。在这个过程中，我们学习了如何利用共享数组和设备函数。如果你对文本感兴趣，请看源代码：,https://colab.research.google.com/drive/1GkGLDexnYUnl2ilmwNxAlWAH6Eo5ZK2f?usp=sharing