CUDA Grid, Block, Thread 和寻址

2026-03-04 updated 2026-04-26 4 min

目录相关

本文从数据并行计算的角度出发，介绍 CUDA 中 Grid、Block 和 Thread 的分层组织方式，并解释如何通过线程索引将计算任务映射到具体数据。

关键概念

CUDA 的思想是：把一个数据并行的大任务拆成大量小任务，让 GPU 上的执行单元并行处理，类似 SIMD。一次 CUDA kernel launch 会产生一个 grid，grid 由多个 block 组成，block 由多个 thread 组成。

在 kernel 内部，每个 thread 可以通过其坐标计算自己在整个 grid 中的全局坐标，从而确定自己负责处理哪一段数据。

下图展示了一个二维 grid，每个 block 内又包含二维 thread 结构：

CUDA Kernel 是一个用 __global__ 声明的函数。

// definition
__global__ void myKernel() {
	...
}

// invoke
dim3 gridDim(2, 2);
dim3 blockDim(4, 3);
mykernel<<<gridDim, blockDim>>>();

Grid. 当 Host 启动一个 kernel 时，CUDA runtime 会在 Device 上创建一个 grid。

Block. 多个 thread 组成的集合。

Thread. 实际执行的最小 (software) execution unit.

每一个 block 最多只能有 1024 个 threads. 线程可以按 1D/2D/3D 方式组织（如 (16,16)、(32,8)），但本质限制是线程总数，且通常选择 32 的倍数以匹配 warp 执行。¹

Grid 和 Block 都可以是三维的，如下图所示：

并行计算中，不同线程需要处理不同的数据。为了确定每个线程所负责的数据位置，我们需要计算每个线程的 global thread index。在这个章节我们会研究如何通过线程索引来确定每个线程处理的数据位置。

总体思路：目的是将多维的 thread 组织（grid/block/thread）映射为一维的 global thread index

\text{threadId} = \underbrace{\text{blockId}}_{\text{grid 内 block 的线性编号}} \times \underbrace{\text{threadsPerBlock}}_{\text{每个 block 的线程总数}} + \underbrace{\text{localThreadId}}_{\text{block 内 thread 的线性编号}}

1D Grid + 1D Block 情况：总共有 $\text{blockDim}.x \times \text{gridDim}.x$ 个 thread，

\text{threadId} = (\text{blockIdx}.x \times \text{blockDim}.x) + \text{threadIdx}.x

1D Grid + 2D Block 情况：总共有 $\text{gridDim}.x \times (\text{blockDim}.x \times \text{blockDim}.y)$ 个 thread，

\text{threadId} = (\text{blockIdx}.x \times \text{blockDim}.x \times \text{blockDim}.y) + (\text{threadIdx}.y \times \text{blockDim}.x) + \text{threadIdx}.x

2D Grid + 1D Block 情况：总共有 $(\text{gridDim}.x \times \text{gridDim}.y) \times \text{blockDim}.x$ 个 thread，

\text{blockId} := (\text{blockIdx}.y \times \text{gridDim}.x) + \text{blockIdx}.x

因此

\text{threadId} = \text{blockId} \times \text{blockDim}.x + \text{threadIdx}.x

2D Grid + 2D Block 情况：总共有 $(\text{gridDim}.x \times \text{gridDim}.y) \times (\text{blockDim}.x \times \text{blockDim}.y)$ 个 thread,

\text{blockId} = \text{gridDim}.x \times \text{blockIdx}.y + \text{blockIdx}.x

因此

\text{threadId} = \text{blockId} \times \text{blockDim}.x \times \text{blockDim}.y + \text{blockDim}.x \times \text{threadIdx}.y + \text{threadIdx}.x