2026 26
- CUDA Graph:合并多个算子
- 大模型推理批处理和吞吐优化
- Nano vLLM 解读(5):解析 ModelRunner
- Nano vLLM 解读(4):解析 BlockManager
- Punica:Multi-LoRA 推理优化
- EPLB:MoE Expert 负载均衡
- Pipeline Parallel:模型并行
- ZeRO 和 FSDP:DP优化——将模型参数和中间状态分片到多卡
- Continuous Batching
- Roofline Model:从算术强度出发理解性能瓶颈
- Flash Decoding
- Flash Attention 2 (FA2)
- Nano vLLM 解读(3):解析 Scheduler
- Ring Attention:Attention Block 的序列并行
- Online Softmax 推导
- Nano vLLM 解读(2):解析 Sequence
- LLM 推理框架
- LLM 推理知识大纲
- Nano vLLM 解读(1):LLMEngine 架构与推理流程解析
- Chunked Prefill
- DeepSpeed Ulysses:Attention Block 的序列并行
- LLM 推理基础:矩阵乘法并行化
- 大模型推理并行策略:DP/TP/SP/PP
- Prefix Cache:前缀 KV Cache 缓存
- Flash Attention (FA1)
- LLM 推理基础术语解释