2026 67
- 基于 LD_PRELOAD 的 CUDA Runtime 拦截机制
- GPU 通信拓扑实战
- 现代 AI 集群通信体系
- 【论文阅读笔记】LLM Emulation:Revati 和 LLM-Emu
- vLLM v1 离线推理流程源码 Debug
- Python ZMQ:消息传递库
- 客户端间通信模式
- 数据结构:LRU 算法和哈希链表
- 图论基础
- 信息论及其应用
- 估计与统计识别
- CUDA Graph:合并多个算子
- 博弈论(2):标准形博弈
- 博弈论(1):Gale-Shapley 稳定匹配机制构造
- 大模型推理批处理和吞吐优化
- Nano vLLM 解读(5):解析 ModelRunner
- Nano vLLM 解读(4):解析 BlockManager
- Punica:Multi-LoRA 推理优化
- LoRA 和 Multi-LoRA:模型参数微调
- EPLB:MoE Expert 负载均衡
- Paged Attention:高效管理 KV Cache
- Pipeline Parallel:模型并行
- ZeRO 和 FSDP:DP优化——将模型参数和中间状态分片到多卡
- C++ 基础(5):String
- 基本数据结构:二叉堆和优先级队列
- C++ 基础(4):函数和 Lambda
- Continuous Batching
- 在无外网远程机器上使用 HuggingFace 或 Codex
- Roofline Model:从算术强度出发理解性能瓶颈
- 基本数据结构:栈和队列
- 基本数据结构:动态数组
- CUDA Kernel Toy Example
- 在无 sudo 权限下安装和管理二进制软件:使用 conda
- 基本数据结构:链表
- C++ 常用 API 一图流
- C++ 基础(3):Streams
- 基本数据结构:键值对和哈希表
- 基本数据结构:循环数组
- 数组操作技巧:前缀和计算
- 数组操作技巧:差分数组
- 图论:最短路径问题
- Flash Decoding
- Flash Attention 2 (FA2)
- Nano vLLM 解读(3):解析 Scheduler
- Ring Attention:Attention Block 的序列并行
- Online Softmax 推导
- Nano vLLM 解读(2):解析 Sequence
- LLM 推理框架
- LLM 推理知识大纲
- Nano vLLM 解读(1):LLMEngine 架构与推理流程解析
- Chunked Prefill
- DeepSpeed Ulysses:Attention Block 的序列并行
- C++ 基础(2):STL Containers
- C++ 基础(1):Types, Structs, Structured Bindings
- LLM 推理基础:矩阵乘法并行化
- 大模型推理并行策略:DP/TP/SP/PP
- LLM 推理 Sampling
- Prefix Cache:前缀 KV Cache 缓存
- 强化学习基础(2):时序差分算法
- Git 基础 (1):Git 对象和引用
- MoE 模型基础
- 强化学习基础(1):马尔可夫决策过程
- 集合通信操作和其实现
- Flash Attention (FA1)
- CUDA Grid, Block, Thread 和寻址
- LLM 推理基础术语解释
- LLM 基础:Attention