Languisher

AI Infra 随笔

文章
标签
分类
关于
其它

All # LLM-Infra 26 # 数据结构 9 # Nano-vLLM 6 # Parallelism 6 # CPP 6 # 通信 5 # LLM-Attention 5 # LLM-PD分离 3 # CUDA 3 # 数学 3 # vLLM 2 # 图论 2 # 课程笔记 2 # 博弈论 2 # LLM-LoRA 2 # LLM-MoE 2 # LLM-KVCache 2 # Misc 2 # 强化学习 2 # Slurm 1 # Agent-Infra 1 # LLM-Security 1 # 论文阅读笔记 1 # GPU 1 # PCIe 1 # NVLink 1 # InfiniBand 1 # RoCE 1 # LLM模拟器 1 # Python 1 # 信息论 1 # Algorithms 1 # LLM-Sampling 1 # Git 1 # LLM 1 # 集合通信 1

2026 26

05-14 CUDA Graph：合并多个算子
05-06 大模型推理批处理和吞吐优化
05-04 Nano vLLM 解读（5）：解析 ModelRunner
05-04 Nano vLLM 解读（4）：解析 BlockManager
05-04 Punica：Multi-LoRA 推理优化
05-04 EPLB：MoE Expert 负载均衡
05-03 Pipeline Parallel：模型并行
05-03 ZeRO 和 FSDP：DP优化——将模型参数和中间状态分片到多卡
05-01 Continuous Batching
05-01 Roofline Model：从算术强度出发理解性能瓶颈
04-22 Flash Decoding
04-21 Flash Attention 2 (FA2)
04-21 Nano vLLM 解读（3）：解析 Scheduler
04-21 Ring Attention：Attention Block 的序列并行
04-20 Online Softmax 推导
04-20 Nano vLLM 解读（2）：解析 Sequence
04-20 LLM 推理框架
04-20 LLM 推理知识大纲
04-19 Nano vLLM 解读（1）：LLMEngine 架构与推理流程解析
04-19 Chunked Prefill
04-19 DeepSpeed Ulysses：Attention Block 的序列并行
04-17 LLM 推理基础：矩阵乘法并行化
04-17 大模型推理并行策略：DP/TP/SP/PP
04-11 Prefix Cache：前缀 KV Cache 缓存
03-04 Flash Attention (FA1)
03-03 LLM 推理基础术语解释

© 2026 Languisher

Powered by Astro and Retypeset