Languisher

AI Infra 随笔

文章
标签
分类
关于
其它

LLM 推理优化 38

LLM 推理平台 7 通信 5 CUDA 编程 3 KV Cache 优化 2 Prefill-Decode 分离 2 并行优化 3 LLM 模拟器 1

LLM 推理系统安全 1

-

-

编程语言 6 数据结构和算法 9 图论 2

-

-

2026 71

06-11 Slurm 基本命令
06-10 Agent Infra 关键概念整理
06-05 LLM Serving 系统的安全威胁与攻击
06-03 DistServe
05-27 基于 LD_PRELOAD 的 CUDA Runtime 拦截机制
05-27 GPU 通信拓扑实战
05-26 现代 AI 集群通信体系
05-24 【论文阅读笔记】LLM Emulation：Revati 和 LLM-Emu
05-19 vLLM v1 离线推理流程源码 Debug
05-19 Python ZMQ：消息传递库
05-19 客户端间通信模式
05-17 数据结构：LRU 算法和哈希链表
05-16 图论基础
05-14 信息论及其应用
05-14 估计与统计识别
05-14 CUDA Graph：合并多个算子
05-10 博弈论（2）：标准形博弈
05-10 博弈论（1）：Gale-Shapley 稳定匹配机制构造
05-06 大模型推理批处理和吞吐优化
05-04 Nano vLLM 解读（5）：解析 ModelRunner
05-04 Nano vLLM 解读（4）：解析 BlockManager
05-04 Punica：Multi-LoRA 推理优化
05-04 LoRA 和 Multi-LoRA：模型参数微调
05-04 EPLB：MoE Expert 负载均衡
05-03 Paged Attention：高效管理 KV Cache
05-03 Pipeline Parallel：模型并行
05-03 ZeRO 和 FSDP：DP优化——将模型参数和中间状态分片到多卡
05-03 C++ 基础（5）：String
05-01 基本数据结构：二叉堆和优先级队列
05-01 C++ 基础（4）：函数和 Lambda
05-01 Continuous Batching
05-01 远程服务器复用本地网络科学上网
05-01 Roofline Model：从算术强度出发理解性能瓶颈
04-28 基本数据结构：栈和队列
04-28 基本数据结构：动态数组
04-27 CUDA Kernel Toy Example
04-26 在无 sudo 权限下安装和管理二进制软件：使用 conda
04-25 基本数据结构：链表
04-24 C++ 常用 API 一图流
04-24 C++ 基础（3）：Streams
04-23 基本数据结构：键值对和哈希表
04-23 基本数据结构：循环数组
04-23 数组操作技巧：前缀和计算
04-23 数组操作技巧：差分数组
04-23 图论：最短路径问题
04-22 Flash Decoding
04-21 Flash Attention 2 (FA2)
04-21 Nano vLLM 解读（3）：解析 Scheduler
04-21 Ring Attention：Attention Block 的序列并行
04-20 Online Softmax 推导
04-20 Nano vLLM 解读（2）：解析 Sequence
04-20 LLM 推理框架
04-20 LLM 推理知识大纲
04-19 Nano vLLM 解读（1）：LLMEngine 架构与推理流程解析
04-19 Chunked Prefill
04-19 DeepSpeed Ulysses：Attention Block 的序列并行
04-18 C++ 基础（2）：STL Containers
04-18 C++ 基础（1）：Types, Structs, Structured Bindings
04-17 LLM 推理基础：矩阵乘法并行化
04-17 大模型推理并行策略：DP/TP/SP/PP
04-11 LLM 推理 Sampling
04-11 Prefix Cache：前缀 KV Cache 缓存
03-26 强化学习基础（2）：时序差分算法
03-24 Git 基础（1）：Git 对象和引用
03-24 MoE 模型基础
03-21 强化学习基础（1）：马尔可夫决策过程
03-10 集合通信操作和其实现
03-04 Flash Attention (FA1)
03-04 CUDA Grid, Block, Thread 和寻址
03-03 LLM 推理基础术语解释
03-01 LLM 基础：Attention

© 2026 Languisher

Powered by Astro and Retypeset