LLM 推理知识大纲

1 min

LLM 推理基础术语解释

基础知识

分布式并行策略

大模型推理并行策略

Attention 优化

KV Cache 管理

调度优化

Kernel 优化

Serving 架构

  • Offline vs Online inference
  • 单实例 / 多实例
  • Router / Scheduler / Worker
  • PD 分离
  • Disaggregated Prefill
  • Multi-model / Multi-LoRA serving

MoE 系统优化

  • Router
  • Top-k gating
  • Expert Parallelism
  • all-to-all cost
  • grouped GEMM / fused MoE kernels
  • load balance / expert placement / replication

模型压缩与部署成本优化

  • Quantization
  • KV cache quantization
  • Distillation
  • LoRA / Multi-LoRA serving

通信与系统基础