概念词典
� 一个词条一篇短文,目标控制在 300–800 字,必带原始论文出处。每条会被主文章里的术语链接双向引用。
已上线(首批 5 条)
Section titled “已上线(首批 5 条)”- MoE — Mixture of Experts,DeepSeekMoE 的细粒度专家 + 共享专家
- MLA — Multi-head Latent Attention,KV cache 压缩
- MTP — Multi-Token Prediction,加密训练信号 + 推理加速
- FP8 训练 — 8-bit 浮点混合精度,DeepSeek-V3 的降本关键
- GRPO — 去 critic 的 PPO,DeepSeek-R1 推理涌现的核心算法
---title: <英文全称> (<缩写>)description: 一句话定义---
## 一句话定义<这个术语在做什么>
## 直觉<为什么需要它,解决了什么问题>
## 数学 / 实现<最小可读的公式或伪代码>
## 在 DeepSeek 里的用法<跨链接到具体论文文章>
## 延伸阅读- 原论文- 相关词条待补充词条(欢迎认领)
Section titled “待补充词条(欢迎认领)”- SWA — Sliding Window Attention
- CSA — Compressed Sparse Attention
- HCA — Hierarchical Compressed Attention
- OPD — Open-Process Distillation
- Speculative Decoding — 推测解码
- DPO / KTO — 直接偏好优化族
- RoPE / YaRN / NTK Scaling — 长上下文位置编码族
想认领某个词条?在底部评论区或 GitHub Discussions 留言。