Skip to content

概念词典

This content is not available in your language yet.

� 一个词条一篇短文,目标控制在 300–800 字,必带原始论文出处。每条会被主文章里的术语链接双向引用。

  • MoE — Mixture of Experts,DeepSeekMoE 的细粒度专家 + 共享专家
  • MLA — Multi-head Latent Attention,KV cache 压缩
  • MTP — Multi-Token Prediction,加密训练信号 + 推理加速
  • FP8 训练 — 8-bit 浮点混合精度,DeepSeek-V3 的降本关键
  • GRPO — 去 critic 的 PPO,DeepSeek-R1 推理涌现的核心算法
---
title: <英文全称> (<缩写>)
description: 一句话定义
---
## 一句话定义
<这个术语在做什么>
## 直觉
<为什么需要它,解决了什么问题>
## 数学 / 实现
<最小可读的公式或伪代码>
## 在 DeepSeek 里的用法
<跨链接到具体论文文章>
## 延伸阅读
- 原论文
- 相关词条
  • SWA — Sliding Window Attention
  • CSA — Compressed Sparse Attention
  • HCA — Hierarchical Compressed Attention
  • OPD — Open-Process Distillation
  • Speculative Decoding — 推测解码
  • DPO / KTO — 直接偏好优化族
  • RoPE / YaRN / NTK Scaling — 长上下文位置编码族

想认领某个词条?在底部评论区或 GitHub Discussions 留言。