跳转到内容

MoE 与稀疏化

⚠️ 占位内容。该方向 owner 请来填。

我们关心:让稀疏激活模型在训练稳定 + 推理高效之间找到工程上可生产的设计点

我们关心:单纯堆专家数刷参数 / 与硬件无关的纯理论。

  • 小导师占位
  • 核心博士占位
  • 硕士 / 新生:欢迎加入
  • DeepSeek-V4 研究深度解析 §4 / §10 —— DeepSeekMoE + 训练稳定性
  • 待补:Switch Transformer / GShard / Mixtral
  • 待补:DeepSeekMoE 原论文

占位。

  • 项目 A
  • 项目 B
  1. Auxiliary-loss-free balancing 的稳定性边界在哪?
  2. MoE outliers 与 routing 的耦合是否有更干净的解释?
  3. Fine-grained vs coarse experts 的 trade-off 在不同模态下是否一致?
  4. 专家容量自适应(dynamic top-K)值不值得?
  1. 第一步:词典 MoE —— 30 分钟搞懂基本概念
  2. 第二步:DeepSeek-V4 §10 训练不稳定章节 —— 了解我们关心的具体问题
  3. 第三步:Switch / GShard / Mixtral 原论文(待补 paper 解读)
  4. 第四步:上手复现 baseline(见 /internal/codebases/,待开放)

占位。例:我们更关心训练阶段稳定性而不是推理阶段调度,因为我们组没有自己的推理引擎团队。