跳转到内容

MoE 与稀疏化

⚠️ 占位内容。该方向 owner 请来填。

一句话定位

我们关心：让稀疏激活模型在训练稳定 + 推理高效之间找到工程上可生产的设计点。

我们不关心：单纯堆专家数刷参数 / 与硬件无关的纯理论。

该方向的 owner

小导师：占位
核心博士：占位
硕士 / 新生：欢迎加入

关键论文（外部）

DeepSeek-V4 研究深度解析 §4 / §10 —— DeepSeekMoE + 训练稳定性
待补：Switch Transformer / GShard / Mixtral
待补：DeepSeekMoE 原论文

我们的工作（内部）

占位。

项目 A
项目 B

我们关心的开放问题

Auxiliary-loss-free balancing 的稳定性边界在哪？
MoE outliers 与 routing 的耦合是否有更干净的解释？
Fine-grained vs coarse experts 的 trade-off 在不同模态下是否一致？
专家容量自适应（dynamic top-K）值不值得？

推荐阅读路径（给新人）

第一步：词典 MoE —— 30 分钟搞懂基本概念
第二步：DeepSeek-V4 §10 训练不稳定章节 —— 了解我们关心的具体问题
第三步：Switch / GShard / Mixtral 原论文（待补 paper 解读）
第四步：上手复现 baseline（见 /internal/codebases/，待开放）

该主线的”组内立场”

占位。例：我们更关心训练阶段稳定性而不是推理阶段调度，因为我们组没有自己的推理引擎团队。