MoE 与稀疏化
This content is not available in your language yet.
⚠️ 占位内容。该方向 owner 请来填。
我们关心:让稀疏激活模型在训练稳定 + 推理高效之间找到工程上可生产的设计点。
我们不关心:单纯堆专家数刷参数 / 与硬件无关的纯理论。
该方向的 owner
Section titled “该方向的 owner”关键论文(外部)
Section titled “关键论文(外部)”- DeepSeek-V4 研究深度解析 §4 / §10 —— DeepSeekMoE + 训练稳定性
- 待补:Switch Transformer / GShard / Mixtral
- 待补:DeepSeekMoE 原论文
我们的工作(内部)
Section titled “我们的工作(内部)”占位。
- 项目 A
- 项目 B
我们关心的开放问题
Section titled “我们关心的开放问题”- Auxiliary-loss-free balancing 的稳定性边界在哪?
- MoE outliers 与 routing 的耦合是否有更干净的解释?
- Fine-grained vs coarse experts 的 trade-off 在不同模态下是否一致?
- 专家容量自适应(dynamic top-K)值不值得?
推荐阅读路径(给新人)
Section titled “推荐阅读路径(给新人)”- 第一步:词典 MoE —— 30 分钟搞懂基本概念
- 第二步:DeepSeek-V4 §10 训练不稳定章节 —— 了解我们关心的具体问题
- 第三步:Switch / GShard / Mixtral 原论文(待补 paper 解读)
- 第四步:上手复现 baseline(见
/internal/codebases/,待开放)
该主线的”组内立场”
Section titled “该主线的”组内立场””占位。例:我们更关心训练阶段稳定性而不是推理阶段调度,因为我们组没有自己的推理引擎团队。