Skip to content

W22 · DeepSeek-R1 续讨论 — GRPO 在 MoE 上的稳定性

This content is not available in your language yet.

自动生成的 session 模板。请带读人在周三前完成 Pre-read 部分。

字段
周次2026-W22
时间(待填)周一 14:00–15:30
带读人phd-senior-1
会议地点实验室 + 腾讯会议
主 paperDeepSeek-R1(W19 续讨论)
关联主线Test-time Reasoning

本次共读延续 W19 · DeepSeek-R1 共读,重点续讨论 GRPO × MoE routing 在 RL 训练中的稳定性

概念前置(建议会前过一遍词典页):

  • GRPO — PPO 干掉 critic,组内相对 reward 当 baseline
  • MoE — sparse activation,routing 稳定性是 RL 训练的痛点
  • MLA — DeepSeek 系列的 KV-cache 压缩,影响 long-CoT 显存预算
  • FP8 — R1 训练的混合精度 baseline

前情回顾

  • W19 · DeepSeek-R1 — 主篇 paper 共读,重点 GRPO 涌现 long-CoT;W22 接力的 open-question 是”GRPO 跑在 MoE 上 routing 还稳吗”

主线坐标:本次仍在 Test-time Reasoning 主线下。该主线 owner postdoc-1;co-owners 含 phd-senior-1 / phd-mid-2

2 跳邻居(context:for --depth=2 暴露):

  • MTP — 通过 MoE 间接关联(同 DeepSeek 系列);如有时间可对比 R1 是否启用了 MTP

📝 lead 校对要点:上述链接 100% 来自 frontmatter 知识图,不会编造;但每条后面的”一句话定位”是 agent 复述 concept 页 description,需 lead 确认精度。


  • (待带读人填)
  • (可选)
  1. ?
  2. ?
  3. ?

在评论区抛你看不懂或想讨论的点。

@……:(在底部 Giscus 评论或直接 PR 加到这里)


带读人或指定记录员实时记。


带读人在周二补完

  • @phd-senior-1:…
  • @……:…
  • 直接关联:…
  • 启发:…

在底部继续。

0 0