W22 · DeepSeek-R1 续讨论 — GRPO 在 MoE 上的稳定性

This content is not available in your language yet.

自动生成的 session 模板。请带读人在周三前完成 Pre-read 部分。

📅 元信息

本次共读延续 W19 · DeepSeek-R1 共读，重点续讨论 GRPO × MoE routing 在 RL 训练中的稳定性。

概念前置（建议会前过一遍词典页）：

前情回顾：

W19 · DeepSeek-R1 — 主篇 paper 共读，重点 GRPO 涌现 long-CoT；W22 接力的 open-question 是”GRPO 跑在 MoE 上 routing 还稳吗”

主线坐标：本次仍在 Test-time Reasoning 主线下。该主线 owner postdoc-1；co-owners 含 phd-senior-1 / phd-mid-2。

2 跳邻居（context:for --depth=2 暴露）：

📝 lead 校对要点：上述链接 100% 来自 frontmatter 知识图，不会编造；但每条后面的”一句话定位”是 agent 复述 concept 页 description，需 lead 确认精度。

在评论区抛你看不懂或想讨论的点。

@……：（在底部 Giscus 评论或直接 PR 加到这里）

带读人或指定记录员实时记。

…

…

…

…

带读人在周二补完。

在底部继续。

0 0