W19 · DeepSeek-R1 — RL 涌现 Long-CoT Reasoning

This content is not available in your language yet.

本次共读由 @phd-senior-1 带读，关联主线 Test-time Reasoning。

📅 元信息

DeepSeek-R1 论文笔记 — 站内组内笔记
- 重点 §3 GRPO 算法（理解为什么去掉 critic）
- 重点 §4 R1-Zero 涌现行为（aha moment、反思、self-correction）
原 paper：arXiv:2501.12948 — 主要看 abstract、§2、§3、§4

R1-Zero 不用 SFT 直接 RL 涌现 long CoT —— 与传统 RLHF（SFT → RM → PPO）流程相比，省略 SFT 的代价是什么？什么类型的任务上行不通？
GRPO 用组内归一化作 baseline —— 组大小 G 该怎么选？与 PPO 用 critic 的方差 / 样本效率差异是什么？G 趋于无穷时退化到什么？
接入我们组现有 baseline —— GRPO 能不能直接接到我们组的 SFT 模型上？reward 设计上有哪些痛点？哪些任务的 reward 是 verifiable 的（数学 / 代码）哪些不是？

在评论区抛你看不懂或想讨论的点。带读人会在会议中挑 2–3 个集中讨论。

@……：（在底部 Giscus 评论或直接 PR 加到这里）

带读人或指定记录员实时记。

…

…

…

…

带读人在周二补完。

在底部继续。