Skip to content

W19 · DeepSeek-R1 — RL 涌现 Long-CoT Reasoning

This content is not available in your language yet.

本次共读由 @phd-senior-1 带读,关联主线 Test-time Reasoning

字段
周次2026-W19
时间2026-05-11 周一 14:00–15:30
带读人@phd-senior-1 (cluster: 研究主理人)
会议地点实验室 A301 + 腾讯会议
主 paperDeepSeek-R1 — 重点 §3 GRPO + §4 涌现行为
关联主线Test-time Reasoning

  • DeepSeek-R1 论文笔记 — 站内组内笔记
    • 重点 §3 GRPO 算法(理解为什么去掉 critic)
    • 重点 §4 R1-Zero 涌现行为(aha moment、反思、self-correction)
  • 原 paper:arXiv:2501.12948 — 主要看 abstract、§2、§3、§4
  1. R1-Zero 不用 SFT 直接 RL 涌现 long CoT —— 与传统 RLHF(SFT → RM → PPO)流程相比,省略 SFT 的代价是什么?什么类型的任务上行不通?
  2. GRPO 用组内归一化作 baseline —— 组大小 G 该怎么选?与 PPO 用 critic 的方差 / 样本效率差异是什么?G 趋于无穷时退化到什么?
  3. 接入我们组现有 baseline —— GRPO 能不能直接接到我们组的 SFT 模型上?reward 设计上有哪些痛点?哪些任务的 reward 是 verifiable 的(数学 / 代码)哪些不是?

在评论区抛你看不懂或想讨论的点。带读人会在会议中挑 2–3 个集中讨论。

@……:(在底部 Giscus 评论或直接 PR 加到这里)


带读人或指定记录员实时记。


带读人在周二补完

  • @phd-senior-1:…
  • @……:…
  • 直接关联:…
  • 启发:…

在底部继续。