Test-time Reasoning
This content is not available in your language yet.
⚠️ 占位内容。该方向 owner 请来填。
我们关心:通过推理时计算(更多 thinking budget / 更好搜索 / 更强自验证)持续提升复杂任务的能力。
我们不关心:纯 prompt engineering 套路。
该方向的 owner
Section titled “该方向的 owner”关键论文(外部)
Section titled “关键论文(外部)”- 待补:OpenAI o1 / DeepSeek-R1 / s1 / Sky-T1
- 待补:Process Reward Model / Outcome Reward Model
- 待补:Tree-of-Thought / Self-Consistency 综述
我们的工作(内部)
Section titled “我们的工作(内部)”占位。
- 项目 A:…
我们关心的开放问题
Section titled “我们关心的开放问题”- R1-Zero 式纯 RL 涌现 reasoning 的最小数据 / 算力门槛在哪?
- Process reward 真的比 outcome reward 更稳吗?哪些任务上反例?
- 推理时算力的边际收益曲线 —— 哪些任务”想得越多越好”,哪些”想多了反而差”?
- 多模态推理:视觉证据如何作为推理 step 的一部分?(参见 视觉原语)
推荐阅读路径(给新人)
Section titled “推荐阅读路径(给新人)”- 第一步:词典 GRPO —— DeepSeek-R1 的核心算法
- 第二步:DeepSeek-R1 原论文(待补解读)
- 第三步:视觉原语 —— 多模态推理的一个具体实例
- 第四步:从 GSM8K / MATH / AIME 一类 benchmark 上手复现一个简化版
该主线的”组内立场”
Section titled “该主线的”组内立场””占位。例:我们更关心推理过程的可解释性 + 可控性,而不是单纯刷 benchmark。