跳转到内容

Test-time Reasoning

⚠️ 占位内容。该方向 owner 请来填。

一句话定位

我们关心：通过推理时计算（更多 thinking budget / 更好搜索 / 更强自验证）持续提升复杂任务的能力。

我们不关心：纯 prompt engineering 套路。

该方向的 owner

小导师：占位
核心博士：占位 · 占位
硕士 / 新生：欢迎加入

关键论文（外部）

待补：OpenAI o1 / DeepSeek-R1 / s1 / Sky-T1
待补：Process Reward Model / Outcome Reward Model
待补：Tree-of-Thought / Self-Consistency 综述

我们的工作（内部）

占位。

项目 A：…

我们关心的开放问题

R1-Zero 式纯 RL 涌现 reasoning 的最小数据 / 算力门槛在哪？
Process reward 真的比 outcome reward 更稳吗？哪些任务上反例？
推理时算力的边际收益曲线 —— 哪些任务”想得越多越好”，哪些”想多了反而差”？
多模态推理：视觉证据如何作为推理 step 的一部分？（参见视觉原语）

推荐阅读路径（给新人）

第一步：词典 GRPO —— DeepSeek-R1 的核心算法
第二步：DeepSeek-R1 原论文（待补解读）
第三步：视觉原语 —— 多模态推理的一个具体实例
第四步：从 GSM8K / MATH / AIME 一类 benchmark 上手复现一个简化版

该主线的”组内立场”

占位。例：我们更关心推理过程的可解释性 + 可控性，而不是单纯刷 benchmark。