跳转到内容

Test-time Reasoning

⚠️ 占位内容。该方向 owner 请来填。

我们关心:通过推理时计算(更多 thinking budget / 更好搜索 / 更强自验证)持续提升复杂任务的能力

我们关心:纯 prompt engineering 套路。

  • 待补:OpenAI o1 / DeepSeek-R1 / s1 / Sky-T1
  • 待补:Process Reward Model / Outcome Reward Model
  • 待补:Tree-of-Thought / Self-Consistency 综述

占位。

  • 项目 A:…
  1. R1-Zero 式纯 RL 涌现 reasoning 的最小数据 / 算力门槛在哪?
  2. Process reward 真的比 outcome reward 更稳吗?哪些任务上反例?
  3. 推理时算力的边际收益曲线 —— 哪些任务”想得越多越好”,哪些”想多了反而差”?
  4. 多模态推理:视觉证据如何作为推理 step 的一部分?(参见 视觉原语
  1. 第一步:词典 GRPO —— DeepSeek-R1 的核心算法
  2. 第二步:DeepSeek-R1 原论文(待补解读)
  3. 第三步视觉原语 —— 多模态推理的一个具体实例
  4. 第四步:从 GSM8K / MATH / AIME 一类 benchmark 上手复现一个简化版

占位。例:我们更关心推理过程的可解释性 + 可控性,而不是单纯刷 benchmark。