跳转到内容

长上下文效率

⚠️ 占位内容。Leon 与该方向 owner 请来填。下方结构是模板。

我们关心:让百万 token 级别推理在 lab 单机集群上跑得起、跑得快

我们关心:纯文本压缩 / 信息检索式的 long-doc QA(更像系统集成问题)。

占位。Leon 来补:组里当前在做的相关项目、已投/已发的论文。

  • 项目 A:xxx(owner / 状态)
  • 项目 B:xxx
  • arXiv 链接 / 内部代码库链接
  1. CSA / HCA 的混合比例如何随任务自适应?
  2. 长上下文与 MoE 路由的耦合如何稳住?
  3. 1M context 在 8×H800 上推理的真实瓶颈是哪一段?
  4. KV cache 异构分层(DRAM / SSD)的 hit-rate 怎么建模?
  1. 第一周DeepSeek-V4 概览 + V4 研究深度解析
  2. 第二周混合注意力机制(SWA / CSA / HCA 三层)
  3. 第三周:补齐前置概念
  4. 第四周:动手 —— 在我们 baseline 上跑一次 1M context 推理(见 /internal/playbooks/,待开放)

占位。Leon 写:相对其他组在这条线上,我们组的独特立场是什么。

例:我们倾向于把”百万上下文”当作系统问题来解,而非纯算法问题。所以我们组的工作里训练 / 推理 / 服务是耦合的,单独看任何一篇论文都未必看到全貌。


有问题或想加入这条主线? 在底部评论区留言,或直接给 PI / owner 发消息。