多模态
⚠️ 占位内容。该方向 owner 请来填。
我们关心:让模型不仅能”看”,还能在推理过程中显式绑定视觉证据(坐标、区域、片段)。
我们不关心:单纯多模态对齐 benchmark 刷分。
该方向的 owner
Section titled “该方向的 owner”关键论文(外部)
Section titled “关键论文(外部)”- 视觉原语 (DeepSeek-VL) —— 把 box / point 提升为推理原语
- 待补:CLIP / LLaVA / Qwen-VL / InternVL 系列
- 待补:高分辨率视觉编码(dynamic resolution / cropping)
我们的工作(内部)
Section titled “我们的工作(内部)”占位。
- 项目 A
- 项目 B
我们关心的开放问题
Section titled “我们关心的开放问题”- 视觉 token 的最优压缩比例如何随任务变化?
- Reference Gap:怎么让模型在长 CoT 中稳定指代某个具体对象?
- 视频 / 3D / 动态场景中”原语”的扩展形式是什么?
- Pretrained ViT 的 inductive bias 是否限制了视觉推理?
推荐阅读路径(给新人)
Section titled “推荐阅读路径(给新人)”- 第一步:视觉原语 —— 我们组关心问题的一个具体回答
- 第二步:CLIP / LLaVA 经典论文(待补解读)
- 第三步:DeepSeek-ViT / 视觉 token 压缩(待补)
- 第四步:动手 —— 在公开 dataset 上复现一个 mini-VLM
该主线的”组内立场”
Section titled “该主线的”组内立场””占位。