跳转到内容

多模态

⚠️ 占位内容。该方向 owner 请来填。

一句话定位

我们关心：让模型不仅能”看”，还能在推理过程中显式绑定视觉证据（坐标、区域、片段）。

我们不关心：单纯多模态对齐 benchmark 刷分。

该方向的 owner

小导师：占位
核心博士：占位 · 占位
硕士 / 新生：欢迎加入（视觉数据处理方向人手紧缺）

关键论文（外部）

视觉原语 (DeepSeek-VL) —— 把 box / point 提升为推理原语
待补：CLIP / LLaVA / Qwen-VL / InternVL 系列
待补：高分辨率视觉编码（dynamic resolution / cropping）

我们的工作（内部）

占位。

项目 A
项目 B

我们关心的开放问题

视觉 token 的最优压缩比例如何随任务变化？
Reference Gap：怎么让模型在长 CoT 中稳定指代某个具体对象？
视频 / 3D / 动态场景中”原语”的扩展形式是什么？
Pretrained ViT 的 inductive bias 是否限制了视觉推理？

推荐阅读路径（给新人）

第一步：视觉原语 —— 我们组关心问题的一个具体回答
第二步：CLIP / LLaVA 经典论文（待补解读）
第三步：DeepSeek-ViT / 视觉 token 压缩（待补）
第四步：动手 —— 在公开 dataset 上复现一个 mini-VLM

该主线的”组内立场”

占位。