Skip to content

多模态

This content is not available in your language yet.

⚠️ 占位内容。该方向 owner 请来填。

我们关心:让模型不仅能”看”,还能在推理过程中显式绑定视觉证据(坐标、区域、片段)

我们关心:单纯多模态对齐 benchmark 刷分。

  • 小导师占位
  • 核心博士占位 · 占位
  • 硕士 / 新生:欢迎加入(视觉数据处理方向人手紧缺)
  • 视觉原语 (DeepSeek-VL) —— 把 box / point 提升为推理原语
  • 待补:CLIP / LLaVA / Qwen-VL / InternVL 系列
  • 待补:高分辨率视觉编码(dynamic resolution / cropping)

占位。

  • 项目 A
  • 项目 B
  1. 视觉 token 的最优压缩比例如何随任务变化?
  2. Reference Gap:怎么让模型在长 CoT 中稳定指代某个具体对象?
  3. 视频 / 3D / 动态场景中”原语”的扩展形式是什么?
  4. Pretrained ViT 的 inductive bias 是否限制了视觉推理?
  1. 第一步视觉原语 —— 我们组关心问题的一个具体回答
  2. 第二步:CLIP / LLaVA 经典论文(待补解读)
  3. 第三步:DeepSeek-ViT / 视觉 token 压缩(待补)
  4. 第四步:动手 —— 在公开 dataset 上复现一个 mini-VLM

占位。