① 先看 V4 总览
建立大局观:V4 想解决什么、用了哪些招、效果如何。
This content is not available in your language yet.
DeepSeek 是少数把 架构创新 + 工程化 + 训练成本控制 三件事同时讲清楚的开源团队:
这些技术点几乎全都被工业界其他团队直接复用了,所以读 DeepSeek 系列论文 = 一次性补齐当前开源 LLM 的工程基线。
graph LR V1["DeepSeek-V1<br/>(2024)<br/><i>密集 Transformer</i>"] V2["DeepSeek-V2<br/>(2024.05)<br/><i>MLA + DeepSeekMoE</i>"] V3["DeepSeek-V3<br/>(2024.12)<br/><i>671B / FP8 训练</i>"] R1["DeepSeek-R1<br/><i>GRPO + 推理强化</i>"] V4["DeepSeek-V4<br/>(2026) 🚀<br/><i>1M 上下文 + 混合注意力</i>"] VL["DeepSeek-VL<br/><i>视觉原语栈</i>"] Coder["DeepSeek-Coder"] Math["DeepSeek-Math"] V1 --> V2 --> V3 V3 --> R1 V3 --> V4 V4 --> VL V2 --> Coder V2 --> Math classDef flagship fill:#2356d6,stroke:#0c2a66,color:#fff,font-weight:bold; class V4 flagship;
上图是 Mermaid 渲染的活图:你可以右键查看 SVG,或者去
/deepseek/overview.mdx看源码改一改。
① 先看 V4 总览
建立大局观:V4 想解决什么、用了哪些招、效果如何。
② 再深挖混合注意力
理解 V4 最硬核的架构创新,看完你会明白为什么不是单纯堆 KV cache。
③ 然后看 OPD 训练管线
(在 V4 研究文中)训练-推理 co-design 是 V4 的另一条主线。
④ 最后看视觉原语
多模态侧的延伸,理解 DeepSeek 怎么把”看图”也变成 token 流。
想认领某一项?去 如何参与共读 看流程。