DeepSeek 专题概览

This content is not available in your language yet.

为什么单独开 DeepSeek 专题

DeepSeek 是少数把 架构创新 + 工程化 + 训练成本控制 三件事同时讲清楚的开源团队：

架构层：MLA、混合注意力（SWA/CSA/HCA）、Multi-Token Prediction
训练层：MoE 路由稳定化、FP8 混合精度、PP/EP/DP 三层并行
后训练：GRPO、Open-Process Distillation（OPD）、reasoning 强化
多模态：DeepSeek-VL 的视觉原语 + 推理闭环

这些技术点几乎全都被工业界其他团队直接复用了，所以读 DeepSeek 系列论文 = 一次性补齐当前开源 LLM 的工程基线。

家族族谱

graph LR
  V1["DeepSeek-V1<br/>(2024)<br/><i>密集 Transformer</i>"]
  V2["DeepSeek-V2<br/>(2024.05)<br/><i>MLA + DeepSeekMoE</i>"]
  V3["DeepSeek-V3<br/>(2024.12)<br/><i>671B / FP8 训练</i>"]
  R1["DeepSeek-R1<br/><i>GRPO + 推理强化</i>"]
  V4["DeepSeek-V4<br/>(2026) 🚀<br/><i>1M 上下文 + 混合注意力</i>"]
  VL["DeepSeek-VL<br/><i>视觉原语栈</i>"]
  Coder["DeepSeek-Coder"]
  Math["DeepSeek-Math"]

  V1 --> V2 --> V3
  V3 --> R1
  V3 --> V4
  V4 --> VL
  V2 --> Coder
  V2 --> Math

  classDef flagship fill:#2356d6,stroke:#0c2a66,color:#fff,font-weight:bold;
  class V4 flagship;

上图是 Mermaid 渲染的活图：你可以右键查看 SVG，或者去 /deepseek/overview.mdx 看源码改一改。

当前已上线文章

V4 研究深度解析架构、训练管线、OPD、推理服务的完整剖析（约 6000 字）

混合注意力机制 SWA + CSA + HCA 三路并联如何实现 1M context（约 4000 字）

视觉原语 DeepSeek-VL 的视觉编码栈与多模态推理闭环（约 5500 字）

待补充（欢迎认领）

DeepSeek-V2 / V3 历代架构对比
DeepSeek-R1 的 GRPO 训练细节
DeepSeek-Coder & Math 的数据 pipeline
V4 推理服务（vLLM/SGLang）部署实战

想认领某一项？去如何参与共读看流程。