DeepSeek 技术脉络

2023 年 11 月

DeepSeek-LLM 7B / 67B 起点

架构基本照搬 Llama：pre-norm decoder-only Transformer + RMSNorm + SwiGLU + RoPE + GQA（仅 67B）。训练 2T tokens（中英文 Common Crawl 去重），benchmark 超过 Llama 2。

Dense Transformer GQA（仅 67B） RoPE SwiGLU 2T tokens

2024 年 1 月

DeepSeekMoE MoE 探索

16B 参数（每 token 激活 ~2.4B）。引入 共享专家（Shared Experts）——始终激活的专家学习通用能力，路由专家（Routed Experts）学习特定能力。解决了标准 MoE 中专家负载不均的问题。

Shared + Routed Experts 16B / 2.4B active

2024 年 2 月

DeepSeek-Math GRPO 首秀

基于 Coder 7B 初始化，用 GRPO（Group Relative Policy Optimization） 做强化学习。这是 GRPO 的首次应用——用过程奖励模型（PRM）训练，而非传统 PPO。

GRPO PRM 过程奖励 144K 数学题

2024 年 5 月

DeepSeek-V2 架构大改

里程碑式架构变革。引入 MLA（Multi-head Latent Attention）替代标准 MHA，通过压缩潜在向量大幅降低 KV cache 显存。MoE + MLA 双创新架构。训练 8.1T tokens，两阶段 RL（推理任务 + 通用任务）。 价格：每百万输出 token 仅 2 元人民币。

MLA 多头潜在注意力 DeepSeekMoE GRPO 两阶段 RL 8.1T tokens 128K context

2024 年 12 月

DeepSeek-V3 效率巅峰

训练成本仅 $600 万（GPT-4 为 $1 亿）。14.8T tokens 预训练，引入 Multi-token Prediction（可选多 token 解码加速）。极致工程优化：FP8 (E4M3) 前向传播、自定义 12-bit float、20/132 SM 专用于通信、动态专家重分配、辅助负载均衡损失。 Benchmark 超越 Llama 3.1 和 Qwen 2.5，匹敌 GPT-4o 和 Claude 3.5 Sonnet。

MLA MoE Multi-token Prediction FP8 (E4M3) 14.8T tokens GRPO RL

2025 年 1 月 20 日

DeepSeek-R1 💥 AI 史普特尼克时刻

引爆全球。基于 V3-Base 初始化，纯 RL 驱动的推理模型。
R1-Zero：完全无 SFT，纯 GRPO + 规则奖励（答案正确性 + 格式），自发涌现 Chain-of-Thought 推理。
R1：在 R1-Zero 基础上加冷启动 SFT（~5K-10K 长链推理示例）→ RL（含语言一致性奖励）→ 合成 800K 数据 → 再 SFT → 再 RL（推理用规则奖励 + 非推理用模型奖励）。
蒸馏模型：用 R1 合成的 800K 数据直接 SFT 到 LLaMA、Qwen 等开源模型上。
AIME / MATH benchmark 超越 OpenAI o1。发布后 Nvidia 市值单日蒸发 $6000 亿。论文发表于 Nature（2025.9）。

GRPO 纯 RL 自发 CoT R1-Zero → R1 → Distill Nature 发表

2025 年 3 月

DeepSeek-V3-0324 MIT 开源

V3 架构，MIT License 发布。

2025 年 5 月

DeepSeek-R1-0528 R2 延期

R1 更新版。原计划 R2 早期发布，但梁文锋对性能不满意。传闻原因：数据标注进度慢 + 被鼓励使用华为昇腾芯片但稳定性和互联性能不足。最终选择 Nvidia 训练 + 华为推理。

2025 年 8 月

DeepSeek-V3.1 混合架构

Thinking / Non-thinking 双模式混合架构。SWE-bench、Terminal-bench 超过 V3 和 R1 超 40%。MIT License。

Thinking + Non-thinking SWE-bench +40%

2025 年 9 月

V3.1-Terminus / V3.2-Exp 稀疏注意力

V3.2-Exp 引入 DeepSeek Sparse Attention（NSA），更高效的注意力机制。

Native Sparse Attention

2025 年 12 月

DeepSeek-V3.2 稀疏注意力正式版

V3.2 + V3.2-Speciale（专注推理的变体）。DeepSeek Sparse Attention 正式集成。

2026 年 2 月

Anthropic 指控争议

Anthropic 指控 DeepSeek 使用数千个虚假账号生成数百万条与 Claude 的对话，用于训练自己的模型。同时 Moonshot AI 也被指控类似行为。

2026 年 4 月 24 日

DeepSeek-V4-Pro / V4-Flash 最新

V4 系列：V4-Pro 1.6 万亿参数 + V4-Flash 2840 亿参数。100 万 token 上下文窗口。原生支持文本、图像、视频多模态。MIT License。已被华为、寒武纪等芯片制造商采用。融资谈判中，估值或达 $100 亿。

1.6T params 1M context MIT License 华为/寒武纪采用

2026 年 1 月 27 日

DeepSeek-OCR 2 视觉模型

3B 参数视觉语言模型，引入 Visual Causal Flow 架构（DeepEncoder V2），可动态重排视觉 token 模拟人类阅读逻辑。每页仅需 256-1120 个视觉 token，benchmark 91.09%。开源。

Visual Causal Flow 3B params 开源

2026 年 4 月 29 日

识图模式多模态

基于 V4 原生多模态能力的识图模式灰度上线，5 月 9 日大范围开放。支持上传图片进行内容理解与分析，采用两阶段策略（粗读 + 关键区域精读）。补齐了 DeepSeek 多模态空白。

原生多模态文本 + 图像 + 视频

MLA — 多头潜在注意力

V2 起引入。将 KV cache 压缩为低秩潜在向量，大幅降低推理显存占用。是 DeepSeek 成本优势的基石之一。

DeepSeekMoE — 共享专家路由

标准 MoE 的改进：始终激活的 Shared Experts 学通用能力，Routed Experts 学专项能力，解决负载不均问题。

GRPO — 群组相对策略优化

替代 PPO 的 RL 算法。Math 首秀 → V2 两阶段 RL → R1 纯 RL 推理。R1-Zero 在无 SFT 下自发涌现 CoT。

FP8 混合精度训练

前向传播用 E4M3（4-bit 指数 + 3-bit 尾数），配合 128×128 块级缩放保证数值稳定性，优化器状态用 BF16。需要特殊 GEMM 累积。

Multi-token Prediction

V3 起引入。可选的多 token 并行解码，牺牲一定精度换取生成速度提升。

Native Sparse Attention

V3.2 引入。硬件对齐的原生可训练稀疏注意力，进一步提升长上下文效率。

组件	技术
硬件	Nvidia GPU（A100 → H800），200 Gbps 互联，双 Fat Tree 拓扑
3FS	分布式并行文件系统，Direct I/O + RDMA Read，专为异步随机读优化
hfreduce	异步通信库，替代 NCCL，CPU 异步执行避免阻塞 GPU kernel
HaiScale DDP	并行训练库：DP / PP / TP / EP / FSDP / ZeRO 全支持
H800 优化	132 SM 中 20 个专用于通信；每 10 分钟动态重分配专家所在机器

指标	数据
V3 训练成本	$600 万（GPT-4: $1 亿）
R1 发布后 Nvidia 单日市值蒸发	$6000 亿（美股历史最大单股跌幅）
R1 发布后超越 ChatGPT	美国 iOS App Store 下载量第一
V4-Flash 参数	284B
V4-Pro 参数	1.6T
V4 上下文窗口	1M tokens
最新估值（2026.4 谈判中）	~$100 亿
芯片策略	Nvidia 训练 + 华为昇腾推理
R2 状态	梁文锋不满意，持续延期中

DeepSeek 技术脉络

🧠 核心哲学

📅 技术演进时间线

⚡ 核心技术创新

MLA — 多头潜在注意力

DeepSeekMoE — 共享专家路由

GRPO — 群组相对策略优化

FP8 混合精度训练

Multi-token Prediction

Native Sparse Attention

🏗️ 算力基础设施

Fire-Flyer（萤火）集群

🔄 模型训练流程演进

V2 / Coder-V2 训练流程

V3 训练流程

R1 训练流程

🔀 R1 蒸馏模型家族

🎯 战略定位

✅ DeepSeek 做什么

❌ DeepSeek 不做什么

📊 行业影响