DeepSeek 技术脉络

DeepSeek 技术脉络

从量化基金内部实验室到全球 AI 震荡源 · 2023-2026

🧠 核心哲学

极致的算法效率 > 暴力的算力堆叠。在美国芯片禁运限制下,用更弱的芯片(出口版 H800)、更少的 GPU、更低的成本,通过 MoE、MLA、FP8 混合精度等架构创新,达到甚至超越 OpenAI、Meta 的模型性能。全部模型 MIT 开源。

📅 技术演进时间线

2023 年 11 月
DeepSeek-LLM 7B / 67B 起点
架构基本照搬 Llama:pre-norm decoder-only Transformer + RMSNorm + SwiGLU + RoPE + GQA(仅 67B)。 训练 2T tokens(中英文 Common Crawl 去重),benchmark 超过 Llama 2。
Dense Transformer GQA(仅 67B) RoPE SwiGLU 2T tokens
2024 年 1 月
DeepSeekMoE MoE 探索
16B 参数(每 token 激活 ~2.4B)。引入 共享专家(Shared Experts)——始终激活的专家学习通用能力,路由专家(Routed Experts)学习特定能力。解决了标准 MoE 中专家负载不均的问题。
Shared + Routed Experts 16B / 2.4B active
2024 年 2 月
DeepSeek-Math GRPO 首秀
基于 Coder 7B 初始化,用 GRPO(Group Relative Policy Optimization) 做强化学习。这是 GRPO 的首次应用——用过程奖励模型(PRM)训练,而非传统 PPO。
GRPO PRM 过程奖励 144K 数学题
2024 年 5 月
DeepSeek-V2 架构大改
里程碑式架构变革。引入 MLA(Multi-head Latent Attention)替代标准 MHA,通过压缩潜在向量大幅降低 KV cache 显存。MoE + MLA 双创新架构。 训练 8.1T tokens,两阶段 RL(推理任务 + 通用任务)。 价格:每百万输出 token 仅 2 元人民币。
MLA 多头潜在注意力 DeepSeekMoE GRPO 两阶段 RL 8.1T tokens 128K context
2024 年 12 月
DeepSeek-V3 效率巅峰
训练成本仅 $600 万(GPT-4 为 $1 亿)。14.8T tokens 预训练,引入 Multi-token Prediction(可选多 token 解码加速)。 极致工程优化:FP8 (E4M3) 前向传播、自定义 12-bit float、20/132 SM 专用于通信、动态专家重分配、辅助负载均衡损失。 Benchmark 超越 Llama 3.1 和 Qwen 2.5,匹敌 GPT-4o 和 Claude 3.5 Sonnet。
MLA MoE Multi-token Prediction FP8 (E4M3) 14.8T tokens GRPO RL
2025 年 1 月 20 日
DeepSeek-R1 💥 AI 史普特尼克时刻
引爆全球。基于 V3-Base 初始化,纯 RL 驱动的推理模型。
R1-Zero:完全无 SFT,纯 GRPO + 规则奖励(答案正确性 + 格式),自发涌现 Chain-of-Thought 推理。
R1:在 R1-Zero 基础上加冷启动 SFT(~5K-10K 长链推理示例)→ RL(含语言一致性奖励)→ 合成 800K 数据 → 再 SFT → 再 RL(推理用规则奖励 + 非推理用模型奖励)。
蒸馏模型:用 R1 合成的 800K 数据直接 SFT 到 LLaMA、Qwen 等开源模型上。
AIME / MATH benchmark 超越 OpenAI o1。发布后 Nvidia 市值单日蒸发 $6000 亿。论文发表于 Nature(2025.9)。
GRPO 纯 RL 自发 CoT R1-Zero → R1 → Distill Nature 发表
2025 年 3 月
DeepSeek-V3-0324 MIT 开源
V3 架构,MIT License 发布。
2025 年 5 月
DeepSeek-R1-0528 R2 延期
R1 更新版。原计划 R2 早期发布,但梁文锋对性能不满意。传闻原因:数据标注进度慢 + 被鼓励使用华为昇腾芯片但稳定性和互联性能不足。最终选择 Nvidia 训练 + 华为推理。
2025 年 8 月
DeepSeek-V3.1 混合架构
Thinking / Non-thinking 双模式混合架构。SWE-bench、Terminal-bench 超过 V3 和 R1 超 40%。MIT License。
Thinking + Non-thinking SWE-bench +40%
2025 年 9 月
V3.1-Terminus / V3.2-Exp 稀疏注意力
V3.2-Exp 引入 DeepSeek Sparse Attention(NSA),更高效的注意力机制。
Native Sparse Attention
2025 年 12 月
DeepSeek-V3.2 稀疏注意力正式版
V3.2 + V3.2-Speciale(专注推理的变体)。DeepSeek Sparse Attention 正式集成。
2026 年 2 月
Anthropic 指控 争议
Anthropic 指控 DeepSeek 使用数千个虚假账号生成数百万条与 Claude 的对话,用于训练自己的模型。同时 Moonshot AI 也被指控类似行为。
2026 年 4 月 24 日
DeepSeek-V4-Pro / V4-Flash 最新
V4 系列:V4-Pro 1.6 万亿参数 + V4-Flash 2840 亿参数。100 万 token 上下文窗口。原生支持文本、图像、视频多模态。MIT License。 已被华为、寒武纪等芯片制造商采用。融资谈判中,估值或达 $100 亿。
1.6T params 1M context MIT License 华为/寒武纪采用
2026 年 1 月 27 日
DeepSeek-OCR 2 视觉模型
3B 参数视觉语言模型,引入 Visual Causal Flow 架构(DeepEncoder V2),可动态重排视觉 token 模拟人类阅读逻辑。每页仅需 256-1120 个视觉 token,benchmark 91.09%。开源。
Visual Causal Flow 3B params 开源
2026 年 4 月 29 日
识图模式 多模态
基于 V4 原生多模态能力的识图模式灰度上线,5 月 9 日大范围开放。支持上传图片进行内容理解与分析,采用两阶段策略(粗读 + 关键区域精读)。补齐了 DeepSeek 多模态空白。
原生多模态 文本 + 图像 + 视频

⚡ 核心技术创新

MLA — 多头潜在注意力

V2 起引入。将 KV cache 压缩为低秩潜在向量,大幅降低推理显存占用。是 DeepSeek 成本优势的基石之一。

DeepSeekMoE — 共享专家路由

标准 MoE 的改进:始终激活的 Shared Experts 学通用能力,Routed Experts 学专项能力,解决负载不均问题。

GRPO — 群组相对策略优化

替代 PPO 的 RL 算法。Math 首秀 → V2 两阶段 RL → R1 纯 RL 推理。R1-Zero 在无 SFT 下自发涌现 CoT。

FP8 混合精度训练

前向传播用 E4M3(4-bit 指数 + 3-bit 尾数),配合 128×128 块级缩放保证数值稳定性,优化器状态用 BF16。需要特殊 GEMM 累积。

Multi-token Prediction

V3 起引入。可选的多 token 并行解码,牺牲一定精度换取生成速度提升。

Native Sparse Attention

V3.2 引入。硬件对齐的原生可训练稀疏注意力,进一步提升长上下文效率。

🏗️ 算力基础设施

Fire-Flyer(萤火)集群

自建软硬件协同设计算力集群。Fire-Flyer 1(2019,已退役)→ Fire-Flyer 2(2021,仍在运行)。

组件技术
硬件Nvidia GPU(A100 → H800),200 Gbps 互联,双 Fat Tree 拓扑
3FS分布式并行文件系统,Direct I/O + RDMA Read,专为异步随机读优化
hfreduce异步通信库,替代 NCCL,CPU 异步执行避免阻塞 GPU kernel
HaiScale DDP并行训练库:DP / PP / TP / EP / FSDP / ZeRO 全支持
H800 优化132 SM 中 20 个专用于通信;每 10 分钟动态重分配专家所在机器

🔄 模型训练流程演进

V2 / Coder-V2 训练流程

预训练 → YaRN 上下文扩展 → SFT → GRPO 两阶段 RL

阶段 1 RL:数学/编码(编译器反馈 + 标签)。阶段 2 RL:有用性/安全性(人类偏好 + 规则奖励)。

V3 训练流程

14.8T 预训练 → 两次 YaRN 扩展(4K→32K→128K) → SFT(1.5M, 推理+非推理) → GRPO RL(模型奖励+规则奖励)

推理数据由专家模型生成(非 R1 本身,因为 R1 输出"过度思考、格式差、过长")。非推理数据由 V2.5 + 人工审核。

R1 训练流程

R1-Zero: V3-Base → 纯 GRPO RL (无 SFT, 无模型奖励, 规则奖励)

R1: V3-Base → 冷启动 SFT → RL(+语言一致性) → 合成 800K 数据 → SFT → RL(推理规则+非推理模型奖励)

R1-Zero 证明了纯 RL 可以涌现推理能力,但存在可读性和语言混合问题。R1 通过冷启动 + 语言奖励解决。

🔀 R1 蒸馏模型家族

用 R1 合成的 800K 数据直接 SFT 到其他开源基座模型上,无需 RL:

DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Qwen-7B DeepSeek-R1-Distill-Llama-70B DeepSeek-R1-Distill-Llama-8B

让任何开源模型都能获得推理能力,无需昂贵的 RL 训练。

🎯 战略定位

✅ DeepSeek 做什么

• 语言模型 + 推理 + 视觉(DeepSeek-OCR 2)+ 多模态(V4 识图模式)
• 极致成本效率(MoE + MLA + FP8)
• 全部 MIT 开源
• "专注研究,暂无商业化"
• 算法 > 算力的技术路线

❌ DeepSeek 不做什么

• 不做世界模型
• 不追求快速 IPO
• 不跟风视频生成

📊 行业影响

指标数据
V3 训练成本$600 万(GPT-4: $1 亿)
R1 发布后 Nvidia 单日市值蒸发$6000 亿(美股历史最大单股跌幅)
R1 发布后超越 ChatGPT美国 iOS App Store 下载量第一
V4-Flash 参数284B
V4-Pro 参数1.6T
V4 上下文窗口1M tokens
最新估值(2026.4 谈判中)~$100 亿
芯片策略Nvidia 训练 + 华为昇腾推理
R2 状态梁文锋不满意,持续延期中