
从量化基金内部实验室到全球 AI 震荡源 · 2023-2026
极致的算法效率 > 暴力的算力堆叠。在美国芯片禁运限制下,用更弱的芯片(出口版 H800)、更少的 GPU、更低的成本,通过 MoE、MLA、FP8 混合精度等架构创新,达到甚至超越 OpenAI、Meta 的模型性能。全部模型 MIT 开源。
V2 起引入。将 KV cache 压缩为低秩潜在向量,大幅降低推理显存占用。是 DeepSeek 成本优势的基石之一。
标准 MoE 的改进:始终激活的 Shared Experts 学通用能力,Routed Experts 学专项能力,解决负载不均问题。
替代 PPO 的 RL 算法。Math 首秀 → V2 两阶段 RL → R1 纯 RL 推理。R1-Zero 在无 SFT 下自发涌现 CoT。
前向传播用 E4M3(4-bit 指数 + 3-bit 尾数),配合 128×128 块级缩放保证数值稳定性,优化器状态用 BF16。需要特殊 GEMM 累积。
V3 起引入。可选的多 token 并行解码,牺牲一定精度换取生成速度提升。
V3.2 引入。硬件对齐的原生可训练稀疏注意力,进一步提升长上下文效率。
自建软硬件协同设计算力集群。Fire-Flyer 1(2019,已退役)→ Fire-Flyer 2(2021,仍在运行)。
| 组件 | 技术 |
|---|---|
| 硬件 | Nvidia GPU(A100 → H800),200 Gbps 互联,双 Fat Tree 拓扑 |
| 3FS | 分布式并行文件系统,Direct I/O + RDMA Read,专为异步随机读优化 |
| hfreduce | 异步通信库,替代 NCCL,CPU 异步执行避免阻塞 GPU kernel |
| HaiScale DDP | 并行训练库:DP / PP / TP / EP / FSDP / ZeRO 全支持 |
| H800 优化 | 132 SM 中 20 个专用于通信;每 10 分钟动态重分配专家所在机器 |
预训练 → YaRN 上下文扩展 → SFT → GRPO 两阶段 RL
阶段 1 RL:数学/编码(编译器反馈 + 标签)。阶段 2 RL:有用性/安全性(人类偏好 + 规则奖励)。
14.8T 预训练 → 两次 YaRN 扩展(4K→32K→128K) → SFT(1.5M, 推理+非推理) → GRPO RL(模型奖励+规则奖励)
推理数据由专家模型生成(非 R1 本身,因为 R1 输出"过度思考、格式差、过长")。非推理数据由 V2.5 + 人工审核。
R1-Zero: V3-Base → 纯 GRPO RL (无 SFT, 无模型奖励, 规则奖励)
R1: V3-Base → 冷启动 SFT → RL(+语言一致性) → 合成 800K 数据 → SFT → RL(推理规则+非推理模型奖励)
R1-Zero 证明了纯 RL 可以涌现推理能力,但存在可读性和语言混合问题。R1 通过冷启动 + 语言奖励解决。
用 R1 合成的 800K 数据直接 SFT 到其他开源基座模型上,无需 RL:
让任何开源模型都能获得推理能力,无需昂贵的 RL 训练。
• 语言模型 + 推理 + 视觉(DeepSeek-OCR 2)+ 多模态(V4 识图模式)
• 极致成本效率(MoE + MLA + FP8)
• 全部 MIT 开源
• "专注研究,暂无商业化"
• 算法 > 算力的技术路线
• 不做世界模型
• 不追求快速 IPO
• 不跟风视频生成
| 指标 | 数据 |
|---|---|
| V3 训练成本 | $600 万(GPT-4: $1 亿) |
| R1 发布后 Nvidia 单日市值蒸发 | $6000 亿(美股历史最大单股跌幅) |
| R1 发布后超越 ChatGPT | 美国 iOS App Store 下载量第一 |
| V4-Flash 参数 | 284B |
| V4-Pro 参数 | 1.6T |
| V4 上下文窗口 | 1M tokens |
| 最新估值(2026.4 谈判中) | ~$100 亿 |
| 芯片策略 | Nvidia 训练 + 华为昇腾推理 |
| R2 状态 | 梁文锋不满意,持续延期中 |