Skip to content

百度 ERNIE 5.1:用 6% 的训练成本,打了场什么仗

2026 年 5 月 9 日,百度发布文心大模型 ERNIE 5.1。参数压缩到前代的 1/3,训练成本降到同级别模型的 6%,Agent 能力超越 DeepSeek-V4-Pro。这不仅仅是一个「新模型发布」的故事——它指向的是大模型竞争的核心变量正在从「谁的参数最大」转向「谁的效率最高」。


一个数字抓住眼球:6%

6%。

ERNIE 5.1 的预训练计算成本,只有同级别模型的约 6%。不是降了 6%,是只剩 6%。

与此同时,它做到了:

维度数据
总参数压缩到 ERNIE 5.0 的约 1/3
激活参数压缩到约 1/2
LMArena 搜索榜全球第 4,中国第 1(1223 分)
LMArena 文本榜全球第 13,中国第 1(1476 分)
Agent 能力超越 DeepSeek-V4-Pro
数学推理(AIME26)99.6 分,全球第二,仅次于 Gemini 3.1 Pro
创意写作内部评测接近 Gemini 3.1 Pro

一句话:参数少了,成本降了,性能没掉。

这不是魔术——是工程。


怎么做到的:三个关键技术决策

1. 多维弹性预训练(Once-For-All)

传统做法是「不同规模的模型分别训练」——想做三个尺寸的模型,就得跑三次预训练。

百度的思路完全不同:一次训练,生成多种规模的模型。

他们在 ERNIE 5.0 阶段设计了一个弹性训练框架,在单次预训练中同时优化大量子模型。具体在三个维度上做弹性控制:

传统训练:                          ERNIE 5.0 弹性训练:
┌───────────────┐                 ┌─────────────────────────┐
│ 模型 A (大)    │ ← 独立训练      │                         │
└───────────────┘                 │  ┌─────┐ ┌─────┐       │
┌───────────────┐                 │  │子模型│ │子模型│ ...   │
│ 模型 B (中)    │ ← 独立训练      │  │ A   │ │ B   │       │
└───────────────┘                 │  └─────┘ └─────┘       │
┌───────────────┐                 │     ↑ 动态采样 ↑        │
│ 模型 C (小)    │ ← 独立训练      │  同一次预训练中联合优化    │
└───────────────┘                 └─────────────────────────┘
训练 3 次 = 3 倍成本               训练 1 次 = 1 倍成本

三个弹性维度:

  • 弹性深度:训练时随机变化 Transformer 层数,深浅子模型共享权重
  • 弹性宽度/专家容量:MoE 层中动态调整参与路由的专家数量
  • 弹性稀疏度:通过可变 Top-k 路由机制,灵活调整激活专家数

ERNIE 5.1 就是从这个子模型矩阵中「挑」出来的最优子网络。它不需要重新预训练——直接继承 5.0 的知识,只花了 6% 的成本。

2. 解耦全异步强化学习

为了把大模型推向 Agent 方向,百度在飞桨(PaddlePaddle)上搭了一套全新的 RL 基础设施。

核心设计:以 RL Controller 为中心,把训练、推理、奖励、Agent 循环四个子系统完全解耦。

┌──────────────────────────────────────────────────┐
│              RL Controller(控制面)                │
│                                                   │
│  ┌──────┐  ┌──────┐  ┌──────┐  ┌──────────┐     │
│  │ 训练  │  │ 推理  │  │ 奖励  │  │ Agent 循环│     │
│  │      │  │      │  │      │  │          │     │
│  │独立部署│  │独立部署│  │独立部署│  │ 独立部署  │     │
│  │独立扩缩│  │独立扩缩│  │独立扩缩│  │ 独立扩缩  │     │
│  └──┬───┘  └──┬───┘  └──┬───┘  └────┬─────┘     │
│     │         │         │           │            │
│     └─────────┴─────────┴───────────┘            │
│           高性能网络数据组件(数据面)               │
└──────────────────────────────────────────────────┘

三个关键优化:

优化方向具体做法效果
解耦全异步四大子系统独立部署、独立扩缩推理-训练-奖励形成 Pipeline,完全重叠
FP8 训练推理一致性统一 FP8 算子库 + Rollout Router Replay(R3)训练推理精度偏差降低 50%(K3 KL 散度)
异构弹性资源调度空闲 CPU 跑代码沙箱和验证器资源利用率提升,训练迭代时间降低

这套架构解决的核心问题是:长时间 RL 训练中的资源浪费和训练-推理偏差。 不是某个算法的改进,是基础设施层面的重构。

3. 四阶段后训练流水线(MOPD)

传统后训练是串行的:SFT → RL → 结束。百度设计了一个以「多教师在线蒸馏」为中心的四阶段流水线:

┌──────────────────────────────────────────────────────┐
│                                                       │
│  Stage 1: 统一 SFT                                    │
│  ┌─────────────────────────────────────────┐          │
│  │ 多领域指令数据微调 → 基础指令跟随能力      │          │
│  └──────────────────────┬──────────────────┘          │
│                         ↓                             │
│  Stage 2: 领域专家并行训练                               │
│  ┌───────────┐  ┌───────────┐  ┌───────────┐         │
│  │ 代码专家   │  │ 推理专家   │  │ Agent 专家 │  ...    │
│  │ (独立奖励) │  │ (独立奖励) │  │ (独立奖励) │         │
│  └─────┬─────┘  └─────┬─────┘  └─────┬─────┘         │
│        └──────────────┼──────────────┘                 │
│                       ↓                                │
│  Stage 3: 在线蒸馏(OPD)                               │
│  ┌─────────────────────────────────────────┐          │
│  │ 统一 SFT 模型 = 学生                     │          │
│  │ 多个领域专家 = 教师                       │          │
│  │ 学生从自身策略分布采样,同时向多教师学习     │          │
│  │ → 把多专家能力压进一个模型                  │          │
│  └──────────────────────┬──────────────────┘          │
│                         ↓                             │
│  Stage 4: 通用在线 RL                                  │
│  ┌─────────────────────────────────────────┐          │
│  │ 专门处理高熵任务(开放对话、创意写作)      │          │
│  │ 不用蒸馏,直接在线 RL                      │          │
│  │ → 保证生成多样性和人类偏好对齐              │          │
│  └─────────────────────────────────────────┘          │
│                                                       │
└──────────────────────────────────────────────────────┘

为什么这么做?因为串行训练有「跷跷板效应」——提升代码能力会牺牲推理能力,提升推理能力又会拖累对话质量。多教师蒸馏让每个专家独立训练、互不干扰,最后再融合。

这是工程思维,不是算法创新——但工程思维往往比算法创新更有杀伤力。


诚实说:短板在哪

看了一圈第三方评测和 benchmark 数据,三个明显的短板:

短板具体表现
通用世界知识MMLU-Pro 上和顶尖闭源模型有可见差距。不挂搜索用的时候,知识厚度不如 GPT-5.1 和 Gemini 3.1 Pro
深度多步搜索 Agent单轮搜索很强(Search Arena #4)。但多步规划-浏览-综合的深度研究工作流,还落后于 Claude Opus 4.6 和 Gemini 3.1 Pro
实际编程能生成看起来像样的代码,但维护长程序全局状态的能力,和前沿编程模型差距明显。Claude Code 式的工作流里,这是最关键的缺口

还有一个值得注意的点:SpreadsheetBench-Verified 上和 Claude Opus 4.6、Gemini 3.1 Pro 的差距不小。办公自动化场景下,端到端可靠执行的能力还需要补。


对比表:ERNIE 5.1 在什么位置

能力维度ERNIE 5.1DeepSeek V4 ProClaude Opus 4.6Gemini 3.1 Pro
数学(AIME26)99.6,#2#4#3#1
多轮工具调用(τ³)#2#4#1#3
电子表格#3#4#1#2
研究生科学(GPQA)#2#4#3#1
通用知识(MMLU-Pro)#4#3#2#1
指令跟随(AdvanceIF)#2#3#4#1
训练成本约 6%未知未知未知

数据来源:Fello AIERNIE Blog

一个有趣的观察:ERNIE 5.1 在数学和工具调用上已经能跟全球顶尖模型掰手腕,但通用知识和长链编程还有差距。这是一个在特定维度上做到顶尖、但均衡性还需补课的模型。


几个判断

第一,6% 的成本数字,是这篇文章里最重要的信息。 大模型竞赛正在从「谁的参数最大」转向「谁的效率最高」。ERNIE 5.1 的弹性预训练框架证明了一件事:你不需要每次都从头训练一个大模型。 一次训练、多尺寸产出——这不是小优化,是训练范式的变化。对独立开发者和小团队来说,训练成本降低 94% 意味着更多可能性。

第二,Agent 能力正在成为新的主战场。 百度在这版发布中花了大量篇幅讲 Agent——解耦 RL 基础设施、τ³-bench 排名、agentic post-training。这不是偶然。2026 年的大模型竞争,对话能力已经是标配,真正的差异化在于模型能不能作为一个自主决策的 Agent 完成复杂任务。ERNIE 5.1 在 Agent 能力上超过 DeepSeek-V4-Pro,这个信号值得关注。

第三,工程创新 > 算法创新。 回头看 ERNIE 5.1 的三个核心技术创新——弹性预训练、解耦异步 RL、多教师蒸馏流水线——没有一个是全新的算法。每一个都是「把已有技术用更聪明的方式组合起来」。好的工程不是发明新技术,是把现有技术用到极致。Claude Code 51 万行代码用 grep 打败 RAG 也是同一个道理。

第四,百度在打一场「性价比」战争。 不是参数量战争,不是 benchmark 战争,是「我用 6% 的成本做出 90% 的性能」的战争。这个策略在商业上非常聪明——对价格敏感的企业客户、对成本敏感的独立开发者、对国产化有要求的政企场景,ERNIE 5.1 的定位非常精准。

第五,但差距是真实的,别被 headline 骗了。 6% 的成本很惊艳,Agent 能力超过 DeepSeek-V4-Pro 很亮眼。但在实际编程、深度多步推理、通用知识这些「真正决定日常使用体验」的维度上,和 Claude、Gemini 的差距仍然存在。选模型的时候,别只看 headline 数字,想清楚你用它来干什么。


试试看

ERNIE 5.1 已经上线:

  • 官网体验ernie.baidu.com
  • 千帆模型广场:企业用户和开发者可通过百度千帆平台调用 API
  • 飞桨 AI Studio:提供 Playground 环境,可直接上手测试

5 月 13-14 日,百度 AI 开发者大会(Create 2026)将在北京国家会议中心二期举行,届时会有更多技术细节和商业化规划披露。


ERNIE 5.1 不是一个让你惊呼「AI 又飞跃了」的模型。它是一个让你意识到「AI 的竞争规则变了」的模型。从比谁烧钱多,到比谁花得值——这个方向,对整个行业都是好消息。

最近更新

基于 MIT LICENSE 许可发布