MiMo V2.5 Pro 登顶 DesignArena 开源前三：手机厂造的大模型，为什么让硅谷坐不住了

2026 年 5 月 14 日，DesignArena 官方账号发了一条推文：MiMo V2.5 Pro（Thinking）在开源模型总排行榜上拿到第三名，比非 Thinking 版本一口气蹿升了 8 个名次。在前端编码任务上，它和 Claude Sonnet 4.6 打了个平手。

DesignArena 不是什么野鸡榜。它是全球第一个面向真实设计任务的 AI 评测平台，靠 370 万+ 创作者的人头投票说话——盲测对比，谁生成的代码更好用，谁就排前面。不是跑固定测试集，不是刷分，是真刀真枪的人类偏好。

一个做手机的公司，在大模型设计编码这个最硬核的赛道上，站到了开源世界的领奖台。这件事值得拆开看。

先搞清楚 MiMo V2.5 Pro 是什么

小米 4 月 22 日发布，4 月 27 日开源，MIT 协议。

核心参数：

维度	数据
总参数量	1.02T（万亿级）
激活参数	42B
架构	MoE（混合专家）+ 混合注意力
上下文窗口	原生 100 万 Token
定价	$1 输入 / $3 输出（每百万 Token）

几个数字直接对标：SWE-bench Pro 57.2%，超过 Claude Opus 4.6 的 53.4%，和 GPT-5.4 的 57.7% 只有 0.5 个百分点的差距。在 ClawEval 上用 70K Token 达到 64% Pass³，比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 省 40-60% 的 Token。

输出价格是 Claude Opus 4.6 的 1/8。

这不是"接近"的叙事，这是正面硬刚的数据。

DesignArena 第三名意味着什么

先说这个排名的含金量。

DesignArena 用的是 Bradley-Terry 模型算 Elo 分。不是让模型跑几道固定题，是让真人设计师看两个模型生成的代码，盲选哪个更好。这和 Chatbot Arena 一个逻辑——靠人头投票，不是靠跑分刷榜。

MiMo V2.5 Pro 在前端编码任务上达到了 Claude Sonnet 4.6 的性能水平。前端编码是什么概念？这是 AI 编程里最讲"审美"的领域——不是能不能跑的问题，是好不好看、交互合不合理、代码能不能直接交付的问题。

在 DesignArena 的排行体系里，前端编码一直是 Anthropic 的绝对主场。Claude Opus 4.6 在 3 月份的评测中横扫了网页开发、3D 设计、游戏开发、数据可视化几乎所有前端品类。能在这个主场和 Sonnet 4.6 打平，说明 MiMo V2.5 Pro 的代码生成不只是"能用"，而是到了"好看且好用"的层次。

Thinking 版本比非 Thinking 版本提升了 8 个名次，这说明什么？MiMo 的推理能力（chain-of-thought）不是花架子，在真实编码任务中确实能转化为质量提升。

三个 Demo：不是跑分，是干活

小米在发布时给了三个真实 Demo，不是精心设计的 benchmark case，是让模型自己干完整项目：

Demo 1：SysY 编译器（Rust）

参考北大编译原理课设——实现一个完整的 SysY 编译器，包括词法分析、语法分析、AST、Koopa IR 代码生成、RISC-V 汇编后端和性能优化。正常情况下北大计算机专业的学生要花几周。MiMo V2.5 Pro 用了 4.3 小时、672 次工具调用，满分 233/233。

有意思的不是满分，是过程：它先搭好整个流水线骨架，第一次编译就过了 137/233 个测试——说明架构设计在第一轮就是对的。中间第 512 轮重构导致部分测试回退，它自己诊断、修复、继续推。不是瞎试，是有结构的工程行为。

Demo 2：桌面视频编辑器

一个完整的多轨道时间线、剪辑、交叉淡入淡出、音频混合、导出管线的桌面应用。最终代码 8192 行、1868 次工具调用、11.5 小时自主完成。

Demo 3：模拟电路 EDA 设计

在 TSMC 180nm 工艺下从零设计 FVF-LDO 稳压器。这个任务通常需要电子工程硕士级别的专业知识。模型接上 ngspice 仿真环路，一个小时左右完成闭环迭代，六项指标全部达标，其中四项关键指标比初始方案提升了一个数量级。

Token 效率：这才是真正的杀手锏

跑分高不稀奇，稀奇的是跑分高的同时还省钱。

ClawEval 上的数据：MiMo V2.5 Pro 达到 64% Pass³，每条轨迹大约消耗 70K Token。同等级别的分数，Claude Opus 4.6 要用 140K+，GPT-5.4 也要 140K+。

少用 40-60% 的 Token，意味着账单直接砍半甚至更多。

这对跑 Agent 的人来说是实打实的区别。现在 GitHub Copilot 已经全面转向按 Token 计费，Cursor、Claude Code 这类工具的 Token 消耗更是一个月比一个月高。一个 1000+ 轮工具调用的长程任务，用 Opus 跑和用 MiMo 跑，成本差可能是一个数量级。

小米官方把 MiMo V2.5 Pro 定位为 Claude Code、OpenCode、Kilo 的 drop-in 替代。什么意思？你不需要改任何代码，把模型 ID 换一下就行。对于 Token 账单已经很高的团队来说，这是一个不需要任何迁移成本的降本方案。

MIT 协议：不是"开放"，是"自由"

这一点很多人没意识到有多重要。

MiMo V2.5 Pro 用的是 MIT 协议。不是"开放权重但有限制"，不是"非商业使用请授权"，是最宽松的开源协议。你可以：

拿去商用，不用跟小米打招呼
在自己数据上微调，发布衍生模型
部署到私有云或本地服务器
没有收入上限，没有用户数限制

对比一下：很多号称"开源"的模型用的是自定义协议，加了各种"可接受使用政策"、收入天花板、商业授权门槛。MIT 意味着小米在说：这个东西就是公共设施，你们随便用。

对企业来说，这意味着合规成本为零。不用法务审核，不用风险评估，直接下权重、部署、干活。

为什么说硅谷该紧张了

不是因为小米的模型比谁强了 0.5 分，是因为这家公司的迭代速度和资源投入量。

看时间线：

2025 年 12 月：发布 MiMo V2-Flash
2026 年 3 月：发布 V2 系列（Pro / Omni / TTS 三件套）
2026 年 4 月 22 日：发布 V2.5 系列
2026 年 4 月 27 日：全面开源
2026 年 5 月 14 日：DesignArena 开源模型第三名

从 V2 到 V2.5 登顶，只用了 36 天。

雷军宣布未来三年在 AI 领域投入超过 600 亿元。这不是画饼，小米在 AI 上的发布节奏已经证明了钱在快速变成能力。

更值得注意的是这个信号：中国大模型已经从"追赶"进入了"并跑甚至领跑"的阶段。Artificial Analysis 的全球排行榜上，前十里中国模型占了六席。小米作为一家手机厂，成了全球第一个在开源大模型综合榜单登顶的手机公司。

小米 MiMo 项目负责人罗福莉（前 DeepSeek 核心成员）在 X 上说了一句话："A model's value isn't measured by rankings alone — it's measured by the problems it solves."

这句话本身就是一种姿态：我们不跟你刷榜，我们解决实际问题。

对独立开发者意味着什么

三个字：有的选了。

在此之前，如果你要跑 Claude Code 做 Agent 开发，你的模型选择基本锁定在 Claude 系列。现在你有了一个 MIT 协议、开源可部署、Token 效率极高、SWE-bench Pro 分数超过 Opus 4.6 的替代品。

具体场景：

Claude Code 用户：切换模型 ID 就行，Token 成本直接砍半起步
需要私有部署的团队：MIT 协议，下载权重，部署到自己的服务器，数据不出域
预算有限的独立开发者：$1/$3 的定价，比 Opus 4.6 的 $5/$25 便宜 8 倍

不是每个场景都适合替换——在深度推理、Desktop Computer Use 等方面 GPT-5.4 仍然领先。但对于编码 Agent 这个当下最热的使用场景，MiMo V2.5 Pro 已经是一个严肃的选择。

写在最后

小米造手机、造车、造大模型。这三个业务放在一起看，"人车家"的生态闭环已经很明显了——823M+ 的 IoT 设备、HyperOS 操作系统、SU7 和 YU7 汽车，所有这些都需要一个足够强的大脑。

MiMo V2.5 Pro 不只是一个模型，它是小米整个"人车家"生态的智能底座。这个底座能不能持续跑赢专业的 AI 公司，取决于小米能不能保持这个迭代速度。但至少现在，他们已经证明了一件事：大模型不是互联网巨头的专属游戏。 一个手机厂，只要投入足够、节奏够快、方向够准，也能站在开源 AI 的最前沿。

OpenClaw、Hermes Agent、Claude Code——这些 Agent 框架的背后，正在快速形成一个多模型供给的市场。MiMo V2.5 Pro 的出现，让这个市场的竞争变得更激烈了。对开发者来说，竞争永远是最好的消息。

参考来源：DesignArena 官方推文、小米 MiMo 官方页面、MarkTechPost 报道、VentureBeat 报道、BuildFastWithAI 评测、Artificial Analysis 数据

MiMo V2.5 Pro 登顶 DesignArena 开源前三：手机厂造的大模型，为什么让硅谷坐不住了 ​

先搞清楚 MiMo V2.5 Pro 是什么 ​

DesignArena 第三名意味着什么 ​

三个 Demo：不是跑分，是干活 ​

Token 效率：这才是真正的杀手锏 ​

MIT 协议：不是"开放"，是"自由" ​

为什么说硅谷该紧张了 ​

对独立开发者意味着什么 ​

写在最后 ​