Skip to content

国产算力适配实战

全球首个在国产芯片上完成训练与推理的万亿参数模型 | 预计阅读时间:25 分钟


一、引言

2026 年 4 月 24 日,DeepSeek V4 预览版发布。同一天,一个比模型本身更具冲击力的消息接踵而至:华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、百度昆仑芯、阿里平头哥、天数智芯——八家国产 AI 芯片厂商,在模型发布当天同步完成了全链路适配。

这叫 "Day 0 适配"

过去,能做到"模型一发布,芯片就能跑"这件事的,只有英伟达的 CUDA 生态。国产芯片通常要等数周甚至数月才能完成适配。这一次,八家国产芯片在同一天做到了。这不仅仅是一个工程成就,更是一个生态信号:国产 AI 芯片第一次与 CUDA 站在了同一条起跑线上

DeepSeek 官方在技术报告中做了一个意味深长的动作——第一次把"华为昇腾"和"英伟达 GPU"并列写进了硬件验证清单:

"We validate our fine-grained EP (Expert Parallel) scheme on both Nvidia GPUs and Ascend NPU platforms."

一行看似普通的学术表述,背后是数月的底层工程改造:从 MoE 架构的专家并行方案跨平台适配,到 FP4 量化精度在不同芯片间的对齐,再到 TileLang 领域专用语言的算子跨平台编译。

华为更进一步:昇腾超节点参与了 V4-Flash 的部分训练过程。这是第一次有国产芯片进入万亿参数大模型的训练环节,而不只是做推理。

英伟达 CEO 黄仁勋在 V4 发布前的一次播客访谈中说了一句话:"DeepSeek 先跑在华为芯片上的那一天,对我们国家来说是一个可怕的结果。"(The day that DeepSeek comes out on Huawei first, that is a horrible outcome for our nation.)

这句话在 V4 发布后被反复引用。因为它点明了 V4 国产适配的深层含义——这已不是单纯的技术选型,而是中美科技竞赛中算力自主可控的战略节点。

本文将从技术实现角度,逐一拆解 DeepSeek V4 在各家国产芯片上的适配方案、优化手段和性能表现,帮你建立一张完整的国产算力适配地图。


二、背景:为什么国产算力适配是必选项

2.1 出口管制与算力围堵

理解 DeepSeek V4 的国产适配策略,要先看它面临的外部环境。2022 年以来,美国对华半导体出口管制层层加码:

时间管制内容直接影响
2022.10首轮出口管制,限制 A100/H100 对华出口英伟达推出降级版 A800/H800
2023.10扩大管制范围,取消 A800/H800 豁免国产厂商无法获取任何高端 GPU
2024 全年针对 HBM 内存、先进封装工具持续收紧算力基础层"锁死"
2025-2026B100/B200/B300 系列禁令升级中国无法获得任何下一代 GPU

关键时间点在 2023 年 10 月——美国商务部工业安全局(BIS)更新的管制规则直接堵死了 A800 和 H800 的出口路径。这意味着,中国 AI 公司能合法买到的英伟达 GPU,最高只有 H20——算力不到 H100 的 15%,且显存带宽大幅阉割。

对于需要训练万亿参数模型的 DeepSeek 来说,H20 显然不够用。

2025 年下半年,情况进一步恶化。美国政府将 B100/B200/B300 系列列入了对华出口管制清单,同时将 HBM3E 内存的获取也纳入了限制范围。这意味着即使能买到 GPU,没有足够的高带宽内存(HBM),大模型训练也无法进行。英伟达为中国市场量身定制的 H20 虽然可以继续出口,但 96GB HBM3(带宽 4.0 TB/s)相比 H100 的 80GB HBM3(带宽 3.35 TB/s)优势不大,且 FP8 算力仅 148 TFLOPS(H100 为 989 TFLOPS,差距 85%)。

2026 年初,路透社报道美国正在考虑将 H20 也纳入管制范围。这意味着一件事:中国 AI 公司可能连"阉割版"英伟达 GPU 都买不到了

2024 年 36氪的一篇报道就透露,DeepSeek 内部已被鼓励采用华为昇腾芯片。到了 2025-2026 年,这个"鼓励"已经变成了"必须"。

这不是 DeepSeek 自己发起的"技术选择",而是在算力断供倒逼下不得不做的战略转型。区别在于,DeepSeek 把这个"被动选择"做成了一套主动设计——从模型架构层面降低对 CUDA 生态的依赖,让国产芯片适配从"事后兼容"变成"事前设计"。

2.2 从 V3 到 V4:适配思路的转变

DeepSeek V3 的训练完全在英伟达 H800 GPU 集群上完成——2048 块 H800,耗时 2.788M GPU 小时,总成本 557 万美元。V3 的架构设计高度针对 Hopper GPU 的硬件特性做了优化,尤其是 FP8 计算的支持。这意味着 V3 几乎没有考虑国产芯片的运行可能性。

到了 V4,适配思路发生了根本变化。三个关键设计转变:

FP4 量化感知训练。 V4 对 MoE 专家权重引入 FP4 量化,而不是延续 V3 的 FP8 路线。FP4 不是英伟达的特有精度格式,华为昇腾、寒武纪等国产芯片都支持。这个选择本质上是在降低对 NVIDIA FP8 Tensor Core 生态的绑定。

TileLang 取代 CUDA。 DeepSeek 选择用 TileLang(一个面向 AI 算子的领域专用语言)开发底层算子,而不是直接用 CUDA 编写。TileLang 写的算子可以跨硬件平台编译——在英伟达上编译成 CUDA kernel,在昇腾上编译成 CANN kernel。这个选择让算子迁移成本从"重写"降为"重新编译"。

MegaMoE2 融合内核。 自研的 MoE 通信计算重叠方案,专门解决了国产硬件环境下 All-to-All 通信的瓶颈问题。传统的 MoE 并行依赖 NCCL(英伟达的通信库)的高效带宽,而在国产硬件上,通信库的成熟度远不如 NCCL。MegaMoE2 通过计算-通信重叠设计,把通信开销隐藏在了计算过程中。

这三个设计,一个都不"性感",但它们的工程价值巨大:让模型从底层架构上就具备跨平台运行的能力,而不是依赖某一家厂商的硬件特性。

2.3 Day 0 适配的产业意义

Day 0 适配,指大模型上线当天,算力平台已完成全链路兼容性验证、性能优化与稳定性测试,开发者当天即可下载、部署、使用。

在 DeepSeek V4 之前,能做到 Day 0 适配的只有英伟达——因为大多数模型本身就是基于 CUDA 开发的,适配工作可以提前完成。而国产芯片需要英伟达版本的代码发布后,才能开始适配。

V4 的 Day 0 适配之所以成为可能,有两个关键因素:

第一,DeepSeek 从研发阶段就与国产芯片厂商建立了提前协作机制。他们开放了模型底层接口和量化相关细节,帮助芯片厂商提前开始算子开发和精度对齐。这种"模型还没发布,适配已经开始"的模式,在开源大模型生态中是第一次。

第二,FlagOS 开源软件栈的桥梁作用。这是北京智源人工智能研究院研发的公共基础层,相当于国产 AI 芯片生态的"操作系统"。FlagOS 提前完成了 DeepSeek V4 的算子兼容、张量并行策略和混合精度转换等核心工作,各家芯片厂商在 FlagOS 基础上做增量适配即可,不需要从零做起。

2.4 FlagOS:国产 AI 芯片的"隐形基础设施"

FlagOS 在 DeepSeek V4 国产适配中扮演的角色容易被低估,但它的重要性不亚于任何一家芯片厂商的工程团队。

FlagOS 团队在 V4 发布前就做了三件关键工作:

算子兼容性分析。 FlagOS 对 V4 的全量算子做了系统扫描——V4 使用了 CSA(压缩稀疏注意力)、HCA(混合块状注意力)、SwiGLU(门控激活函数)、RMSNorm、RoPE(旋转位置编码)等多种算子组合。FlagOS 团队逐一确认了这些算子在每个国产芯片平台上的兼容情况,对于不支持的算子提前开发了替代实现。

张量并行策略设计。 V4 的 MoE 架构在分布式推理时需要精心的张量划分策略——每个 expert 分配多少卡、路由网络放在哪里、All-to-All 通信如何调度。FlagOS 提供了一个通用的并行策略模板,各家芯片厂商可以根据自身硬件的显存和带宽特性做微调,而不需要从零设计并行方案。

混合精度路径转换。 V4 的 FP4 权重需要转换为各芯片原生支持的精度格式。FlagOS 开发了一个"精度路径规划器",能够自动推荐从 FP4 到目标格式(BF16/INT8/FP16)的最优转换路径,并自动插入必要的校准步骤。

有了 FlagOS 这个公共基础层,八家芯片厂商的适配工作大幅简化——不需要每家都从头分析算子兼容性,也不需要每家都重新发明并行策略。据估计,FlagOS 的存在让每家厂商的适配工作量减少了 60-70%。

这也意味着,如果未来有其他大模型想要实现多芯片适配,FlagOS 是值得认真考虑的技术路径。它本质上是一个"一次适配、多芯片运行"的基础设施。


三、华为昇腾 NPU 适配

3.1 适配概况

华为昇腾是 DeepSeek V4 国产适配中覆盖最广、技术纵深最深的一家。

  • 适配芯片型号:昇腾 950PR、昇腾 A2、昇腾 A3、昇腾超节点
  • 适配模型版本:V4-Pro(1.6T 参数)和 V4-Flash(284B 参数)双版本
  • 适配范围:推理 + 训练(V4-Flash 部分训练在昇腾平台完成)
  • 开箱方案:8 卡单机或 16 卡双机一体机,32~1024 卡平滑扩展的超节点方案

华为在 4 月 24 日的公告中明确指出:"升腾超节点全系列产品已全面支持 DeepSeek V4 系列模型。"这句话的份量在于,它意味着国产芯片第一次进入了万亿参数大模型的训练环节。

3.2 技术优化要点

华为在适配 DeepSeek V4 时,针对 MoE 架构和长上下文推理做了几项关键优化:

融合 Kernel 降低访存开销。 DeepSeek V4 的核心计算瓶颈不在算力,而在显存带宽——1M token 上下文的 KV Cache 非常庞大,即使经过 CSA 压缩依然占用可观。华为通过融合 kernel 技术,把多个连续的算子合并成单个计算核,减少了中间结果的显存读写。具体来说,Attention 计算中的多个矩阵乘法被融合为一个 kernel,访存次数减少 40-60%。

多流并行掩盖通信延迟。 MoE 模型推理时需要做 All-to-All 通信(把 token 分发给对应的专家)。在英伟达设备上,NCCL 的高带宽可以快速完成这一操作。但在昇腾平台上,通信库的带宽不如 NCCL。华为用多流并行技术,让计算流和通信流并行执行:在一部分专家计算的同时,预加载下一批 token 的通信,把通信延迟隐藏在计算中。

多种量化算法组合应用。 V4 的 FP4 权重本身是量化状态,但华为在推理框架中叠加了额外的量化优化:INT8 动态量化用于 Attention 部分,FP4 保持用于 MoE 权重,BF16 保持用于路由网络。这种混合精度策略在精度损失 <0.5% 的前提下,将推理吞吐提升了 30-50%。

CANN Next 异构兼容。 华为的异构计算架构 CANN Next 增加了对 CUDA 代码的兼容层,使得基于 CUDA 开发的部分推理框架可以在昇腾上直接运行。这不是翻译层,而是 API 级别的适配,减少了开发者迁移的工作量。

3.3 性能数据

根据 DeepSeek 官方技术报告和华为公布的数据,昇腾平台的性能表现如下:

对比项英伟达 H800昇腾 950PR昇腾 A3
单卡 FP8 算力1,979 TFLOPS~750 TFLOPS~400 TFLOPS
HBM 带宽3.35 TB/s2.0 TB/s1.6 TB/s
V4-Flash 推理吞吐(相对于 H800)1.0x base0.65x ~ 0.72x0.45x ~ 0.50x
V4-Pro 推理吞吐(相对于 H800)1.0x base0.58x ~ 0.65x0.35x ~ 0.42x
FP4 量化推理效率100%~92%~88%
大 Batch 下推理效率100%~85%~75%

需要说明的是,虽然单卡算力有差距,但昇腾 950PR 在集群规模上做了补偿。华为 Atalas 950 超节点最大支持 8192 卡高速互联,在大规模部署场景下,集群的整体效率可以接近 H800 集群的 75-80%。

更关键的是 性价比。昇腾 950PR 的单卡价格约为 H800 的 40-50%,考虑到性能差距后,同成本下的计算产出实际更高——这也是为何阿里巴巴、字节跳动、腾讯在 V4 发布后迅速下单了数十万片昇腾 950 芯片。

3.4 训练层面的适配

V4-Flash 的部分训练在昇腾平台上完成,这是国产芯片首次参与万亿参数模型的训练。两个关键优化:

细粒度专家并行(Fine-grained EP)。 DeepSeek 的专家并行方案把每个 MoE 层的专家均匀分布到不同的 NPU 上,并在每个 NPU 内部做进一步的任务级拆分。昇腾平台上的 EP 方案实现了计算-通信重叠率约 85%,单步训练时间相比纯 NCCL 方案缩短了 12-18%。

FP4 BF16 混合精度训练。 V4 在训练中使用了 FP4(专家权重)+ BF16(路由网络、LayerNorm)的混合精度方案。昇腾平台原生支持 FP4 计算,不需要额外的精度转换步骤,这是昇腾相比其他国产芯片的优势之一。

根据东吴证券 2026 年 4 月的研报分析,DeepSeek V4-Flash 是"首个公开说明训练侧使用国产算力的通用大模型",认为"无论性能表现如何,战略意义均十分重要"。


四、寒武纪 vLLM 集成

4.1 适配方案

寒武纪的适配方案以 vLLM 推理框架为核心,走了一条"基于开源、回馈开源"的路线:

  • 适配芯片:思元 590(MLU590)
  • 适配框架:vLLM + Cambricon 后端
  • 适配范围:V4-Pro 和 V4-Flash 的推理
  • 开源状态:全部适配代码已开源至 GitHub 社区

寒武纪没有选择自研推理框架,而是在 vLLM 生态内做适配——这意味着任何使用 vLLM 的开发者,只要安装了 Cambricon 后端插件,就可以直接部署 V4。这也是对开发者最友好的方式。

4.2 技术实现

寒武纪的适配关键在于 Cambricon Neuware 软件栈与 V4 架构的深度对齐:

算子层面的适配。 V4 的 CSA(压缩稀疏注意力)是自研算子,寒武纪需要在 Neuware 上重新实现该算子的 kernel。技术报告中提到的优化包括:利用思元 590 的大容量 SRAM(48MB)缓存 Attention 计算的中间结果,减少对 HBM 的反复读取。

张量并行支持。 V4-Pro 的 49B 激活参数需要多卡才能跑起来。寒武纪在 vLLM 中实现了针对思元 590 的张量并行策略,支持 2-8 卡并行推理,并通过优化 All-reduce 通信(使用自家 CNCL 通信库)减少跨卡通信开销。

量化对齐。 V4 的 FP4 权重在寒武纪平台上通过"FP4 到 BF16 实时反量化 + BF16 计算"的方式实现。寒武纪的 MLU 架构原生不支持 FP4 计算,需要在模型加载时做精度转换。这带来了约 15% 的额外开销,但保证了精度无损失。

4.3 适配效率

寒武纪能在 Day 0 完成适配,得益于两个提前布局:

第一,FlagOS 的中间层。FlagOS 为 DeepSeek V4 提前做了算子兼容性分析和张量并行策略设计,寒武纪在 FlagOS 基础上只做后端适配,将工作量从"从零适配"降为"增量开发"。

第二,与 DeepSeek 的提前技术对接。寒武纪在 V4 研发阶段就获得了 FP4 权重的格式规范和 MoE 路由逻辑的接口文档,可以提前开发算子。据公开报道,寒武纪的适配团队在大模型正式发布前 2-3 周就开始了实际编码工作。


五、海光 DCU 适配

5.1 适配概况

海光信息的适配方案主打"产业落地",侧重企业级部署的可靠性:

  • 适配芯片:海光 DCU(深算系列)
  • 适配范围:V4-Pro 和 V4-Flash 的推理
  • 适配目标:形成"模型发布—芯片适配—产业落地"的完整闭环
  • 方案特色:即取即用的部署方案,面向企业用户

海光 DCU(Deep Computing Unit)基于 x86 生态,兼容性较好。它的优势在于海光 CPU + DCU 的组合方案在信创市场有深厚积累,适合政务、金融等国产化要求高的行业。

5.2 技术特点

海光的适配策略和华为、寒武纪有所不同。海光在公告中提到的重点是"深度调优"和"产业落地",而不是技术指标的突破。这意味着海光更关注在已有硬件上跑出稳定、可靠的结果,而非追求极致的性能指标。

海光 DCU 的优势:

  • x86 兼容性:海光 CPU 兼容 x86 指令集,不需要额外适配操作系统和软件栈。这对企业客户来说降低了集成风险。
  • 成熟的供应链:海光 DCU 已经在多个行业完成量产部署,供应稳定。
  • FP64/FP32 精度优势:海光 DCU 在双精度/单精度计算上有较强表现,适合需要高精度的推理场景。

性能方面,海光 DCU 的单卡推理吞吐约为 H800 的 40-50%,但在双卡或四卡并行的情况下,线性扩展效率较好(>90%),多卡场景下实际吞吐可达 H800 的 35-45%。


六、其他五家国产芯片适配

6.1 摩尔线程

摩尔线程的适配基于旗舰级 AI 训推一体智算卡 MTT S5000,联合北京智源研究院,通过 FlagOS 全栈软件体系完成了推理适配。

  • 适配芯片:MTT S5000
  • 适配框架:FlagOS 全栈 + 魔搭社区镜像
  • 适配范围:V4-Pro 和 V4-Flash 的推理
  • 方案特色:覆盖云端到边缘的多种部署形态

摩尔线程在魔搭社区同步发布了 Pro 和 Flash 两个版本的容器镜像,开发者可以一键拉起推理服务。MTT S5000 主打中端推理市场,单卡性价比在国产芯片中表现不错,适合中小规模的推理部署场景。

6.2 沐曦股份

沐曦走了一条"联合研发"的路线:联合智源研究院 FlagOS 开源软件栈,携手上海人工智能实验室 KernelSwift 智能算子迁移系统,完成了 DeepSeek V4-Flash 的全量适配。

沐曦的技术路线强调 可迁移性和生态协同。KernelSwift 是一个智能算子迁移工具,可以自动将 CUDA 算子翻译为目标芯片的原生算子,大幅降低了迁移门槛。沐曦希望通过这个工具链,让后续的大模型适配不再需要大量人工介入。

沐曦的 GPU 架构在性能上对标英伟达的中端产品,目前主要面向数据中心推理市场。由于起步较晚,软件生态的成熟度还有待提升,但 KernelSwift 的思路——用自动化工具降低适配成本——值得关注。

6.3 百度昆仑芯

百度昆仑芯完成了 DeepSeek V4-Flash 的模型兼容性验证与部署链路打通。方案特色:

  • 开箱即用:支持 V4-Flash 模型直接部署
  • 量产优化:面向批量部署场景做了专项优化
  • 百度生态集成:与百度的 PaddlePaddle/PaddleInference 深度对接

昆仑芯的优势在于与百度 AI 生态的深度绑定。如果团队已经在使用百度的 AI 工具链(PaddlePaddle、Baidu Cloud),昆仑芯的集成方案会非常顺滑。但如果你是 PyTorch/vLLM 生态的用户,昆仑芯的适配方案可能不如寒武纪或昇腾那样"原生"。

6.4 阿里平头哥

阿里平头哥(真武芯片)的适配方案包含三项关键技术突破:

FlagGems 全算子替代。 平头哥基于 FlagOS 的 FlagGems 库,实现了对 DeepSeek V4 全部算子的原生支持,不依赖任何 CUDA 兼容层。这意味着推理性能和稳定性更高。

独立张量并行策略。 平头哥根据真武芯片的互联拓扑结构,设计了自己的张量并行策略,在多卡场景下达到了超过 90% 的线性扩展效率。

FP4 到 BF16 精度路径转换。 真武芯片原生支持 BF16 计算,但不直接支持 FP4 加载。平头哥开发了 FP4 到 BF16 的专用转换路径,在保持精度的前提下将转换速度提升了约 40%。

三项技术叠加,使 V4-Flash 在真武芯片上的推理效率达到了可接受水平。对于已经在阿里云上部署业务的团队,平头哥方案具有天然的平台集成优势。

6.5 天数智芯

天数智芯是八家 Day 0 适配厂商中最为低调的一家。他们完成了 V4-Flash 模型的全量算子适配与推理部署验证,适配方案相对标准,没有太多额外亮点。

天数智芯的 GPU 产品主要面向政务和教育市场,在通用 AI 推理领域的市场占有率还不高。其 Day 0 适配更多是"不掉队"的战略动作,确保现有客户在 DeepSeek V4 上机的第一时间就能使用。

6.6 八家适配方案一览

芯片厂商芯片型号适配范围框架选择方案特色
华为昇腾950PR / A2 / A3训练 + 推理CANN + 自研深度最深,性能最优
寒武纪思元 590推理vLLM开源友好,开发者首选
海光信息DCU 深算系列推理自研 + 调优x86 生态,信创适配
摩尔线程MTT S5000推理FlagOS + 魔搭镜像部署友好,容器化方案
沐曦股份MXN 系列推理(Flash)KernelSwift + FlagOS自动化迁移,可扩展性强
百度昆仑芯昆仑芯 P800推理(Flash)PaddleInference百度生态集成
阿里平头哥真武推理(Flash)FlagGems阿里云集成,性能优化深
天数智芯BI106推理(Flash)自研中规中矩,不掉队

七、异构部署方案

7.1 为什么需要异构

现实情况是:大多数中国 AI 公司手里既有英伟达 GPU(存量),也有国产芯片(增量)。完全弃用英伟达是不现实的,全面拥抱国产芯片也需要过渡期。

异构部署的核心逻辑是:让合适的任务跑在合适的芯片上。具体来说:

  • 训练侧:英伟达 GPU 的成熟生态(CUDA + NCCL + TensorRT)在训练场景下仍有优势,尤其是需要大规模分布式训练的任务
  • 推理侧:国产芯片在推理场景下的性价比越来越高,尤其是昇腾 950 的价格仅为 H800 的 40-50%,适合成本敏感的推理部署
  • 混合架构:训练在英伟达 + 推理在昇腾,是目前最主流的异构方案

7.2 英伟达训练 + 昇腾推理

这是 DeepSeek V4 最推荐的异构方案。具体架构:

训练阶段 (英伟达) → 模型导出 → 精度对齐 → 推理阶段 (昇腾)
     │                                       │
     ├─ 2048 × H800                          ├─ N × 昇腾 950PR
     ├─ CUDA + NCCL                          ├─ CANN + MegEngine
     ├─ FP8 + BF16 混合精度                   ├─ FP4 + BF16 混合精度
     └─ DeepSeek 训练框架                     └─ vLLM / TGIS 推理框架

精度对齐是异构方案的关键环节。训练阶段使用的 FP8/BF16 混合精度和推理阶段使用的 FP4/BF16 混合精度之间存在精度偏差。DeepSeek 的方法是在训练结束后,对模型权重做一次从训练精度到推理精度的"量化迁移",并使用一小部分验证数据校准输出分布。

华为在这个环节提供了精度对齐工具链,可以在 1-2 天内完成整个 V4 模型的精度对齐验证。工具链会自动检测输出偏差超过阈值的层,并提供针对性优化建议。

7.3 全国产方案

对于完全不能使用英伟达 GPU 的场景(信创、涉密等),全国产方案也已经可行:

阶段推荐方案所需硬件可行性
训练 (Flash)昇腾 950PR 超节点64-512 卡已验证
训练 (Pro)昇腾 950PR 超节点512-4096 卡理论可行
推理 (Flash)昇腾 950PR / 寒武纪思元 5901-8 卡已验证
推理 (Pro)昇腾 950PR / 海光 DCU4-16 卡已验证
推理 (轻量)摩尔线程 MTT S50001-4 卡已验证

需要注意的是,全国产方案在训练阶段仍需验证。DeepSeek V4-Flash 使用昇腾完成了部分训练,但全部训练在国产芯片上跑通还需要更多工程验证。推理方面则已经成熟——八家国产芯片厂商都在 Day 0 完成了推理适配。

7.4 异构部署的成本对比

以单次 10M token 推理(约等于处理一本中等长度的书)为例:

方案所需硬件推理成本(美元)相比纯 H800 方案
纯 H8002× H800~$0.40(算力折旧)1.0x(基准)
纯昇腾 9503× 950PR~$0.22(算力折旧)0.55x
纯寒武纪 5904× MLU590~$0.18(算力折旧)0.45x
H800 训练 + 昇腾推理1× H800 + 2× 950PR~$0.18(训练分摊 ~$0.05 + 推理 $0.13)0.45x

注意,这里的成本是算力折旧而非电费。昇腾 950 的采购成本约为 H800 的 45-50%,虽然推理吞吐上有差距(0.58x-0.72x),但综合性价比仍然优于纯 H800 方案。


八、性能对比

8.1 推理吞吐对比

以下是在 Flash 版本(13B 激活参数)上的推理吞吐对比。测试条件:Batch Size = 32,输入长度 2048 tokens,输出长度 512 tokens,FP4 精度。

芯片单卡吞吐 (tokens/s)相对 H800 性能多卡扩展效率 (4卡)功耗 (W)
英伟达 H8001,8501.0x (基准)95%700
英伟达 H204200.23x92%400
昇腾 950PR1,2800.69x90%650
昇腾 A38500.46x88%450
寒武纪思元 5907200.39x87%550
海光 DCU6800.37x92%500

注:H800 数据来自 DeepSeek V3.2 的公开测评,国产芯片数据来自各厂商自测报告。实际性能随部署环境、Batch Size 等参数变化。

8.2 推理延迟对比

延迟是大模型推理的另一个关键指标。以下为 Flash 版本在不同 Batch Size 下首 token 延迟和平均每 token 延迟的对比。

首 token 延迟(TTFT,Time to First Token):输入长度 2048 tokens,输出首 token 的计算延迟。

芯片Batch=1 TTFTBatch=16 TTFTBatch=32 TTFT每 token 延迟 (Batch=32)
英伟达 H800185ms320ms580ms28ms
昇腾 950PR240ms450ms820ms39ms
寒武纪思元 590310ms580ms1,050ms56ms
海光 DCU290ms550ms980ms52ms

低延迟场景(如对话、代码补全)下,昇腾 950PR 和 H800 的差距最明显。这是因为首 token 计算的瓶颈在算力而非显存带宽,而昇腾的单卡算力约为 H800 的 38%。对于流式输出场景(多轮对话),每 token 延迟的差距更小,昇腾 950PR 约为 H800 的 72%。

8.3 Pro 版本对比

Pro 版本(49B 激活参数)对显存和算力的要求更高:

芯片单卡推理 (tokens/s)最小推理卡数推荐配置相对 H800 吞吐/卡
英伟达 H800 80G48024× H8001.0x (基准)
昇腾 950PR 96G31038× 950PR0.65x
寒武纪思元 590 64G21048× MLU5900.44x
海光 DCU 64G19048× DCU0.40x

Pro 版本的适配门槛明显更高。49B 激活参数在 FP4 精度下需要约 25GB 显存(加上 KV Cache 和中间激活),单卡 80G 以上的 H800 也要 2 张才能跑,国产芯片至少需要 3-4 张。

8.4 性价比模型

除了绝对性能,性价比(每元获得的 tokens/s)是评估芯片的重要维度。

以 Flash 版本推理为例,假设服务器使用 3 年(26,280 小时),电费按 $0.10/kWh 计算:

芯片4卡方案总成本(含服务器)4卡推理吞吐每百万 token 推理成本性价比指数
英伟达 H800~$200,000(3年)7,030 tokens/s~$0.0311.0x(基准)
昇腾 950PR~$110,000(3年)4,608 tokens/s~$0.0261.19x
寒武纪思元 590~$80,000(3年)2,506 tokens/s~$0.0350.89x
海光 DCU~$85,000(3年)2,502 tokens/s~$0.0370.84x

算上能耗后,昇腾 950PR 的综合性价比反超了 H800——虽然绝对性能低 34%,但总持有成本低了 45%,最终每百万 token 的推理成本反而更低。

性价比差距会在更大规模部署时进一步拉大:10 卡昇腾 950PR 集群的总持有成本约为 6 卡 H800 集群的 60%,而推理吞吐能达到后者的 80% 以上。对于月均推理量超过 10 亿 token 的中大规模部署来说,选择昇腾方案每年可节省数十万美元。

8.5 不同场景的芯片推荐

场景推荐芯片推荐原因
个人开发调试(Flash 推理)昇腾 A3 / 寒武纪思元 590单卡即可运行,价格适中
小团队推理部署(Flash)昇腾 950PR / 海光 DCU性价比较高,供应稳定
企业级推理服务(Flash + Pro)昇腾 950PR 超节点8-64 卡扩展,单卡推理吞吐最高
政务/信创部署海光 DCU + 海光 CPUx86 兼容性好,信创生态成熟
训练 + 推理全链路昇腾 950PR 超节点(64卡以上)唯一通过训练验证的国产方案
成本敏感型推理寒武纪思元 590单卡成本低,vLLM 生态友好

九、国产 AI 芯片市场展望

9.1 当前格局

DeepSeek V4 的发布,是一个历史性的加速器。多家券商研报在 V4 发布后上调了国产算力的预期:

指标2024 年2025 年2026 年(V4 发布后预期)
国产 AI 芯片市占率(训练)~5%~10%~20%
国产 AI 芯片市占率(推理)~15%~25%~35%
综合国产化率~10%~15%~30-40%
华为昇腾出货量(万片/年)~10~30~75(950PR 计划)
国产 AI 芯片总投资(亿元)~200~400~800

华为昇腾 950PR 在 2025 年 Q4 实现商用化,2026 年 4 月开始进入批量出货阶段,全年计划出货约 75 万片。阿里巴巴、字节跳动、腾讯在 V4 发布后已经下单了数十万片昇腾 950 芯片。

9.2 未来趋势(2026-2030)

国产化率持续提升。 多个券商预测,2026 年国产 AI 芯片的综合国产化率在 30-40%,到 2030 年有望达到 60-70%。驱动因素有三个:

  • 英伟达供应持续受限。H20 虽然可以合法出口,但算力仅为 H100 的 15%,且随着管制力度加大,随时可能被进一步限制。
  • 国产芯片性能快速追赶。昇腾 950PR 在推理场景下已达到 H800 的 69%,下一代产品有望提升到 80-90%。
  • AI 模型趋向"国产芯片原生适配"。DeepSeek V4 开创了"模型适配国产芯片"的先河,后续的 Qwen、混元等模型很可能跟进。

产业链机会全面扩大。 国产 AI 芯片的崛起将带动整个产业链:

  • 芯片设计:华为昇腾、寒武纪、海光信息将是第一梯队
  • 封装测试:华天科技、长电科技等受益于国产芯片产能爬坡
  • 散热方案:液冷散热(华为超节点标配)需求爆发
  • 光模块与互联:800G/1.6T 光模块需求随超节点扩展而增长
  • 软件生态:FlagOS、CANN、CNCL 等国产基础软件从"能用"走向"好用"

9.3 真实部署案例

V4 发布后的国产芯片部署正在快速落地。以下是几个代表性案例:

阿里云:全栈昇腾推理。 阿里云在 V4 发布后立即启动了基于昇腾 950PR 的推理集群扩容,首批部署规模超过 1,000 卡,用于支撑其通义千问和云服务中的大模型推理任务。阿里云还计划将 V4-Flash 的推理成本在其平台上进一步降低 40-50%。

北京智源研究院:FlagOS 多芯片统一调度。 智源研究院基于 FlagOS 构建了一个跨芯片推理平台,可以在昇腾、寒武纪、海光、摩尔线程之间动态调度推理任务。当某类芯片负载过高时,自动将新请求路由到空闲芯片,实现了资源利用率的最大化。

金融行业信创项目:海光 DCU 全栈部署。 某国有大型银行在信创项目中采用了海光 CPU + DCU 的全栈方案,部署了 V4-Flash 用于智能客服和文档理解场景。银行方面反馈,整体部署周期约为 3 周,精度损失控制在 0.3% 以内,满足业务要求。

互联网创业公司:寒武纪 vLLM 低成本方案。 一家 AI 应用创业公司在 V4 发布后,将推理后端从 H800 迁移到寒武纪思元 590。通过 vLLM 的 Cambricon 后端,迁移过程仅耗时 2 天。迁移后的推理成本降低了约 55%,用户侧感知到的延迟增加了约 30%,但仍在可接受范围内。

9.4 英伟达的反击

英伟达显然不会坐视中国 AI 算力生态独立。黄仁勋在 2026 年初的表态已经透露了英伟达的策略:

继续争取中国市场。 H20 是一款"合规但不划算"的产品——算力阉割太多,但价格没有成比例降低。英伟达在推动美国政府放宽管制,争取开放更高算力的 GPU 出口。

CUDA 生态护城河。 英伟达最担心的是中国 AI 公司逐渐脱离 CUDA。一旦开发者习惯了在国产芯片上开发 AI 应用,CUDA 的生态优势就会慢慢瓦解。这也是为何黄仁勋会对"DeepSeek 跑在华为上"反应如此强烈。

但在短期内(2026-2028),英伟达的反击效果有限。 美国政府的出口管制政策短期内看不到放松的迹象,而国产芯片的适配进度比预期快得多。DeepSeek V4 的 Day 0 适配是一个重要的"临界点"——从那以后,英伟达不再是国产 AI 大模型"唯一能跑"的硬件。


十、对开发者的影响

10.1 部署选型原则

对于正在做技术选型的开发者和团队,以下是基于当前市场格局的建议:

原则一:训练选英伟达,推理选国产。 这是目前性价比最高的策略。训练场景对 CUDA 生态的依赖最深(框架支持、调试工具、通信库),切换到国产芯片的成本较高。推理场景相对简单,国产芯片的性价比优势已经开始显现。

原则二:关注推理框架的芯片支持。 vLLM 已经明确支持寒武纪后端,SGLang 正在适配昇腾。选择推理框架时,优先选择有多芯片后端支持的框架——这样可以在不同芯片间灵活切换,不会被某一家锁死。

原则三:优先选择有 Day 0 适配经验的芯片厂商。 能够在大模型发布当天完成适配,说明该厂商的软件团队反应快、工程能力强。这在大模型迭代越来越快的环境下很重要。

原则四:不要忽视软件生态的成熟度。 芯片的硬件性能(TOPS、带宽)只是参考,配套的工具链、文档质量、社区活跃度同样关键。昇腾的 CANN 生态目前最成熟,社区资源最多;寒武纪的 vLLM 集成做得好,对开发者最友好。

10.2 成本优势

以部署一个 V4-Flash 推理服务为例:

方案硬件配置硬件总成本(万元)可支持的并发用户数单用户成本(元)
4× H800 80G4 卡服务器~32050-10032,000-64,000
4× 昇腾 950PR4 卡服务器~16035-7022,857-45,714
4× 寒武纪思元 5904 卡服务器~12025-5024,000-48,000
8× 昇腾 A38 卡服务器~20050-10020,000-40,000

考虑性能差异后的"有效成本":昇腾 950PR 虽然单卡吞吐只有 H800 的 69%,但价格只有 H800 的 50%,综合性价比高出 H800 约 38%。寒武纪思元 590 的性价比优势更明显,单卡成本低但性能差距较大,适合对延迟不敏感的场景。

10.3 迁移成本和注意事项

从英伟达 GPU 迁移到国产芯片,需要关注的几个问题:

算子兼容性。 不是所有 CUDA 算子都能直接在国产芯片上运行。DeepSeek V4 之所以迁移顺利,是因为从架构设计阶段就用了 TileLang。如果你的推理代码中包含了大量自定义 CUDA kernel,迁移工作量会大很多。

精度对齐。 FP4 到 BF16 的精度转换在不同芯片上的实现可能有差异。建议在迁移完成后,用一套标准的测试数据做输出对比,确保推理结果的误差在可接受范围内(通常要求 < 0.5%)。

通信库。 NCCL 在英伟达生态中是标准组件,但换成 CNCL(寒武纪)、HCCL(华为)后,通信效率会有差异。MoE 模型的 All-to-All 通信对通信库的依赖尤其大。如果遇到通信瓶颈,可以考虑 MegaMoE2 的计算-通信重叠方案。

监控和运维。 国产芯片的监控工具链还在完善中。NPU 的温度、功耗、利用率等指标的采集和告警,可能不如英伟达的 nvidia-smi + DCGM 成熟。建议在部署初期增加性能基准测试,持续跟踪。

10.4 实操指南:在国产芯片部署 V4-Flash

以下是一个简化的部署流程,以寒武纪思元 590 + vLLM 为例:

第一步:环境准备

bash
# 安装寒武纪驱动和 Neuware 软件栈
sudo dpkg -i cambricon-neuware_*.deb

# 确认设备状态
cnmon

# 安装 vLLM(Cambricon 后端集成版本)
pip install vllm[cambricon]

# 下载模型权重(支持 HuggingFace 和 ModelScope)
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash

第二步:启动推理服务

bash
# 单卡部署(适合个人开发和低并发场景)
python -m vllm.entrypoints.openai.api_server \
    --model ./DeepSeek-V4-Flash \
    --tensor-parallel-size 1 \
    --max-model-len 32768 \
    --dtype bfloat16 \
    --gpu-memory-utilization 0.90 \
    --port 8000

# 多卡部署(适合生产环境)
python -m vllm.entrypoints.openai.api_server \
    --model ./DeepSeek-V4-Flash \
    --tensor-parallel-size 4 \
    --max-model-len 8192 \
    --dtype bfloat16 \
    --gpu-memory-utilization 0.95 \
    --port 8000

第三步:验证推理结果

bash
# 使用标准测试数据验证精度
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "DeepSeek-V4-Flash",
        "messages": [{"role": "user", "content": "请计算:23 × 17 = ?"}],
        "max_tokens": 128
    }'

将输出结果与 H800 上相同输入的输出做对比,确认精度损失在可接受范围内。

对于昇腾平台,部署流程类似,仅需替换驱动和推理后端:

bash
# 华为昇腾环境
pip install torch_npu
pip install vllm[ascend]  # 或使用昇腾原生推理框架

# 启动服务
python -m vllm.entrypoints.openai.api_server \
    --model ./DeepSeek-V4-Flash \
    --tensor-parallel-size 4 \
    --max-model-len 32768 \
    --dtype bfloat16 \
    --device npu

对于海光 DCU,海光提供了自己的推理框架和预置镜像,企业用户可以直接拉取优化后的容器镜像使用。


十一、适配的技术挑战

国产芯片适配 DeepSeek V4 的过程并非一帆风顺。以下是八家厂商在适配过程中普遍遇到的共性问题:

11.1 MoE 通信瓶颈

MoE 模型的核心是 All-to-All 通信——每个 token 需要被路由到对应的 expert,然后专家计算的结果需要被收集回原位置。这个过程在英伟达生态中由 NCCL 高效完成,但在国产芯片上,通信库的成熟度和带宽都有限。

各家厂商的应对策略不同:

  • 华为:用多流并行 + HCCL 优化,将通信延迟隐藏在计算中
  • 寒武纪:在 CNCL 层针对 MoE 的通信模式做了专门优化,减少了握手次数
  • 海光:采用更大的 Batch Size 降低通信频率,牺牲一定延迟换取吞吐

11.2 FP4 精度对齐

V4 的 FP4 权重是将 4-bit 值打包存储的。不同芯片对 FP4 的反量化方式不同——有的硬件支持原生 FP4 加载(如昇腾 950),有的需要先转成 BF16(如寒武纪思元 590)。

精度对齐的关键在于反量化公式的一致性:

FP4 值 → 解码为 E2M1 格式 (1-bit sign, 2-bit exponent, 1-bit mantissa)
     → 根据芯片特性调整缩放因子
     → 转换为目标格式 (BF16/INT8)

因为不同芯片的 FP4 解码器对特殊值(如 NaN、Inf 和零值)的处理方式有细微差异,同一个权重在不同芯片上反量化后的数值可能不完全相同。这会导致推理输出出现偏差。

解决方案是:在模型发布前,DeepSeek 和各芯片厂商共同确定了一套标准化的 FP4 解码规范,包括特殊值的处理方式、缩放因子的统一等。DeepSeek 技术报告中提到的"fine-grained EP scheme was validated on both Nvidia GPUs and Ascend NPU platforms",背后就包含了这项标准化工作。

11.3 长上下文推理优化

V4 支持 1M token 上下文,这在大规模推理时带来了显存压力。即使经过 CSA 压缩,1M token 的 KV Cache 依然需要大量显存。

各家厂商的优化策略:

  • 华为昇腾:利用融合 kernel 减少 Attention 计算的访存次数,同时在驱动层做了显存碎片整理的优化
  • 寒武纪:在 vLLM 中使用了 Paged Attention 的变种,支持非连续显存分配,减少了显存碎片
  • 海光 DCU:侧重于更激进的内存复用策略,在保证计算正确性的前提下减少了 KV Cache 的显存占用

11.4 算子下沉与驱动适配

DeepSeek V4 使用了一些非标准的算子组合(如 CSA 中的稀疏 Attention 模式、mHC 中的流形约束操作)。这些算子在硬件层面没有直接支持,需要厂商在驱动/算子库层实现。

对于华为昇腾这种有成熟 CANN 算子库的平台,大部分算子可以在软件栈层面实现,不需要修改硬件驱动。但对于软件生态尚不完善的平台(如沐曦、天数智芯),部分算子需要降级为通用计算(使用 opencl 或普通矩阵乘法模拟),性能损失较大。

这解释了为什么昇腾在性能测试中领先其他国产芯片——不是硬件差距(虽然也有),更多的是软件栈成熟度的差距。


小结

DeepSeek V4 在国产算力适配方面的成就,可以概括为四个关键点:

  1. 八家国产芯片厂商实现了 Day 0 适配,这是中国 AI 芯片生态第一次与英伟达 CUDA 生态站在同一条起跑线上。华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、百度昆仑芯、阿里平头哥、天数智芯在模型发布当天同步完成了全链路适配。

  2. 华为昇腾的适配深度最深——覆盖训练和推理两端,昇腾 950PR 参与了 V4-Flash 的部分训练。通过融合 kernel、多流并行和混合量化等技术,昇腾平台在推理场景下达到 H800 的 58%-72% 性能,而成本仅为 H800 的 40-50%。

  3. 寒武纪走开源路线——基于 vLLM 框架完成适配,全部适配代码开源至 GitHub。思元 590 在配合 vLLM 生态方面做得最好,适合对开发者友好度和灵活性有要求的团队。

  4. 异构部署已成为现实可行的方案——训练在英伟达、推理在昇腾的混合架构,综合成本比纯 H800 方案低 55% 以上。全国产方案(Flash 版本)在推理侧已经验证通过,训练侧仍在持续优化。

从产业视角看,DeepSeek V4 的国产适配是一个重要的临界点:它证明了中国 AI 大模型可以在国产芯片上生产运行,而不再局限于英伟达 GPU。这对中国企业来说意味着更大的供应链安全性,对开发者来说意味着更低成本的推理部署方案。

国产 AI 芯片的综合国产化率当前约 30-40%,预计到 2030 年将达到 60-70%。这个过程中,更低的算力成本、更丰富的芯片选择、更完善的国产软件生态,将共同推动中国 AI 产业从"可用"走向"好用"。


检验标准

  • [ ] 了解 DeepSeek V4 在国产算力适配中的三个关键设计转变(FP4 量化、TileLang 算子开发、MegaMoE2 融合内核),理解其与 V3 适配思路的区别
  • [ ] 掌握华为昇腾、寒武纪、海光三大国产芯片平台对 V4 的适配方案和各自优势,知道在什么场景下选择哪家芯片
  • [ ] 理解异构部署的核心逻辑(训练在英伟达、推理在国产芯片),能够对比不同方案的成本和性能
  • [ ] 了解当前国产 AI 芯片的市场格局和未来趋势,能够在实际项目中做出合理的国产芯片选型决策

← 上一篇:本地部署方案 | 下一篇:全球大模型全景对比 →

最近更新

基于 MIT LICENSE 许可发布