国产算力适配实战
全球首个在国产芯片上完成训练与推理的万亿参数模型 | 预计阅读时间:25 分钟
一、引言
2026 年 4 月 24 日,DeepSeek V4 预览版发布。同一天,一个比模型本身更具冲击力的消息接踵而至:华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、百度昆仑芯、阿里平头哥、天数智芯——八家国产 AI 芯片厂商,在模型发布当天同步完成了全链路适配。
这叫 "Day 0 适配"。
过去,能做到"模型一发布,芯片就能跑"这件事的,只有英伟达的 CUDA 生态。国产芯片通常要等数周甚至数月才能完成适配。这一次,八家国产芯片在同一天做到了。这不仅仅是一个工程成就,更是一个生态信号:国产 AI 芯片第一次与 CUDA 站在了同一条起跑线上。
DeepSeek 官方在技术报告中做了一个意味深长的动作——第一次把"华为昇腾"和"英伟达 GPU"并列写进了硬件验证清单:
"We validate our fine-grained EP (Expert Parallel) scheme on both Nvidia GPUs and Ascend NPU platforms."
一行看似普通的学术表述,背后是数月的底层工程改造:从 MoE 架构的专家并行方案跨平台适配,到 FP4 量化精度在不同芯片间的对齐,再到 TileLang 领域专用语言的算子跨平台编译。
华为更进一步:昇腾超节点参与了 V4-Flash 的部分训练过程。这是第一次有国产芯片进入万亿参数大模型的训练环节,而不只是做推理。
英伟达 CEO 黄仁勋在 V4 发布前的一次播客访谈中说了一句话:"DeepSeek 先跑在华为芯片上的那一天,对我们国家来说是一个可怕的结果。"(The day that DeepSeek comes out on Huawei first, that is a horrible outcome for our nation.)
这句话在 V4 发布后被反复引用。因为它点明了 V4 国产适配的深层含义——这已不是单纯的技术选型,而是中美科技竞赛中算力自主可控的战略节点。
本文将从技术实现角度,逐一拆解 DeepSeek V4 在各家国产芯片上的适配方案、优化手段和性能表现,帮你建立一张完整的国产算力适配地图。
二、背景:为什么国产算力适配是必选项
2.1 出口管制与算力围堵
理解 DeepSeek V4 的国产适配策略,要先看它面临的外部环境。2022 年以来,美国对华半导体出口管制层层加码:
| 时间 | 管制内容 | 直接影响 |
|---|---|---|
| 2022.10 | 首轮出口管制,限制 A100/H100 对华出口 | 英伟达推出降级版 A800/H800 |
| 2023.10 | 扩大管制范围,取消 A800/H800 豁免 | 国产厂商无法获取任何高端 GPU |
| 2024 全年 | 针对 HBM 内存、先进封装工具持续收紧 | 算力基础层"锁死" |
| 2025-2026 | B100/B200/B300 系列禁令升级 | 中国无法获得任何下一代 GPU |
关键时间点在 2023 年 10 月——美国商务部工业安全局(BIS)更新的管制规则直接堵死了 A800 和 H800 的出口路径。这意味着,中国 AI 公司能合法买到的英伟达 GPU,最高只有 H20——算力不到 H100 的 15%,且显存带宽大幅阉割。
对于需要训练万亿参数模型的 DeepSeek 来说,H20 显然不够用。
2025 年下半年,情况进一步恶化。美国政府将 B100/B200/B300 系列列入了对华出口管制清单,同时将 HBM3E 内存的获取也纳入了限制范围。这意味着即使能买到 GPU,没有足够的高带宽内存(HBM),大模型训练也无法进行。英伟达为中国市场量身定制的 H20 虽然可以继续出口,但 96GB HBM3(带宽 4.0 TB/s)相比 H100 的 80GB HBM3(带宽 3.35 TB/s)优势不大,且 FP8 算力仅 148 TFLOPS(H100 为 989 TFLOPS,差距 85%)。
2026 年初,路透社报道美国正在考虑将 H20 也纳入管制范围。这意味着一件事:中国 AI 公司可能连"阉割版"英伟达 GPU 都买不到了。
2024 年 36氪的一篇报道就透露,DeepSeek 内部已被鼓励采用华为昇腾芯片。到了 2025-2026 年,这个"鼓励"已经变成了"必须"。
这不是 DeepSeek 自己发起的"技术选择",而是在算力断供倒逼下不得不做的战略转型。区别在于,DeepSeek 把这个"被动选择"做成了一套主动设计——从模型架构层面降低对 CUDA 生态的依赖,让国产芯片适配从"事后兼容"变成"事前设计"。
2.2 从 V3 到 V4:适配思路的转变
DeepSeek V3 的训练完全在英伟达 H800 GPU 集群上完成——2048 块 H800,耗时 2.788M GPU 小时,总成本 557 万美元。V3 的架构设计高度针对 Hopper GPU 的硬件特性做了优化,尤其是 FP8 计算的支持。这意味着 V3 几乎没有考虑国产芯片的运行可能性。
到了 V4,适配思路发生了根本变化。三个关键设计转变:
FP4 量化感知训练。 V4 对 MoE 专家权重引入 FP4 量化,而不是延续 V3 的 FP8 路线。FP4 不是英伟达的特有精度格式,华为昇腾、寒武纪等国产芯片都支持。这个选择本质上是在降低对 NVIDIA FP8 Tensor Core 生态的绑定。
TileLang 取代 CUDA。 DeepSeek 选择用 TileLang(一个面向 AI 算子的领域专用语言)开发底层算子,而不是直接用 CUDA 编写。TileLang 写的算子可以跨硬件平台编译——在英伟达上编译成 CUDA kernel,在昇腾上编译成 CANN kernel。这个选择让算子迁移成本从"重写"降为"重新编译"。
MegaMoE2 融合内核。 自研的 MoE 通信计算重叠方案,专门解决了国产硬件环境下 All-to-All 通信的瓶颈问题。传统的 MoE 并行依赖 NCCL(英伟达的通信库)的高效带宽,而在国产硬件上,通信库的成熟度远不如 NCCL。MegaMoE2 通过计算-通信重叠设计,把通信开销隐藏在了计算过程中。
这三个设计,一个都不"性感",但它们的工程价值巨大:让模型从底层架构上就具备跨平台运行的能力,而不是依赖某一家厂商的硬件特性。
2.3 Day 0 适配的产业意义
Day 0 适配,指大模型上线当天,算力平台已完成全链路兼容性验证、性能优化与稳定性测试,开发者当天即可下载、部署、使用。
在 DeepSeek V4 之前,能做到 Day 0 适配的只有英伟达——因为大多数模型本身就是基于 CUDA 开发的,适配工作可以提前完成。而国产芯片需要英伟达版本的代码发布后,才能开始适配。
V4 的 Day 0 适配之所以成为可能,有两个关键因素:
第一,DeepSeek 从研发阶段就与国产芯片厂商建立了提前协作机制。他们开放了模型底层接口和量化相关细节,帮助芯片厂商提前开始算子开发和精度对齐。这种"模型还没发布,适配已经开始"的模式,在开源大模型生态中是第一次。
第二,FlagOS 开源软件栈的桥梁作用。这是北京智源人工智能研究院研发的公共基础层,相当于国产 AI 芯片生态的"操作系统"。FlagOS 提前完成了 DeepSeek V4 的算子兼容、张量并行策略和混合精度转换等核心工作,各家芯片厂商在 FlagOS 基础上做增量适配即可,不需要从零做起。
2.4 FlagOS:国产 AI 芯片的"隐形基础设施"
FlagOS 在 DeepSeek V4 国产适配中扮演的角色容易被低估,但它的重要性不亚于任何一家芯片厂商的工程团队。
FlagOS 团队在 V4 发布前就做了三件关键工作:
算子兼容性分析。 FlagOS 对 V4 的全量算子做了系统扫描——V4 使用了 CSA(压缩稀疏注意力)、HCA(混合块状注意力)、SwiGLU(门控激活函数)、RMSNorm、RoPE(旋转位置编码)等多种算子组合。FlagOS 团队逐一确认了这些算子在每个国产芯片平台上的兼容情况,对于不支持的算子提前开发了替代实现。
张量并行策略设计。 V4 的 MoE 架构在分布式推理时需要精心的张量划分策略——每个 expert 分配多少卡、路由网络放在哪里、All-to-All 通信如何调度。FlagOS 提供了一个通用的并行策略模板,各家芯片厂商可以根据自身硬件的显存和带宽特性做微调,而不需要从零设计并行方案。
混合精度路径转换。 V4 的 FP4 权重需要转换为各芯片原生支持的精度格式。FlagOS 开发了一个"精度路径规划器",能够自动推荐从 FP4 到目标格式(BF16/INT8/FP16)的最优转换路径,并自动插入必要的校准步骤。
有了 FlagOS 这个公共基础层,八家芯片厂商的适配工作大幅简化——不需要每家都从头分析算子兼容性,也不需要每家都重新发明并行策略。据估计,FlagOS 的存在让每家厂商的适配工作量减少了 60-70%。
这也意味着,如果未来有其他大模型想要实现多芯片适配,FlagOS 是值得认真考虑的技术路径。它本质上是一个"一次适配、多芯片运行"的基础设施。
三、华为昇腾 NPU 适配
3.1 适配概况
华为昇腾是 DeepSeek V4 国产适配中覆盖最广、技术纵深最深的一家。
- 适配芯片型号:昇腾 950PR、昇腾 A2、昇腾 A3、昇腾超节点
- 适配模型版本:V4-Pro(1.6T 参数)和 V4-Flash(284B 参数)双版本
- 适配范围:推理 + 训练(V4-Flash 部分训练在昇腾平台完成)
- 开箱方案:8 卡单机或 16 卡双机一体机,32~1024 卡平滑扩展的超节点方案
华为在 4 月 24 日的公告中明确指出:"升腾超节点全系列产品已全面支持 DeepSeek V4 系列模型。"这句话的份量在于,它意味着国产芯片第一次进入了万亿参数大模型的训练环节。
3.2 技术优化要点
华为在适配 DeepSeek V4 时,针对 MoE 架构和长上下文推理做了几项关键优化:
融合 Kernel 降低访存开销。 DeepSeek V4 的核心计算瓶颈不在算力,而在显存带宽——1M token 上下文的 KV Cache 非常庞大,即使经过 CSA 压缩依然占用可观。华为通过融合 kernel 技术,把多个连续的算子合并成单个计算核,减少了中间结果的显存读写。具体来说,Attention 计算中的多个矩阵乘法被融合为一个 kernel,访存次数减少 40-60%。
多流并行掩盖通信延迟。 MoE 模型推理时需要做 All-to-All 通信(把 token 分发给对应的专家)。在英伟达设备上,NCCL 的高带宽可以快速完成这一操作。但在昇腾平台上,通信库的带宽不如 NCCL。华为用多流并行技术,让计算流和通信流并行执行:在一部分专家计算的同时,预加载下一批 token 的通信,把通信延迟隐藏在计算中。
多种量化算法组合应用。 V4 的 FP4 权重本身是量化状态,但华为在推理框架中叠加了额外的量化优化:INT8 动态量化用于 Attention 部分,FP4 保持用于 MoE 权重,BF16 保持用于路由网络。这种混合精度策略在精度损失 <0.5% 的前提下,将推理吞吐提升了 30-50%。
CANN Next 异构兼容。 华为的异构计算架构 CANN Next 增加了对 CUDA 代码的兼容层,使得基于 CUDA 开发的部分推理框架可以在昇腾上直接运行。这不是翻译层,而是 API 级别的适配,减少了开发者迁移的工作量。
3.3 性能数据
根据 DeepSeek 官方技术报告和华为公布的数据,昇腾平台的性能表现如下:
| 对比项 | 英伟达 H800 | 昇腾 950PR | 昇腾 A3 |
|---|---|---|---|
| 单卡 FP8 算力 | 1,979 TFLOPS | ~750 TFLOPS | ~400 TFLOPS |
| HBM 带宽 | 3.35 TB/s | 2.0 TB/s | 1.6 TB/s |
| V4-Flash 推理吞吐(相对于 H800) | 1.0x base | 0.65x ~ 0.72x | 0.45x ~ 0.50x |
| V4-Pro 推理吞吐(相对于 H800) | 1.0x base | 0.58x ~ 0.65x | 0.35x ~ 0.42x |
| FP4 量化推理效率 | 100% | ~92% | ~88% |
| 大 Batch 下推理效率 | 100% | ~85% | ~75% |
需要说明的是,虽然单卡算力有差距,但昇腾 950PR 在集群规模上做了补偿。华为 Atalas 950 超节点最大支持 8192 卡高速互联,在大规模部署场景下,集群的整体效率可以接近 H800 集群的 75-80%。
更关键的是 性价比。昇腾 950PR 的单卡价格约为 H800 的 40-50%,考虑到性能差距后,同成本下的计算产出实际更高——这也是为何阿里巴巴、字节跳动、腾讯在 V4 发布后迅速下单了数十万片昇腾 950 芯片。
3.4 训练层面的适配
V4-Flash 的部分训练在昇腾平台上完成,这是国产芯片首次参与万亿参数模型的训练。两个关键优化:
细粒度专家并行(Fine-grained EP)。 DeepSeek 的专家并行方案把每个 MoE 层的专家均匀分布到不同的 NPU 上,并在每个 NPU 内部做进一步的任务级拆分。昇腾平台上的 EP 方案实现了计算-通信重叠率约 85%,单步训练时间相比纯 NCCL 方案缩短了 12-18%。
FP4 BF16 混合精度训练。 V4 在训练中使用了 FP4(专家权重)+ BF16(路由网络、LayerNorm)的混合精度方案。昇腾平台原生支持 FP4 计算,不需要额外的精度转换步骤,这是昇腾相比其他国产芯片的优势之一。
根据东吴证券 2026 年 4 月的研报分析,DeepSeek V4-Flash 是"首个公开说明训练侧使用国产算力的通用大模型",认为"无论性能表现如何,战略意义均十分重要"。
四、寒武纪 vLLM 集成
4.1 适配方案
寒武纪的适配方案以 vLLM 推理框架为核心,走了一条"基于开源、回馈开源"的路线:
- 适配芯片:思元 590(MLU590)
- 适配框架:vLLM + Cambricon 后端
- 适配范围:V4-Pro 和 V4-Flash 的推理
- 开源状态:全部适配代码已开源至 GitHub 社区
寒武纪没有选择自研推理框架,而是在 vLLM 生态内做适配——这意味着任何使用 vLLM 的开发者,只要安装了 Cambricon 后端插件,就可以直接部署 V4。这也是对开发者最友好的方式。
4.2 技术实现
寒武纪的适配关键在于 Cambricon Neuware 软件栈与 V4 架构的深度对齐:
算子层面的适配。 V4 的 CSA(压缩稀疏注意力)是自研算子,寒武纪需要在 Neuware 上重新实现该算子的 kernel。技术报告中提到的优化包括:利用思元 590 的大容量 SRAM(48MB)缓存 Attention 计算的中间结果,减少对 HBM 的反复读取。
张量并行支持。 V4-Pro 的 49B 激活参数需要多卡才能跑起来。寒武纪在 vLLM 中实现了针对思元 590 的张量并行策略,支持 2-8 卡并行推理,并通过优化 All-reduce 通信(使用自家 CNCL 通信库)减少跨卡通信开销。
量化对齐。 V4 的 FP4 权重在寒武纪平台上通过"FP4 到 BF16 实时反量化 + BF16 计算"的方式实现。寒武纪的 MLU 架构原生不支持 FP4 计算,需要在模型加载时做精度转换。这带来了约 15% 的额外开销,但保证了精度无损失。
4.3 适配效率
寒武纪能在 Day 0 完成适配,得益于两个提前布局:
第一,FlagOS 的中间层。FlagOS 为 DeepSeek V4 提前做了算子兼容性分析和张量并行策略设计,寒武纪在 FlagOS 基础上只做后端适配,将工作量从"从零适配"降为"增量开发"。
第二,与 DeepSeek 的提前技术对接。寒武纪在 V4 研发阶段就获得了 FP4 权重的格式规范和 MoE 路由逻辑的接口文档,可以提前开发算子。据公开报道,寒武纪的适配团队在大模型正式发布前 2-3 周就开始了实际编码工作。
五、海光 DCU 适配
5.1 适配概况
海光信息的适配方案主打"产业落地",侧重企业级部署的可靠性:
- 适配芯片:海光 DCU(深算系列)
- 适配范围:V4-Pro 和 V4-Flash 的推理
- 适配目标:形成"模型发布—芯片适配—产业落地"的完整闭环
- 方案特色:即取即用的部署方案,面向企业用户
海光 DCU(Deep Computing Unit)基于 x86 生态,兼容性较好。它的优势在于海光 CPU + DCU 的组合方案在信创市场有深厚积累,适合政务、金融等国产化要求高的行业。
5.2 技术特点
海光的适配策略和华为、寒武纪有所不同。海光在公告中提到的重点是"深度调优"和"产业落地",而不是技术指标的突破。这意味着海光更关注在已有硬件上跑出稳定、可靠的结果,而非追求极致的性能指标。
海光 DCU 的优势:
- x86 兼容性:海光 CPU 兼容 x86 指令集,不需要额外适配操作系统和软件栈。这对企业客户来说降低了集成风险。
- 成熟的供应链:海光 DCU 已经在多个行业完成量产部署,供应稳定。
- FP64/FP32 精度优势:海光 DCU 在双精度/单精度计算上有较强表现,适合需要高精度的推理场景。
性能方面,海光 DCU 的单卡推理吞吐约为 H800 的 40-50%,但在双卡或四卡并行的情况下,线性扩展效率较好(>90%),多卡场景下实际吞吐可达 H800 的 35-45%。
六、其他五家国产芯片适配
6.1 摩尔线程
摩尔线程的适配基于旗舰级 AI 训推一体智算卡 MTT S5000,联合北京智源研究院,通过 FlagOS 全栈软件体系完成了推理适配。
- 适配芯片:MTT S5000
- 适配框架:FlagOS 全栈 + 魔搭社区镜像
- 适配范围:V4-Pro 和 V4-Flash 的推理
- 方案特色:覆盖云端到边缘的多种部署形态
摩尔线程在魔搭社区同步发布了 Pro 和 Flash 两个版本的容器镜像,开发者可以一键拉起推理服务。MTT S5000 主打中端推理市场,单卡性价比在国产芯片中表现不错,适合中小规模的推理部署场景。
6.2 沐曦股份
沐曦走了一条"联合研发"的路线:联合智源研究院 FlagOS 开源软件栈,携手上海人工智能实验室 KernelSwift 智能算子迁移系统,完成了 DeepSeek V4-Flash 的全量适配。
沐曦的技术路线强调 可迁移性和生态协同。KernelSwift 是一个智能算子迁移工具,可以自动将 CUDA 算子翻译为目标芯片的原生算子,大幅降低了迁移门槛。沐曦希望通过这个工具链,让后续的大模型适配不再需要大量人工介入。
沐曦的 GPU 架构在性能上对标英伟达的中端产品,目前主要面向数据中心推理市场。由于起步较晚,软件生态的成熟度还有待提升,但 KernelSwift 的思路——用自动化工具降低适配成本——值得关注。
6.3 百度昆仑芯
百度昆仑芯完成了 DeepSeek V4-Flash 的模型兼容性验证与部署链路打通。方案特色:
- 开箱即用:支持 V4-Flash 模型直接部署
- 量产优化:面向批量部署场景做了专项优化
- 百度生态集成:与百度的 PaddlePaddle/PaddleInference 深度对接
昆仑芯的优势在于与百度 AI 生态的深度绑定。如果团队已经在使用百度的 AI 工具链(PaddlePaddle、Baidu Cloud),昆仑芯的集成方案会非常顺滑。但如果你是 PyTorch/vLLM 生态的用户,昆仑芯的适配方案可能不如寒武纪或昇腾那样"原生"。
6.4 阿里平头哥
阿里平头哥(真武芯片)的适配方案包含三项关键技术突破:
FlagGems 全算子替代。 平头哥基于 FlagOS 的 FlagGems 库,实现了对 DeepSeek V4 全部算子的原生支持,不依赖任何 CUDA 兼容层。这意味着推理性能和稳定性更高。
独立张量并行策略。 平头哥根据真武芯片的互联拓扑结构,设计了自己的张量并行策略,在多卡场景下达到了超过 90% 的线性扩展效率。
FP4 到 BF16 精度路径转换。 真武芯片原生支持 BF16 计算,但不直接支持 FP4 加载。平头哥开发了 FP4 到 BF16 的专用转换路径,在保持精度的前提下将转换速度提升了约 40%。
三项技术叠加,使 V4-Flash 在真武芯片上的推理效率达到了可接受水平。对于已经在阿里云上部署业务的团队,平头哥方案具有天然的平台集成优势。
6.5 天数智芯
天数智芯是八家 Day 0 适配厂商中最为低调的一家。他们完成了 V4-Flash 模型的全量算子适配与推理部署验证,适配方案相对标准,没有太多额外亮点。
天数智芯的 GPU 产品主要面向政务和教育市场,在通用 AI 推理领域的市场占有率还不高。其 Day 0 适配更多是"不掉队"的战略动作,确保现有客户在 DeepSeek V4 上机的第一时间就能使用。
6.6 八家适配方案一览
| 芯片厂商 | 芯片型号 | 适配范围 | 框架选择 | 方案特色 |
|---|---|---|---|---|
| 华为昇腾 | 950PR / A2 / A3 | 训练 + 推理 | CANN + 自研 | 深度最深,性能最优 |
| 寒武纪 | 思元 590 | 推理 | vLLM | 开源友好,开发者首选 |
| 海光信息 | DCU 深算系列 | 推理 | 自研 + 调优 | x86 生态,信创适配 |
| 摩尔线程 | MTT S5000 | 推理 | FlagOS + 魔搭镜像 | 部署友好,容器化方案 |
| 沐曦股份 | MXN 系列 | 推理(Flash) | KernelSwift + FlagOS | 自动化迁移,可扩展性强 |
| 百度昆仑芯 | 昆仑芯 P800 | 推理(Flash) | PaddleInference | 百度生态集成 |
| 阿里平头哥 | 真武 | 推理(Flash) | FlagGems | 阿里云集成,性能优化深 |
| 天数智芯 | BI106 | 推理(Flash) | 自研 | 中规中矩,不掉队 |
七、异构部署方案
7.1 为什么需要异构
现实情况是:大多数中国 AI 公司手里既有英伟达 GPU(存量),也有国产芯片(增量)。完全弃用英伟达是不现实的,全面拥抱国产芯片也需要过渡期。
异构部署的核心逻辑是:让合适的任务跑在合适的芯片上。具体来说:
- 训练侧:英伟达 GPU 的成熟生态(CUDA + NCCL + TensorRT)在训练场景下仍有优势,尤其是需要大规模分布式训练的任务
- 推理侧:国产芯片在推理场景下的性价比越来越高,尤其是昇腾 950 的价格仅为 H800 的 40-50%,适合成本敏感的推理部署
- 混合架构:训练在英伟达 + 推理在昇腾,是目前最主流的异构方案
7.2 英伟达训练 + 昇腾推理
这是 DeepSeek V4 最推荐的异构方案。具体架构:
训练阶段 (英伟达) → 模型导出 → 精度对齐 → 推理阶段 (昇腾)
│ │
├─ 2048 × H800 ├─ N × 昇腾 950PR
├─ CUDA + NCCL ├─ CANN + MegEngine
├─ FP8 + BF16 混合精度 ├─ FP4 + BF16 混合精度
└─ DeepSeek 训练框架 └─ vLLM / TGIS 推理框架精度对齐是异构方案的关键环节。训练阶段使用的 FP8/BF16 混合精度和推理阶段使用的 FP4/BF16 混合精度之间存在精度偏差。DeepSeek 的方法是在训练结束后,对模型权重做一次从训练精度到推理精度的"量化迁移",并使用一小部分验证数据校准输出分布。
华为在这个环节提供了精度对齐工具链,可以在 1-2 天内完成整个 V4 模型的精度对齐验证。工具链会自动检测输出偏差超过阈值的层,并提供针对性优化建议。
7.3 全国产方案
对于完全不能使用英伟达 GPU 的场景(信创、涉密等),全国产方案也已经可行:
| 阶段 | 推荐方案 | 所需硬件 | 可行性 |
|---|---|---|---|
| 训练 (Flash) | 昇腾 950PR 超节点 | 64-512 卡 | 已验证 |
| 训练 (Pro) | 昇腾 950PR 超节点 | 512-4096 卡 | 理论可行 |
| 推理 (Flash) | 昇腾 950PR / 寒武纪思元 590 | 1-8 卡 | 已验证 |
| 推理 (Pro) | 昇腾 950PR / 海光 DCU | 4-16 卡 | 已验证 |
| 推理 (轻量) | 摩尔线程 MTT S5000 | 1-4 卡 | 已验证 |
需要注意的是,全国产方案在训练阶段仍需验证。DeepSeek V4-Flash 使用昇腾完成了部分训练,但全部训练在国产芯片上跑通还需要更多工程验证。推理方面则已经成熟——八家国产芯片厂商都在 Day 0 完成了推理适配。
7.4 异构部署的成本对比
以单次 10M token 推理(约等于处理一本中等长度的书)为例:
| 方案 | 所需硬件 | 推理成本(美元) | 相比纯 H800 方案 |
|---|---|---|---|
| 纯 H800 | 2× H800 | ~$0.40(算力折旧) | 1.0x(基准) |
| 纯昇腾 950 | 3× 950PR | ~$0.22(算力折旧) | 0.55x |
| 纯寒武纪 590 | 4× MLU590 | ~$0.18(算力折旧) | 0.45x |
| H800 训练 + 昇腾推理 | 1× H800 + 2× 950PR | ~$0.18(训练分摊 ~$0.05 + 推理 $0.13) | 0.45x |
注意,这里的成本是算力折旧而非电费。昇腾 950 的采购成本约为 H800 的 45-50%,虽然推理吞吐上有差距(0.58x-0.72x),但综合性价比仍然优于纯 H800 方案。
八、性能对比
8.1 推理吞吐对比
以下是在 Flash 版本(13B 激活参数)上的推理吞吐对比。测试条件:Batch Size = 32,输入长度 2048 tokens,输出长度 512 tokens,FP4 精度。
| 芯片 | 单卡吞吐 (tokens/s) | 相对 H800 性能 | 多卡扩展效率 (4卡) | 功耗 (W) |
|---|---|---|---|---|
| 英伟达 H800 | 1,850 | 1.0x (基准) | 95% | 700 |
| 英伟达 H20 | 420 | 0.23x | 92% | 400 |
| 昇腾 950PR | 1,280 | 0.69x | 90% | 650 |
| 昇腾 A3 | 850 | 0.46x | 88% | 450 |
| 寒武纪思元 590 | 720 | 0.39x | 87% | 550 |
| 海光 DCU | 680 | 0.37x | 92% | 500 |
注:H800 数据来自 DeepSeek V3.2 的公开测评,国产芯片数据来自各厂商自测报告。实际性能随部署环境、Batch Size 等参数变化。
8.2 推理延迟对比
延迟是大模型推理的另一个关键指标。以下为 Flash 版本在不同 Batch Size 下首 token 延迟和平均每 token 延迟的对比。
首 token 延迟(TTFT,Time to First Token):输入长度 2048 tokens,输出首 token 的计算延迟。
| 芯片 | Batch=1 TTFT | Batch=16 TTFT | Batch=32 TTFT | 每 token 延迟 (Batch=32) |
|---|---|---|---|---|
| 英伟达 H800 | 185ms | 320ms | 580ms | 28ms |
| 昇腾 950PR | 240ms | 450ms | 820ms | 39ms |
| 寒武纪思元 590 | 310ms | 580ms | 1,050ms | 56ms |
| 海光 DCU | 290ms | 550ms | 980ms | 52ms |
低延迟场景(如对话、代码补全)下,昇腾 950PR 和 H800 的差距最明显。这是因为首 token 计算的瓶颈在算力而非显存带宽,而昇腾的单卡算力约为 H800 的 38%。对于流式输出场景(多轮对话),每 token 延迟的差距更小,昇腾 950PR 约为 H800 的 72%。
8.3 Pro 版本对比
Pro 版本(49B 激活参数)对显存和算力的要求更高:
| 芯片 | 单卡推理 (tokens/s) | 最小推理卡数 | 推荐配置 | 相对 H800 吞吐/卡 |
|---|---|---|---|---|
| 英伟达 H800 80G | 480 | 2 | 4× H800 | 1.0x (基准) |
| 昇腾 950PR 96G | 310 | 3 | 8× 950PR | 0.65x |
| 寒武纪思元 590 64G | 210 | 4 | 8× MLU590 | 0.44x |
| 海光 DCU 64G | 190 | 4 | 8× DCU | 0.40x |
Pro 版本的适配门槛明显更高。49B 激活参数在 FP4 精度下需要约 25GB 显存(加上 KV Cache 和中间激活),单卡 80G 以上的 H800 也要 2 张才能跑,国产芯片至少需要 3-4 张。
8.4 性价比模型
除了绝对性能,性价比(每元获得的 tokens/s)是评估芯片的重要维度。
以 Flash 版本推理为例,假设服务器使用 3 年(26,280 小时),电费按 $0.10/kWh 计算:
| 芯片 | 4卡方案总成本(含服务器) | 4卡推理吞吐 | 每百万 token 推理成本 | 性价比指数 |
|---|---|---|---|---|
| 英伟达 H800 | ~$200,000(3年) | 7,030 tokens/s | ~$0.031 | 1.0x(基准) |
| 昇腾 950PR | ~$110,000(3年) | 4,608 tokens/s | ~$0.026 | 1.19x |
| 寒武纪思元 590 | ~$80,000(3年) | 2,506 tokens/s | ~$0.035 | 0.89x |
| 海光 DCU | ~$85,000(3年) | 2,502 tokens/s | ~$0.037 | 0.84x |
算上能耗后,昇腾 950PR 的综合性价比反超了 H800——虽然绝对性能低 34%,但总持有成本低了 45%,最终每百万 token 的推理成本反而更低。
性价比差距会在更大规模部署时进一步拉大:10 卡昇腾 950PR 集群的总持有成本约为 6 卡 H800 集群的 60%,而推理吞吐能达到后者的 80% 以上。对于月均推理量超过 10 亿 token 的中大规模部署来说,选择昇腾方案每年可节省数十万美元。
8.5 不同场景的芯片推荐
| 场景 | 推荐芯片 | 推荐原因 |
|---|---|---|
| 个人开发调试(Flash 推理) | 昇腾 A3 / 寒武纪思元 590 | 单卡即可运行,价格适中 |
| 小团队推理部署(Flash) | 昇腾 950PR / 海光 DCU | 性价比较高,供应稳定 |
| 企业级推理服务(Flash + Pro) | 昇腾 950PR 超节点 | 8-64 卡扩展,单卡推理吞吐最高 |
| 政务/信创部署 | 海光 DCU + 海光 CPU | x86 兼容性好,信创生态成熟 |
| 训练 + 推理全链路 | 昇腾 950PR 超节点(64卡以上) | 唯一通过训练验证的国产方案 |
| 成本敏感型推理 | 寒武纪思元 590 | 单卡成本低,vLLM 生态友好 |
九、国产 AI 芯片市场展望
9.1 当前格局
DeepSeek V4 的发布,是一个历史性的加速器。多家券商研报在 V4 发布后上调了国产算力的预期:
| 指标 | 2024 年 | 2025 年 | 2026 年(V4 发布后预期) |
|---|---|---|---|
| 国产 AI 芯片市占率(训练) | ~5% | ~10% | ~20% |
| 国产 AI 芯片市占率(推理) | ~15% | ~25% | ~35% |
| 综合国产化率 | ~10% | ~15% | ~30-40% |
| 华为昇腾出货量(万片/年) | ~10 | ~30 | ~75(950PR 计划) |
| 国产 AI 芯片总投资(亿元) | ~200 | ~400 | ~800 |
华为昇腾 950PR 在 2025 年 Q4 实现商用化,2026 年 4 月开始进入批量出货阶段,全年计划出货约 75 万片。阿里巴巴、字节跳动、腾讯在 V4 发布后已经下单了数十万片昇腾 950 芯片。
9.2 未来趋势(2026-2030)
国产化率持续提升。 多个券商预测,2026 年国产 AI 芯片的综合国产化率在 30-40%,到 2030 年有望达到 60-70%。驱动因素有三个:
- 英伟达供应持续受限。H20 虽然可以合法出口,但算力仅为 H100 的 15%,且随着管制力度加大,随时可能被进一步限制。
- 国产芯片性能快速追赶。昇腾 950PR 在推理场景下已达到 H800 的 69%,下一代产品有望提升到 80-90%。
- AI 模型趋向"国产芯片原生适配"。DeepSeek V4 开创了"模型适配国产芯片"的先河,后续的 Qwen、混元等模型很可能跟进。
产业链机会全面扩大。 国产 AI 芯片的崛起将带动整个产业链:
- 芯片设计:华为昇腾、寒武纪、海光信息将是第一梯队
- 封装测试:华天科技、长电科技等受益于国产芯片产能爬坡
- 散热方案:液冷散热(华为超节点标配)需求爆发
- 光模块与互联:800G/1.6T 光模块需求随超节点扩展而增长
- 软件生态:FlagOS、CANN、CNCL 等国产基础软件从"能用"走向"好用"
9.3 真实部署案例
V4 发布后的国产芯片部署正在快速落地。以下是几个代表性案例:
阿里云:全栈昇腾推理。 阿里云在 V4 发布后立即启动了基于昇腾 950PR 的推理集群扩容,首批部署规模超过 1,000 卡,用于支撑其通义千问和云服务中的大模型推理任务。阿里云还计划将 V4-Flash 的推理成本在其平台上进一步降低 40-50%。
北京智源研究院:FlagOS 多芯片统一调度。 智源研究院基于 FlagOS 构建了一个跨芯片推理平台,可以在昇腾、寒武纪、海光、摩尔线程之间动态调度推理任务。当某类芯片负载过高时,自动将新请求路由到空闲芯片,实现了资源利用率的最大化。
金融行业信创项目:海光 DCU 全栈部署。 某国有大型银行在信创项目中采用了海光 CPU + DCU 的全栈方案,部署了 V4-Flash 用于智能客服和文档理解场景。银行方面反馈,整体部署周期约为 3 周,精度损失控制在 0.3% 以内,满足业务要求。
互联网创业公司:寒武纪 vLLM 低成本方案。 一家 AI 应用创业公司在 V4 发布后,将推理后端从 H800 迁移到寒武纪思元 590。通过 vLLM 的 Cambricon 后端,迁移过程仅耗时 2 天。迁移后的推理成本降低了约 55%,用户侧感知到的延迟增加了约 30%,但仍在可接受范围内。
9.4 英伟达的反击
英伟达显然不会坐视中国 AI 算力生态独立。黄仁勋在 2026 年初的表态已经透露了英伟达的策略:
继续争取中国市场。 H20 是一款"合规但不划算"的产品——算力阉割太多,但价格没有成比例降低。英伟达在推动美国政府放宽管制,争取开放更高算力的 GPU 出口。
CUDA 生态护城河。 英伟达最担心的是中国 AI 公司逐渐脱离 CUDA。一旦开发者习惯了在国产芯片上开发 AI 应用,CUDA 的生态优势就会慢慢瓦解。这也是为何黄仁勋会对"DeepSeek 跑在华为上"反应如此强烈。
但在短期内(2026-2028),英伟达的反击效果有限。 美国政府的出口管制政策短期内看不到放松的迹象,而国产芯片的适配进度比预期快得多。DeepSeek V4 的 Day 0 适配是一个重要的"临界点"——从那以后,英伟达不再是国产 AI 大模型"唯一能跑"的硬件。
十、对开发者的影响
10.1 部署选型原则
对于正在做技术选型的开发者和团队,以下是基于当前市场格局的建议:
原则一:训练选英伟达,推理选国产。 这是目前性价比最高的策略。训练场景对 CUDA 生态的依赖最深(框架支持、调试工具、通信库),切换到国产芯片的成本较高。推理场景相对简单,国产芯片的性价比优势已经开始显现。
原则二:关注推理框架的芯片支持。 vLLM 已经明确支持寒武纪后端,SGLang 正在适配昇腾。选择推理框架时,优先选择有多芯片后端支持的框架——这样可以在不同芯片间灵活切换,不会被某一家锁死。
原则三:优先选择有 Day 0 适配经验的芯片厂商。 能够在大模型发布当天完成适配,说明该厂商的软件团队反应快、工程能力强。这在大模型迭代越来越快的环境下很重要。
原则四:不要忽视软件生态的成熟度。 芯片的硬件性能(TOPS、带宽)只是参考,配套的工具链、文档质量、社区活跃度同样关键。昇腾的 CANN 生态目前最成熟,社区资源最多;寒武纪的 vLLM 集成做得好,对开发者最友好。
10.2 成本优势
以部署一个 V4-Flash 推理服务为例:
| 方案 | 硬件配置 | 硬件总成本(万元) | 可支持的并发用户数 | 单用户成本(元) |
|---|---|---|---|---|
| 4× H800 80G | 4 卡服务器 | ~320 | 50-100 | 32,000-64,000 |
| 4× 昇腾 950PR | 4 卡服务器 | ~160 | 35-70 | 22,857-45,714 |
| 4× 寒武纪思元 590 | 4 卡服务器 | ~120 | 25-50 | 24,000-48,000 |
| 8× 昇腾 A3 | 8 卡服务器 | ~200 | 50-100 | 20,000-40,000 |
考虑性能差异后的"有效成本":昇腾 950PR 虽然单卡吞吐只有 H800 的 69%,但价格只有 H800 的 50%,综合性价比高出 H800 约 38%。寒武纪思元 590 的性价比优势更明显,单卡成本低但性能差距较大,适合对延迟不敏感的场景。
10.3 迁移成本和注意事项
从英伟达 GPU 迁移到国产芯片,需要关注的几个问题:
算子兼容性。 不是所有 CUDA 算子都能直接在国产芯片上运行。DeepSeek V4 之所以迁移顺利,是因为从架构设计阶段就用了 TileLang。如果你的推理代码中包含了大量自定义 CUDA kernel,迁移工作量会大很多。
精度对齐。 FP4 到 BF16 的精度转换在不同芯片上的实现可能有差异。建议在迁移完成后,用一套标准的测试数据做输出对比,确保推理结果的误差在可接受范围内(通常要求 < 0.5%)。
通信库。 NCCL 在英伟达生态中是标准组件,但换成 CNCL(寒武纪)、HCCL(华为)后,通信效率会有差异。MoE 模型的 All-to-All 通信对通信库的依赖尤其大。如果遇到通信瓶颈,可以考虑 MegaMoE2 的计算-通信重叠方案。
监控和运维。 国产芯片的监控工具链还在完善中。NPU 的温度、功耗、利用率等指标的采集和告警,可能不如英伟达的 nvidia-smi + DCGM 成熟。建议在部署初期增加性能基准测试,持续跟踪。
10.4 实操指南:在国产芯片部署 V4-Flash
以下是一个简化的部署流程,以寒武纪思元 590 + vLLM 为例:
第一步:环境准备
# 安装寒武纪驱动和 Neuware 软件栈
sudo dpkg -i cambricon-neuware_*.deb
# 确认设备状态
cnmon
# 安装 vLLM(Cambricon 后端集成版本)
pip install vllm[cambricon]
# 下载模型权重(支持 HuggingFace 和 ModelScope)
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash第二步:启动推理服务
# 单卡部署(适合个人开发和低并发场景)
python -m vllm.entrypoints.openai.api_server \
--model ./DeepSeek-V4-Flash \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--dtype bfloat16 \
--gpu-memory-utilization 0.90 \
--port 8000
# 多卡部署(适合生产环境)
python -m vllm.entrypoints.openai.api_server \
--model ./DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 8192 \
--dtype bfloat16 \
--gpu-memory-utilization 0.95 \
--port 8000第三步:验证推理结果
# 使用标准测试数据验证精度
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "DeepSeek-V4-Flash",
"messages": [{"role": "user", "content": "请计算:23 × 17 = ?"}],
"max_tokens": 128
}'将输出结果与 H800 上相同输入的输出做对比,确认精度损失在可接受范围内。
对于昇腾平台,部署流程类似,仅需替换驱动和推理后端:
# 华为昇腾环境
pip install torch_npu
pip install vllm[ascend] # 或使用昇腾原生推理框架
# 启动服务
python -m vllm.entrypoints.openai.api_server \
--model ./DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 32768 \
--dtype bfloat16 \
--device npu对于海光 DCU,海光提供了自己的推理框架和预置镜像,企业用户可以直接拉取优化后的容器镜像使用。
十一、适配的技术挑战
国产芯片适配 DeepSeek V4 的过程并非一帆风顺。以下是八家厂商在适配过程中普遍遇到的共性问题:
11.1 MoE 通信瓶颈
MoE 模型的核心是 All-to-All 通信——每个 token 需要被路由到对应的 expert,然后专家计算的结果需要被收集回原位置。这个过程在英伟达生态中由 NCCL 高效完成,但在国产芯片上,通信库的成熟度和带宽都有限。
各家厂商的应对策略不同:
- 华为:用多流并行 + HCCL 优化,将通信延迟隐藏在计算中
- 寒武纪:在 CNCL 层针对 MoE 的通信模式做了专门优化,减少了握手次数
- 海光:采用更大的 Batch Size 降低通信频率,牺牲一定延迟换取吞吐
11.2 FP4 精度对齐
V4 的 FP4 权重是将 4-bit 值打包存储的。不同芯片对 FP4 的反量化方式不同——有的硬件支持原生 FP4 加载(如昇腾 950),有的需要先转成 BF16(如寒武纪思元 590)。
精度对齐的关键在于反量化公式的一致性:
FP4 值 → 解码为 E2M1 格式 (1-bit sign, 2-bit exponent, 1-bit mantissa)
→ 根据芯片特性调整缩放因子
→ 转换为目标格式 (BF16/INT8)因为不同芯片的 FP4 解码器对特殊值(如 NaN、Inf 和零值)的处理方式有细微差异,同一个权重在不同芯片上反量化后的数值可能不完全相同。这会导致推理输出出现偏差。
解决方案是:在模型发布前,DeepSeek 和各芯片厂商共同确定了一套标准化的 FP4 解码规范,包括特殊值的处理方式、缩放因子的统一等。DeepSeek 技术报告中提到的"fine-grained EP scheme was validated on both Nvidia GPUs and Ascend NPU platforms",背后就包含了这项标准化工作。
11.3 长上下文推理优化
V4 支持 1M token 上下文,这在大规模推理时带来了显存压力。即使经过 CSA 压缩,1M token 的 KV Cache 依然需要大量显存。
各家厂商的优化策略:
- 华为昇腾:利用融合 kernel 减少 Attention 计算的访存次数,同时在驱动层做了显存碎片整理的优化
- 寒武纪:在 vLLM 中使用了 Paged Attention 的变种,支持非连续显存分配,减少了显存碎片
- 海光 DCU:侧重于更激进的内存复用策略,在保证计算正确性的前提下减少了 KV Cache 的显存占用
11.4 算子下沉与驱动适配
DeepSeek V4 使用了一些非标准的算子组合(如 CSA 中的稀疏 Attention 模式、mHC 中的流形约束操作)。这些算子在硬件层面没有直接支持,需要厂商在驱动/算子库层实现。
对于华为昇腾这种有成熟 CANN 算子库的平台,大部分算子可以在软件栈层面实现,不需要修改硬件驱动。但对于软件生态尚不完善的平台(如沐曦、天数智芯),部分算子需要降级为通用计算(使用 opencl 或普通矩阵乘法模拟),性能损失较大。
这解释了为什么昇腾在性能测试中领先其他国产芯片——不是硬件差距(虽然也有),更多的是软件栈成熟度的差距。
小结
DeepSeek V4 在国产算力适配方面的成就,可以概括为四个关键点:
八家国产芯片厂商实现了 Day 0 适配,这是中国 AI 芯片生态第一次与英伟达 CUDA 生态站在同一条起跑线上。华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、百度昆仑芯、阿里平头哥、天数智芯在模型发布当天同步完成了全链路适配。
华为昇腾的适配深度最深——覆盖训练和推理两端,昇腾 950PR 参与了 V4-Flash 的部分训练。通过融合 kernel、多流并行和混合量化等技术,昇腾平台在推理场景下达到 H800 的 58%-72% 性能,而成本仅为 H800 的 40-50%。
寒武纪走开源路线——基于 vLLM 框架完成适配,全部适配代码开源至 GitHub。思元 590 在配合 vLLM 生态方面做得最好,适合对开发者友好度和灵活性有要求的团队。
异构部署已成为现实可行的方案——训练在英伟达、推理在昇腾的混合架构,综合成本比纯 H800 方案低 55% 以上。全国产方案(Flash 版本)在推理侧已经验证通过,训练侧仍在持续优化。
从产业视角看,DeepSeek V4 的国产适配是一个重要的临界点:它证明了中国 AI 大模型可以在国产芯片上生产运行,而不再局限于英伟达 GPU。这对中国企业来说意味着更大的供应链安全性,对开发者来说意味着更低成本的推理部署方案。
国产 AI 芯片的综合国产化率当前约 30-40%,预计到 2030 年将达到 60-70%。这个过程中,更低的算力成本、更丰富的芯片选择、更完善的国产软件生态,将共同推动中国 AI 产业从"可用"走向"好用"。
检验标准
- [ ] 了解 DeepSeek V4 在国产算力适配中的三个关键设计转变(FP4 量化、TileLang 算子开发、MegaMoE2 融合内核),理解其与 V3 适配思路的区别
- [ ] 掌握华为昇腾、寒武纪、海光三大国产芯片平台对 V4 的适配方案和各自优势,知道在什么场景下选择哪家芯片
- [ ] 理解异构部署的核心逻辑(训练在英伟达、推理在国产芯片),能够对比不同方案的成本和性能
- [ ] 了解当前国产 AI 芯片的市场格局和未来趋势,能够在实际项目中做出合理的国产芯片选型决策
