国产算力适配实战

全球首个在国产芯片上完成训练与推理的万亿参数模型 | 预计阅读时间：25 分钟

一、引言

2026 年 4 月 24 日，DeepSeek V4 预览版发布。同一天，一个比模型本身更具冲击力的消息接踵而至：华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、百度昆仑芯、阿里平头哥、天数智芯——八家国产 AI 芯片厂商，在模型发布当天同步完成了全链路适配。

这叫 "Day 0 适配"。

过去，能做到"模型一发布，芯片就能跑"这件事的，只有英伟达的 CUDA 生态。国产芯片通常要等数周甚至数月才能完成适配。这一次，八家国产芯片在同一天做到了。这不仅仅是一个工程成就，更是一个生态信号：国产 AI 芯片第一次与 CUDA 站在了同一条起跑线上。

DeepSeek 官方在技术报告中做了一个意味深长的动作——第一次把"华为昇腾"和"英伟达 GPU"并列写进了硬件验证清单：

"We validate our fine-grained EP (Expert Parallel) scheme on both Nvidia GPUs and Ascend NPU platforms."

一行看似普通的学术表述，背后是数月的底层工程改造：从 MoE 架构的专家并行方案跨平台适配，到 FP4 量化精度在不同芯片间的对齐，再到 TileLang 领域专用语言的算子跨平台编译。

华为更进一步：昇腾超节点参与了 V4-Flash 的部分训练过程。这是第一次有国产芯片进入万亿参数大模型的训练环节，而不只是做推理。

英伟达 CEO 黄仁勋在 V4 发布前的一次播客访谈中说了一句话："DeepSeek 先跑在华为芯片上的那一天，对我们国家来说是一个可怕的结果。"（The day that DeepSeek comes out on Huawei first, that is a horrible outcome for our nation.）

这句话在 V4 发布后被反复引用。因为它点明了 V4 国产适配的深层含义——这已不是单纯的技术选型，而是中美科技竞赛中算力自主可控的战略节点。

本文将从技术实现角度，逐一拆解 DeepSeek V4 在各家国产芯片上的适配方案、优化手段和性能表现，帮你建立一张完整的国产算力适配地图。

二、背景：为什么国产算力适配是必选项

2.1 出口管制与算力围堵

理解 DeepSeek V4 的国产适配策略，要先看它面临的外部环境。2022 年以来，美国对华半导体出口管制层层加码：

时间	管制内容	直接影响
2022.10	首轮出口管制，限制 A100/H100 对华出口	英伟达推出降级版 A800/H800
2023.10	扩大管制范围，取消 A800/H800 豁免	国产厂商无法获取任何高端 GPU
2024 全年	针对 HBM 内存、先进封装工具持续收紧	算力基础层"锁死"
2025-2026	B100/B200/B300 系列禁令升级	中国无法获得任何下一代 GPU

关键时间点在 2023 年 10 月——美国商务部工业安全局（BIS）更新的管制规则直接堵死了 A800 和 H800 的出口路径。这意味着，中国 AI 公司能合法买到的英伟达 GPU，最高只有 H20——算力不到 H100 的 15%，且显存带宽大幅阉割。

对于需要训练万亿参数模型的 DeepSeek 来说，H20 显然不够用。

2025 年下半年，情况进一步恶化。美国政府将 B100/B200/B300 系列列入了对华出口管制清单，同时将 HBM3E 内存的获取也纳入了限制范围。这意味着即使能买到 GPU，没有足够的高带宽内存（HBM），大模型训练也无法进行。英伟达为中国市场量身定制的 H20 虽然可以继续出口，但 96GB HBM3（带宽 4.0 TB/s）相比 H100 的 80GB HBM3（带宽 3.35 TB/s）优势不大，且 FP8 算力仅 148 TFLOPS（H100 为 989 TFLOPS，差距 85%）。

2026 年初，路透社报道美国正在考虑将 H20 也纳入管制范围。这意味着一件事：中国 AI 公司可能连"阉割版"英伟达 GPU 都买不到了。

2024 年 36氪的一篇报道就透露，DeepSeek 内部已被鼓励采用华为昇腾芯片。到了 2025-2026 年，这个"鼓励"已经变成了"必须"。

这不是 DeepSeek 自己发起的"技术选择"，而是在算力断供倒逼下不得不做的战略转型。区别在于，DeepSeek 把这个"被动选择"做成了一套主动设计——从模型架构层面降低对 CUDA 生态的依赖，让国产芯片适配从"事后兼容"变成"事前设计"。

2.2 从 V3 到 V4：适配思路的转变

DeepSeek V3 的训练完全在英伟达 H800 GPU 集群上完成——2048 块 H800，耗时 2.788M GPU 小时，总成本 557 万美元。V3 的架构设计高度针对 Hopper GPU 的硬件特性做了优化，尤其是 FP8 计算的支持。这意味着 V3 几乎没有考虑国产芯片的运行可能性。

到了 V4，适配思路发生了根本变化。三个关键设计转变：

FP4 量化感知训练。 V4 对 MoE 专家权重引入 FP4 量化，而不是延续 V3 的 FP8 路线。FP4 不是英伟达的特有精度格式，华为昇腾、寒武纪等国产芯片都支持。这个选择本质上是在降低对 NVIDIA FP8 Tensor Core 生态的绑定。

TileLang 取代 CUDA。 DeepSeek 选择用 TileLang（一个面向 AI 算子的领域专用语言）开发底层算子，而不是直接用 CUDA 编写。TileLang 写的算子可以跨硬件平台编译——在英伟达上编译成 CUDA kernel，在昇腾上编译成 CANN kernel。这个选择让算子迁移成本从"重写"降为"重新编译"。

MegaMoE2 融合内核。 自研的 MoE 通信计算重叠方案，专门解决了国产硬件环境下 All-to-All 通信的瓶颈问题。传统的 MoE 并行依赖 NCCL（英伟达的通信库）的高效带宽，而在国产硬件上，通信库的成熟度远不如 NCCL。MegaMoE2 通过计算-通信重叠设计，把通信开销隐藏在了计算过程中。

这三个设计，一个都不"性感"，但它们的工程价值巨大：让模型从底层架构上就具备跨平台运行的能力，而不是依赖某一家厂商的硬件特性。

2.3 Day 0 适配的产业意义

Day 0 适配，指大模型上线当天，算力平台已完成全链路兼容性验证、性能优化与稳定性测试，开发者当天即可下载、部署、使用。

在 DeepSeek V4 之前，能做到 Day 0 适配的只有英伟达——因为大多数模型本身就是基于 CUDA 开发的，适配工作可以提前完成。而国产芯片需要英伟达版本的代码发布后，才能开始适配。

V4 的 Day 0 适配之所以成为可能，有两个关键因素：

第一，DeepSeek 从研发阶段就与国产芯片厂商建立了提前协作机制。他们开放了模型底层接口和量化相关细节，帮助芯片厂商提前开始算子开发和精度对齐。这种"模型还没发布，适配已经开始"的模式，在开源大模型生态中是第一次。

第二，FlagOS 开源软件栈的桥梁作用。这是北京智源人工智能研究院研发的公共基础层，相当于国产 AI 芯片生态的"操作系统"。FlagOS 提前完成了 DeepSeek V4 的算子兼容、张量并行策略和混合精度转换等核心工作，各家芯片厂商在 FlagOS 基础上做增量适配即可，不需要从零做起。

2.4 FlagOS：国产 AI 芯片的"隐形基础设施"

FlagOS 在 DeepSeek V4 国产适配中扮演的角色容易被低估，但它的重要性不亚于任何一家芯片厂商的工程团队。

FlagOS 团队在 V4 发布前就做了三件关键工作：

算子兼容性分析。 FlagOS 对 V4 的全量算子做了系统扫描——V4 使用了 CSA（压缩稀疏注意力）、HCA（混合块状注意力）、SwiGLU（门控激活函数）、RMSNorm、RoPE（旋转位置编码）等多种算子组合。FlagOS 团队逐一确认了这些算子在每个国产芯片平台上的兼容情况，对于不支持的算子提前开发了替代实现。

张量并行策略设计。 V4 的 MoE 架构在分布式推理时需要精心的张量划分策略——每个 expert 分配多少卡、路由网络放在哪里、All-to-All 通信如何调度。FlagOS 提供了一个通用的并行策略模板，各家芯片厂商可以根据自身硬件的显存和带宽特性做微调，而不需要从零设计并行方案。

混合精度路径转换。 V4 的 FP4 权重需要转换为各芯片原生支持的精度格式。FlagOS 开发了一个"精度路径规划器"，能够自动推荐从 FP4 到目标格式（BF16/INT8/FP16）的最优转换路径，并自动插入必要的校准步骤。

有了 FlagOS 这个公共基础层，八家芯片厂商的适配工作大幅简化——不需要每家都从头分析算子兼容性，也不需要每家都重新发明并行策略。据估计，FlagOS 的存在让每家厂商的适配工作量减少了 60-70%。

这也意味着，如果未来有其他大模型想要实现多芯片适配，FlagOS 是值得认真考虑的技术路径。它本质上是一个"一次适配、多芯片运行"的基础设施。

三、华为昇腾 NPU 适配

3.1 适配概况

华为昇腾是 DeepSeek V4 国产适配中覆盖最广、技术纵深最深的一家。

适配芯片型号：昇腾 950PR、昇腾 A2、昇腾 A3、昇腾超节点
适配模型版本：V4-Pro（1.6T 参数）和 V4-Flash（284B 参数）双版本
适配范围：推理 + 训练（V4-Flash 部分训练在昇腾平台完成）
开箱方案：8 卡单机或 16 卡双机一体机，32~1024 卡平滑扩展的超节点方案

华为在 4 月 24 日的公告中明确指出："升腾超节点全系列产品已全面支持 DeepSeek V4 系列模型。"这句话的份量在于，它意味着国产芯片第一次进入了万亿参数大模型的训练环节。

3.2 技术优化要点

华为在适配 DeepSeek V4 时，针对 MoE 架构和长上下文推理做了几项关键优化：

融合 Kernel 降低访存开销。 DeepSeek V4 的核心计算瓶颈不在算力，而在显存带宽——1M token 上下文的 KV Cache 非常庞大，即使经过 CSA 压缩依然占用可观。华为通过融合 kernel 技术，把多个连续的算子合并成单个计算核，减少了中间结果的显存读写。具体来说，Attention 计算中的多个矩阵乘法被融合为一个 kernel，访存次数减少 40-60%。

多流并行掩盖通信延迟。 MoE 模型推理时需要做 All-to-All 通信（把 token 分发给对应的专家）。在英伟达设备上，NCCL 的高带宽可以快速完成这一操作。但在昇腾平台上，通信库的带宽不如 NCCL。华为用多流并行技术，让计算流和通信流并行执行：在一部分专家计算的同时，预加载下一批 token 的通信，把通信延迟隐藏在计算中。

多种量化算法组合应用。 V4 的 FP4 权重本身是量化状态，但华为在推理框架中叠加了额外的量化优化：INT8 动态量化用于 Attention 部分，FP4 保持用于 MoE 权重，BF16 保持用于路由网络。这种混合精度策略在精度损失 <0.5% 的前提下，将推理吞吐提升了 30-50%。

CANN Next 异构兼容。 华为的异构计算架构 CANN Next 增加了对 CUDA 代码的兼容层，使得基于 CUDA 开发的部分推理框架可以在昇腾上直接运行。这不是翻译层，而是 API 级别的适配，减少了开发者迁移的工作量。

3.3 性能数据

根据 DeepSeek 官方技术报告和华为公布的数据，昇腾平台的性能表现如下：

对比项	英伟达 H800	昇腾 950PR	昇腾 A3
单卡 FP8 算力	1,979 TFLOPS	~750 TFLOPS	~400 TFLOPS
HBM 带宽	3.35 TB/s	2.0 TB/s	1.6 TB/s
V4-Flash 推理吞吐（相对于 H800）	1.0x base	0.65x ~ 0.72x	0.45x ~ 0.50x
V4-Pro 推理吞吐（相对于 H800）	1.0x base	0.58x ~ 0.65x	0.35x ~ 0.42x
FP4 量化推理效率	100%	~92%	~88%
大 Batch 下推理效率	100%	~85%	~75%

需要说明的是，虽然单卡算力有差距，但昇腾 950PR 在集群规模上做了补偿。华为 Atalas 950 超节点最大支持 8192 卡高速互联，在大规模部署场景下，集群的整体效率可以接近 H800 集群的 75-80%。

更关键的是 性价比。昇腾 950PR 的单卡价格约为 H800 的 40-50%，考虑到性能差距后，同成本下的计算产出实际更高——这也是为何阿里巴巴、字节跳动、腾讯在 V4 发布后迅速下单了数十万片昇腾 950 芯片。

3.4 训练层面的适配

V4-Flash 的部分训练在昇腾平台上完成，这是国产芯片首次参与万亿参数模型的训练。两个关键优化：

细粒度专家并行（Fine-grained EP）。 DeepSeek 的专家并行方案把每个 MoE 层的专家均匀分布到不同的 NPU 上，并在每个 NPU 内部做进一步的任务级拆分。昇腾平台上的 EP 方案实现了计算-通信重叠率约 85%，单步训练时间相比纯 NCCL 方案缩短了 12-18%。

FP4 BF16 混合精度训练。 V4 在训练中使用了 FP4（专家权重）+ BF16（路由网络、LayerNorm）的混合精度方案。昇腾平台原生支持 FP4 计算，不需要额外的精度转换步骤，这是昇腾相比其他国产芯片的优势之一。

根据东吴证券 2026 年 4 月的研报分析，DeepSeek V4-Flash 是"首个公开说明训练侧使用国产算力的通用大模型"，认为"无论性能表现如何，战略意义均十分重要"。

四、寒武纪 vLLM 集成

4.1 适配方案

寒武纪的适配方案以 vLLM 推理框架为核心，走了一条"基于开源、回馈开源"的路线：

适配芯片：思元 590（MLU590）
适配框架：vLLM + Cambricon 后端
适配范围：V4-Pro 和 V4-Flash 的推理
开源状态：全部适配代码已开源至 GitHub 社区

寒武纪没有选择自研推理框架，而是在 vLLM 生态内做适配——这意味着任何使用 vLLM 的开发者，只要安装了 Cambricon 后端插件，就可以直接部署 V4。这也是对开发者最友好的方式。

4.2 技术实现

寒武纪的适配关键在于 Cambricon Neuware 软件栈与 V4 架构的深度对齐：

算子层面的适配。 V4 的 CSA（压缩稀疏注意力）是自研算子，寒武纪需要在 Neuware 上重新实现该算子的 kernel。技术报告中提到的优化包括：利用思元 590 的大容量 SRAM（48MB）缓存 Attention 计算的中间结果，减少对 HBM 的反复读取。

张量并行支持。 V4-Pro 的 49B 激活参数需要多卡才能跑起来。寒武纪在 vLLM 中实现了针对思元 590 的张量并行策略，支持 2-8 卡并行推理，并通过优化 All-reduce 通信（使用自家 CNCL 通信库）减少跨卡通信开销。

量化对齐。 V4 的 FP4 权重在寒武纪平台上通过"FP4 到 BF16 实时反量化 + BF16 计算"的方式实现。寒武纪的 MLU 架构原生不支持 FP4 计算，需要在模型加载时做精度转换。这带来了约 15% 的额外开销，但保证了精度无损失。

4.3 适配效率

寒武纪能在 Day 0 完成适配，得益于两个提前布局：

第一，FlagOS 的中间层。FlagOS 为 DeepSeek V4 提前做了算子兼容性分析和张量并行策略设计，寒武纪在 FlagOS 基础上只做后端适配，将工作量从"从零适配"降为"增量开发"。

第二，与 DeepSeek 的提前技术对接。寒武纪在 V4 研发阶段就获得了 FP4 权重的格式规范和 MoE 路由逻辑的接口文档，可以提前开发算子。据公开报道，寒武纪的适配团队在大模型正式发布前 2-3 周就开始了实际编码工作。

五、海光 DCU 适配

5.1 适配概况

海光信息的适配方案主打"产业落地"，侧重企业级部署的可靠性：

适配芯片：海光 DCU（深算系列）
适配范围：V4-Pro 和 V4-Flash 的推理
适配目标：形成"模型发布—芯片适配—产业落地"的完整闭环
方案特色：即取即用的部署方案，面向企业用户

海光 DCU（Deep Computing Unit）基于 x86 生态，兼容性较好。它的优势在于海光 CPU + DCU 的组合方案在信创市场有深厚积累，适合政务、金融等国产化要求高的行业。

5.2 技术特点

海光的适配策略和华为、寒武纪有所不同。海光在公告中提到的重点是"深度调优"和"产业落地"，而不是技术指标的突破。这意味着海光更关注在已有硬件上跑出稳定、可靠的结果，而非追求极致的性能指标。

海光 DCU 的优势：

x86 兼容性：海光 CPU 兼容 x86 指令集，不需要额外适配操作系统和软件栈。这对企业客户来说降低了集成风险。
成熟的供应链：海光 DCU 已经在多个行业完成量产部署，供应稳定。
FP64/FP32 精度优势：海光 DCU 在双精度/单精度计算上有较强表现，适合需要高精度的推理场景。

性能方面，海光 DCU 的单卡推理吞吐约为 H800 的 40-50%，但在双卡或四卡并行的情况下，线性扩展效率较好（>90%），多卡场景下实际吞吐可达 H800 的 35-45%。

六、其他五家国产芯片适配

6.1 摩尔线程

摩尔线程的适配基于旗舰级 AI 训推一体智算卡 MTT S5000，联合北京智源研究院，通过 FlagOS 全栈软件体系完成了推理适配。

适配芯片：MTT S5000
适配框架：FlagOS 全栈 + 魔搭社区镜像
适配范围：V4-Pro 和 V4-Flash 的推理
方案特色：覆盖云端到边缘的多种部署形态

摩尔线程在魔搭社区同步发布了 Pro 和 Flash 两个版本的容器镜像，开发者可以一键拉起推理服务。MTT S5000 主打中端推理市场，单卡性价比在国产芯片中表现不错，适合中小规模的推理部署场景。

6.2 沐曦股份

沐曦走了一条"联合研发"的路线：联合智源研究院 FlagOS 开源软件栈，携手上海人工智能实验室 KernelSwift 智能算子迁移系统，完成了 DeepSeek V4-Flash 的全量适配。

沐曦的技术路线强调 可迁移性和生态协同。KernelSwift 是一个智能算子迁移工具，可以自动将 CUDA 算子翻译为目标芯片的原生算子，大幅降低了迁移门槛。沐曦希望通过这个工具链，让后续的大模型适配不再需要大量人工介入。

沐曦的 GPU 架构在性能上对标英伟达的中端产品，目前主要面向数据中心推理市场。由于起步较晚，软件生态的成熟度还有待提升，但 KernelSwift 的思路——用自动化工具降低适配成本——值得关注。

6.3 百度昆仑芯

百度昆仑芯完成了 DeepSeek V4-Flash 的模型兼容性验证与部署链路打通。方案特色：

开箱即用：支持 V4-Flash 模型直接部署
量产优化：面向批量部署场景做了专项优化
百度生态集成：与百度的 PaddlePaddle/PaddleInference 深度对接

昆仑芯的优势在于与百度 AI 生态的深度绑定。如果团队已经在使用百度的 AI 工具链（PaddlePaddle、Baidu Cloud），昆仑芯的集成方案会非常顺滑。但如果你是 PyTorch/vLLM 生态的用户，昆仑芯的适配方案可能不如寒武纪或昇腾那样"原生"。

6.4 阿里平头哥

阿里平头哥（真武芯片）的适配方案包含三项关键技术突破：

FlagGems 全算子替代。 平头哥基于 FlagOS 的 FlagGems 库，实现了对 DeepSeek V4 全部算子的原生支持，不依赖任何 CUDA 兼容层。这意味着推理性能和稳定性更高。

独立张量并行策略。 平头哥根据真武芯片的互联拓扑结构，设计了自己的张量并行策略，在多卡场景下达到了超过 90% 的线性扩展效率。

FP4 到 BF16 精度路径转换。 真武芯片原生支持 BF16 计算，但不直接支持 FP4 加载。平头哥开发了 FP4 到 BF16 的专用转换路径，在保持精度的前提下将转换速度提升了约 40%。

三项技术叠加，使 V4-Flash 在真武芯片上的推理效率达到了可接受水平。对于已经在阿里云上部署业务的团队，平头哥方案具有天然的平台集成优势。

6.5 天数智芯

天数智芯是八家 Day 0 适配厂商中最为低调的一家。他们完成了 V4-Flash 模型的全量算子适配与推理部署验证，适配方案相对标准，没有太多额外亮点。

天数智芯的 GPU 产品主要面向政务和教育市场，在通用 AI 推理领域的市场占有率还不高。其 Day 0 适配更多是"不掉队"的战略动作，确保现有客户在 DeepSeek V4 上机的第一时间就能使用。

6.6 八家适配方案一览

芯片厂商	芯片型号	适配范围	框架选择	方案特色
华为昇腾	950PR / A2 / A3	训练 + 推理	CANN + 自研	深度最深，性能最优
寒武纪	思元 590	推理	vLLM	开源友好，开发者首选
海光信息	DCU 深算系列	推理	自研 + 调优	x86 生态，信创适配
摩尔线程	MTT S5000	推理	FlagOS + 魔搭镜像	部署友好，容器化方案
沐曦股份	MXN 系列	推理（Flash）	KernelSwift + FlagOS	自动化迁移，可扩展性强
百度昆仑芯	昆仑芯 P800	推理（Flash）	PaddleInference	百度生态集成
阿里平头哥	真武	推理（Flash）	FlagGems	阿里云集成，性能优化深
天数智芯	BI106	推理（Flash）	自研	中规中矩，不掉队

七、异构部署方案

7.1 为什么需要异构

现实情况是：大多数中国 AI 公司手里既有英伟达 GPU（存量），也有国产芯片（增量）。完全弃用英伟达是不现实的，全面拥抱国产芯片也需要过渡期。

异构部署的核心逻辑是：让合适的任务跑在合适的芯片上。具体来说：

训练侧：英伟达 GPU 的成熟生态（CUDA + NCCL + TensorRT）在训练场景下仍有优势，尤其是需要大规模分布式训练的任务
推理侧：国产芯片在推理场景下的性价比越来越高，尤其是昇腾 950 的价格仅为 H800 的 40-50%，适合成本敏感的推理部署
混合架构：训练在英伟达 + 推理在昇腾，是目前最主流的异构方案

7.2 英伟达训练 + 昇腾推理

这是 DeepSeek V4 最推荐的异构方案。具体架构：

训练阶段 (英伟达) → 模型导出 → 精度对齐 → 推理阶段 (昇腾)
     │                                       │
     ├─ 2048 × H800                          ├─ N × 昇腾 950PR
     ├─ CUDA + NCCL                          ├─ CANN + MegEngine
     ├─ FP8 + BF16 混合精度                   ├─ FP4 + BF16 混合精度
     └─ DeepSeek 训练框架                     └─ vLLM / TGIS 推理框架

精度对齐是异构方案的关键环节。训练阶段使用的 FP8/BF16 混合精度和推理阶段使用的 FP4/BF16 混合精度之间存在精度偏差。DeepSeek 的方法是在训练结束后，对模型权重做一次从训练精度到推理精度的"量化迁移"，并使用一小部分验证数据校准输出分布。

华为在这个环节提供了精度对齐工具链，可以在 1-2 天内完成整个 V4 模型的精度对齐验证。工具链会自动检测输出偏差超过阈值的层，并提供针对性优化建议。

7.3 全国产方案

对于完全不能使用英伟达 GPU 的场景（信创、涉密等），全国产方案也已经可行：

阶段	推荐方案	所需硬件	可行性
训练 (Flash)	昇腾 950PR 超节点	64-512 卡	已验证
训练 (Pro)	昇腾 950PR 超节点	512-4096 卡	理论可行
推理 (Flash)	昇腾 950PR / 寒武纪思元 590	1-8 卡	已验证
推理 (Pro)	昇腾 950PR / 海光 DCU	4-16 卡	已验证
推理 (轻量)	摩尔线程 MTT S5000	1-4 卡	已验证

需要注意的是，全国产方案在训练阶段仍需验证。DeepSeek V4-Flash 使用昇腾完成了部分训练，但全部训练在国产芯片上跑通还需要更多工程验证。推理方面则已经成熟——八家国产芯片厂商都在 Day 0 完成了推理适配。

7.4 异构部署的成本对比

以单次 10M token 推理（约等于处理一本中等长度的书）为例：

方案	所需硬件	推理成本（美元）	相比纯 H800 方案
纯 H800	2× H800	~$0.40（算力折旧）	1.0x（基准）
纯昇腾 950	3× 950PR	~$0.22（算力折旧）	0.55x
纯寒武纪 590	4× MLU590	~$0.18（算力折旧）	0.45x
H800 训练 + 昇腾推理	1× H800 + 2× 950PR	~$0.18（训练分摊 ~$0.05 + 推理 $0.13）	0.45x

注意，这里的成本是算力折旧而非电费。昇腾 950 的采购成本约为 H800 的 45-50%，虽然推理吞吐上有差距（0.58x-0.72x），但综合性价比仍然优于纯 H800 方案。

八、性能对比

8.1 推理吞吐对比

以下是在 Flash 版本（13B 激活参数）上的推理吞吐对比。测试条件：Batch Size = 32，输入长度 2048 tokens，输出长度 512 tokens，FP4 精度。

芯片	单卡吞吐 (tokens/s)	相对 H800 性能	多卡扩展效率 (4卡)	功耗 (W)
英伟达 H800	1,850	1.0x (基准)	95%	700
英伟达 H20	420	0.23x	92%	400
昇腾 950PR	1,280	0.69x	90%	650
昇腾 A3	850	0.46x	88%	450
寒武纪思元 590	720	0.39x	87%	550
海光 DCU	680	0.37x	92%	500

注：H800 数据来自 DeepSeek V3.2 的公开测评，国产芯片数据来自各厂商自测报告。实际性能随部署环境、Batch Size 等参数变化。

8.2 推理延迟对比

延迟是大模型推理的另一个关键指标。以下为 Flash 版本在不同 Batch Size 下首 token 延迟和平均每 token 延迟的对比。

首 token 延迟（TTFT，Time to First Token）：输入长度 2048 tokens，输出首 token 的计算延迟。

芯片	Batch=1 TTFT	Batch=16 TTFT	Batch=32 TTFT	每 token 延迟 (Batch=32)
英伟达 H800	185ms	320ms	580ms	28ms
昇腾 950PR	240ms	450ms	820ms	39ms
寒武纪思元 590	310ms	580ms	1,050ms	56ms
海光 DCU	290ms	550ms	980ms	52ms

低延迟场景（如对话、代码补全）下，昇腾 950PR 和 H800 的差距最明显。这是因为首 token 计算的瓶颈在算力而非显存带宽，而昇腾的单卡算力约为 H800 的 38%。对于流式输出场景（多轮对话），每 token 延迟的差距更小，昇腾 950PR 约为 H800 的 72%。

8.3 Pro 版本对比

Pro 版本（49B 激活参数）对显存和算力的要求更高：

芯片	单卡推理 (tokens/s)	最小推理卡数	推荐配置	相对 H800 吞吐/卡
英伟达 H800 80G	480	2	4× H800	1.0x (基准)
昇腾 950PR 96G	310	3	8× 950PR	0.65x
寒武纪思元 590 64G	210	4	8× MLU590	0.44x
海光 DCU 64G	190	4	8× DCU	0.40x

Pro 版本的适配门槛明显更高。49B 激活参数在 FP4 精度下需要约 25GB 显存（加上 KV Cache 和中间激活），单卡 80G 以上的 H800 也要 2 张才能跑，国产芯片至少需要 3-4 张。

8.4 性价比模型

除了绝对性能，性价比（每元获得的 tokens/s）是评估芯片的重要维度。

以 Flash 版本推理为例，假设服务器使用 3 年（26,280 小时），电费按 $0.10/kWh 计算：

芯片	4卡方案总成本（含服务器）	4卡推理吞吐	每百万 token 推理成本	性价比指数
英伟达 H800	~$200,000（3年）	7,030 tokens/s	~$0.031	1.0x（基准）
昇腾 950PR	~$110,000（3年）	4,608 tokens/s	~$0.026	1.19x
寒武纪思元 590	~$80,000（3年）	2,506 tokens/s	~$0.035	0.89x
海光 DCU	~$85,000（3年）	2,502 tokens/s	~$0.037	0.84x

算上能耗后，昇腾 950PR 的综合性价比反超了 H800——虽然绝对性能低 34%，但总持有成本低了 45%，最终每百万 token 的推理成本反而更低。

性价比差距会在更大规模部署时进一步拉大：10 卡昇腾 950PR 集群的总持有成本约为 6 卡 H800 集群的 60%，而推理吞吐能达到后者的 80% 以上。对于月均推理量超过 10 亿 token 的中大规模部署来说，选择昇腾方案每年可节省数十万美元。

8.5 不同场景的芯片推荐

场景	推荐芯片	推荐原因
个人开发调试（Flash 推理）	昇腾 A3 / 寒武纪思元 590	单卡即可运行，价格适中
小团队推理部署（Flash）	昇腾 950PR / 海光 DCU	性价比较高，供应稳定
企业级推理服务（Flash + Pro）	昇腾 950PR 超节点	8-64 卡扩展，单卡推理吞吐最高
政务/信创部署	海光 DCU + 海光 CPU	x86 兼容性好，信创生态成熟
训练 + 推理全链路	昇腾 950PR 超节点（64卡以上）	唯一通过训练验证的国产方案
成本敏感型推理	寒武纪思元 590	单卡成本低，vLLM 生态友好

九、国产 AI 芯片市场展望

9.1 当前格局

DeepSeek V4 的发布，是一个历史性的加速器。多家券商研报在 V4 发布后上调了国产算力的预期：

指标	2024 年	2025 年	2026 年（V4 发布后预期）
国产 AI 芯片市占率（训练）	~5%	~10%	~20%
国产 AI 芯片市占率（推理）	~15%	~25%	~35%
综合国产化率	~10%	~15%	~30-40%
华为昇腾出货量（万片/年）	~10	~30	~75（950PR 计划）
国产 AI 芯片总投资（亿元）	~200	~400	~800

华为昇腾 950PR 在 2025 年 Q4 实现商用化，2026 年 4 月开始进入批量出货阶段，全年计划出货约 75 万片。阿里巴巴、字节跳动、腾讯在 V4 发布后已经下单了数十万片昇腾 950 芯片。

9.2 未来趋势（2026-2030）

国产化率持续提升。 多个券商预测，2026 年国产 AI 芯片的综合国产化率在 30-40%，到 2030 年有望达到 60-70%。驱动因素有三个：

英伟达供应持续受限。H20 虽然可以合法出口，但算力仅为 H100 的 15%，且随着管制力度加大，随时可能被进一步限制。
国产芯片性能快速追赶。昇腾 950PR 在推理场景下已达到 H800 的 69%，下一代产品有望提升到 80-90%。
AI 模型趋向"国产芯片原生适配"。DeepSeek V4 开创了"模型适配国产芯片"的先河，后续的 Qwen、混元等模型很可能跟进。

产业链机会全面扩大。 国产 AI 芯片的崛起将带动整个产业链：

芯片设计：华为昇腾、寒武纪、海光信息将是第一梯队
封装测试：华天科技、长电科技等受益于国产芯片产能爬坡
散热方案：液冷散热（华为超节点标配）需求爆发
光模块与互联：800G/1.6T 光模块需求随超节点扩展而增长
软件生态：FlagOS、CANN、CNCL 等国产基础软件从"能用"走向"好用"

9.3 真实部署案例

V4 发布后的国产芯片部署正在快速落地。以下是几个代表性案例：

阿里云：全栈昇腾推理。 阿里云在 V4 发布后立即启动了基于昇腾 950PR 的推理集群扩容，首批部署规模超过 1,000 卡，用于支撑其通义千问和云服务中的大模型推理任务。阿里云还计划将 V4-Flash 的推理成本在其平台上进一步降低 40-50%。

北京智源研究院：FlagOS 多芯片统一调度。 智源研究院基于 FlagOS 构建了一个跨芯片推理平台，可以在昇腾、寒武纪、海光、摩尔线程之间动态调度推理任务。当某类芯片负载过高时，自动将新请求路由到空闲芯片，实现了资源利用率的最大化。

金融行业信创项目：海光 DCU 全栈部署。 某国有大型银行在信创项目中采用了海光 CPU + DCU 的全栈方案，部署了 V4-Flash 用于智能客服和文档理解场景。银行方面反馈，整体部署周期约为 3 周，精度损失控制在 0.3% 以内，满足业务要求。

互联网创业公司：寒武纪 vLLM 低成本方案。 一家 AI 应用创业公司在 V4 发布后，将推理后端从 H800 迁移到寒武纪思元 590。通过 vLLM 的 Cambricon 后端，迁移过程仅耗时 2 天。迁移后的推理成本降低了约 55%，用户侧感知到的延迟增加了约 30%，但仍在可接受范围内。

9.4 英伟达的反击

英伟达显然不会坐视中国 AI 算力生态独立。黄仁勋在 2026 年初的表态已经透露了英伟达的策略：

继续争取中国市场。 H20 是一款"合规但不划算"的产品——算力阉割太多，但价格没有成比例降低。英伟达在推动美国政府放宽管制，争取开放更高算力的 GPU 出口。

CUDA 生态护城河。 英伟达最担心的是中国 AI 公司逐渐脱离 CUDA。一旦开发者习惯了在国产芯片上开发 AI 应用，CUDA 的生态优势就会慢慢瓦解。这也是为何黄仁勋会对"DeepSeek 跑在华为上"反应如此强烈。

但在短期内（2026-2028），英伟达的反击效果有限。 美国政府的出口管制政策短期内看不到放松的迹象，而国产芯片的适配进度比预期快得多。DeepSeek V4 的 Day 0 适配是一个重要的"临界点"——从那以后，英伟达不再是国产 AI 大模型"唯一能跑"的硬件。

十、对开发者的影响

10.1 部署选型原则

对于正在做技术选型的开发者和团队，以下是基于当前市场格局的建议：

原则一：训练选英伟达，推理选国产。 这是目前性价比最高的策略。训练场景对 CUDA 生态的依赖最深（框架支持、调试工具、通信库），切换到国产芯片的成本较高。推理场景相对简单，国产芯片的性价比优势已经开始显现。

原则二：关注推理框架的芯片支持。 vLLM 已经明确支持寒武纪后端，SGLang 正在适配昇腾。选择推理框架时，优先选择有多芯片后端支持的框架——这样可以在不同芯片间灵活切换，不会被某一家锁死。

原则三：优先选择有 Day 0 适配经验的芯片厂商。 能够在大模型发布当天完成适配，说明该厂商的软件团队反应快、工程能力强。这在大模型迭代越来越快的环境下很重要。

原则四：不要忽视软件生态的成熟度。 芯片的硬件性能（TOPS、带宽）只是参考，配套的工具链、文档质量、社区活跃度同样关键。昇腾的 CANN 生态目前最成熟，社区资源最多；寒武纪的 vLLM 集成做得好，对开发者最友好。

10.2 成本优势

以部署一个 V4-Flash 推理服务为例：

方案	硬件配置	硬件总成本（万元）	可支持的并发用户数	单用户成本（元）
4× H800 80G	4 卡服务器	~320	50-100	32,000-64,000
4× 昇腾 950PR	4 卡服务器	~160	35-70	22,857-45,714
4× 寒武纪思元 590	4 卡服务器	~120	25-50	24,000-48,000
8× 昇腾 A3	8 卡服务器	~200	50-100	20,000-40,000

考虑性能差异后的"有效成本"：昇腾 950PR 虽然单卡吞吐只有 H800 的 69%，但价格只有 H800 的 50%，综合性价比高出 H800 约 38%。寒武纪思元 590 的性价比优势更明显，单卡成本低但性能差距较大，适合对延迟不敏感的场景。

10.3 迁移成本和注意事项

从英伟达 GPU 迁移到国产芯片，需要关注的几个问题：

算子兼容性。 不是所有 CUDA 算子都能直接在国产芯片上运行。DeepSeek V4 之所以迁移顺利，是因为从架构设计阶段就用了 TileLang。如果你的推理代码中包含了大量自定义 CUDA kernel，迁移工作量会大很多。

精度对齐。 FP4 到 BF16 的精度转换在不同芯片上的实现可能有差异。建议在迁移完成后，用一套标准的测试数据做输出对比，确保推理结果的误差在可接受范围内（通常要求 < 0.5%）。

通信库。 NCCL 在英伟达生态中是标准组件，但换成 CNCL（寒武纪）、HCCL（华为）后，通信效率会有差异。MoE 模型的 All-to-All 通信对通信库的依赖尤其大。如果遇到通信瓶颈，可以考虑 MegaMoE2 的计算-通信重叠方案。

监控和运维。 国产芯片的监控工具链还在完善中。NPU 的温度、功耗、利用率等指标的采集和告警，可能不如英伟达的 nvidia-smi + DCGM 成熟。建议在部署初期增加性能基准测试，持续跟踪。

10.4 实操指南：在国产芯片部署 V4-Flash

以下是一个简化的部署流程，以寒武纪思元 590 + vLLM 为例：

第一步：环境准备

bash

# 安装寒武纪驱动和 Neuware 软件栈
sudo dpkg -i cambricon-neuware_*.deb

# 确认设备状态
cnmon

# 安装 vLLM（Cambricon 后端集成版本）
pip install vllm[cambricon]

# 下载模型权重（支持 HuggingFace 和 ModelScope）
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash

第二步：启动推理服务

bash

# 单卡部署（适合个人开发和低并发场景）
python -m vllm.entrypoints.openai.api_server \
    --model ./DeepSeek-V4-Flash \
    --tensor-parallel-size 1 \
    --max-model-len 32768 \
    --dtype bfloat16 \
    --gpu-memory-utilization 0.90 \
    --port 8000

# 多卡部署（适合生产环境）
python -m vllm.entrypoints.openai.api_server \
    --model ./DeepSeek-V4-Flash \
    --tensor-parallel-size 4 \
    --max-model-len 8192 \
    --dtype bfloat16 \
    --gpu-memory-utilization 0.95 \
    --port 8000

第三步：验证推理结果

bash

# 使用标准测试数据验证精度
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "DeepSeek-V4-Flash",
        "messages": [{"role": "user", "content": "请计算：23 × 17 = ?"}],
        "max_tokens": 128
    }'

将输出结果与 H800 上相同输入的输出做对比，确认精度损失在可接受范围内。

对于昇腾平台，部署流程类似，仅需替换驱动和推理后端：

bash

# 华为昇腾环境
pip install torch_npu
pip install vllm[ascend]  # 或使用昇腾原生推理框架

# 启动服务
python -m vllm.entrypoints.openai.api_server \
    --model ./DeepSeek-V4-Flash \
    --tensor-parallel-size 4 \
    --max-model-len 32768 \
    --dtype bfloat16 \
    --device npu

对于海光 DCU，海光提供了自己的推理框架和预置镜像，企业用户可以直接拉取优化后的容器镜像使用。

十一、适配的技术挑战

国产芯片适配 DeepSeek V4 的过程并非一帆风顺。以下是八家厂商在适配过程中普遍遇到的共性问题：

11.1 MoE 通信瓶颈

MoE 模型的核心是 All-to-All 通信——每个 token 需要被路由到对应的 expert，然后专家计算的结果需要被收集回原位置。这个过程在英伟达生态中由 NCCL 高效完成，但在国产芯片上，通信库的成熟度和带宽都有限。

各家厂商的应对策略不同：

华为：用多流并行 + HCCL 优化，将通信延迟隐藏在计算中
寒武纪：在 CNCL 层针对 MoE 的通信模式做了专门优化，减少了握手次数
海光：采用更大的 Batch Size 降低通信频率，牺牲一定延迟换取吞吐

11.2 FP4 精度对齐

V4 的 FP4 权重是将 4-bit 值打包存储的。不同芯片对 FP4 的反量化方式不同——有的硬件支持原生 FP4 加载（如昇腾 950），有的需要先转成 BF16（如寒武纪思元 590）。

精度对齐的关键在于反量化公式的一致性：

FP4 值 → 解码为 E2M1 格式 (1-bit sign, 2-bit exponent, 1-bit mantissa)
     → 根据芯片特性调整缩放因子
     → 转换为目标格式 (BF16/INT8)

因为不同芯片的 FP4 解码器对特殊值（如 NaN、Inf 和零值）的处理方式有细微差异，同一个权重在不同芯片上反量化后的数值可能不完全相同。这会导致推理输出出现偏差。

解决方案是：在模型发布前，DeepSeek 和各芯片厂商共同确定了一套标准化的 FP4 解码规范，包括特殊值的处理方式、缩放因子的统一等。DeepSeek 技术报告中提到的"fine-grained EP scheme was validated on both Nvidia GPUs and Ascend NPU platforms"，背后就包含了这项标准化工作。

11.3 长上下文推理优化

V4 支持 1M token 上下文，这在大规模推理时带来了显存压力。即使经过 CSA 压缩，1M token 的 KV Cache 依然需要大量显存。

各家厂商的优化策略：

华为昇腾：利用融合 kernel 减少 Attention 计算的访存次数，同时在驱动层做了显存碎片整理的优化
寒武纪：在 vLLM 中使用了 Paged Attention 的变种，支持非连续显存分配，减少了显存碎片
海光 DCU：侧重于更激进的内存复用策略，在保证计算正确性的前提下减少了 KV Cache 的显存占用

11.4 算子下沉与驱动适配

DeepSeek V4 使用了一些非标准的算子组合（如 CSA 中的稀疏 Attention 模式、mHC 中的流形约束操作）。这些算子在硬件层面没有直接支持，需要厂商在驱动/算子库层实现。

对于华为昇腾这种有成熟 CANN 算子库的平台，大部分算子可以在软件栈层面实现，不需要修改硬件驱动。但对于软件生态尚不完善的平台（如沐曦、天数智芯），部分算子需要降级为通用计算（使用 opencl 或普通矩阵乘法模拟），性能损失较大。

这解释了为什么昇腾在性能测试中领先其他国产芯片——不是硬件差距（虽然也有），更多的是软件栈成熟度的差距。

小结

DeepSeek V4 在国产算力适配方面的成就，可以概括为四个关键点：

八家国产芯片厂商实现了 Day 0 适配，这是中国 AI 芯片生态第一次与英伟达 CUDA 生态站在同一条起跑线上。华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、百度昆仑芯、阿里平头哥、天数智芯在模型发布当天同步完成了全链路适配。
华为昇腾的适配深度最深——覆盖训练和推理两端，昇腾 950PR 参与了 V4-Flash 的部分训练。通过融合 kernel、多流并行和混合量化等技术，昇腾平台在推理场景下达到 H800 的 58%-72% 性能，而成本仅为 H800 的 40-50%。
寒武纪走开源路线——基于 vLLM 框架完成适配，全部适配代码开源至 GitHub。思元 590 在配合 vLLM 生态方面做得最好，适合对开发者友好度和灵活性有要求的团队。
异构部署已成为现实可行的方案——训练在英伟达、推理在昇腾的混合架构，综合成本比纯 H800 方案低 55% 以上。全国产方案（Flash 版本）在推理侧已经验证通过，训练侧仍在持续优化。

从产业视角看，DeepSeek V4 的国产适配是一个重要的临界点：它证明了中国 AI 大模型可以在国产芯片上生产运行，而不再局限于英伟达 GPU。这对中国企业来说意味着更大的供应链安全性，对开发者来说意味着更低成本的推理部署方案。

国产 AI 芯片的综合国产化率当前约 30-40%，预计到 2030 年将达到 60-70%。这个过程中，更低的算力成本、更丰富的芯片选择、更完善的国产软件生态，将共同推动中国 AI 产业从"可用"走向"好用"。

检验标准

[ ] 了解 DeepSeek V4 在国产算力适配中的三个关键设计转变（FP4 量化、TileLang 算子开发、MegaMoE2 融合内核），理解其与 V3 适配思路的区别
[ ] 掌握华为昇腾、寒武纪、海光三大国产芯片平台对 V4 的适配方案和各自优势，知道在什么场景下选择哪家芯片
[ ] 理解异构部署的核心逻辑（训练在英伟达、推理在国产芯片），能够对比不同方案的成本和性能
[ ] 了解当前国产 AI 芯片的市场格局和未来趋势，能够在实际项目中做出合理的国产芯片选型决策

← 上一篇：本地部署方案 | 下一篇：全球大模型全景对比 →

国产算力适配实战 ​

一、引言 ​

二、背景：为什么国产算力适配是必选项 ​

2.1 出口管制与算力围堵 ​

2.2 从 V3 到 V4：适配思路的转变 ​

2.3 Day 0 适配的产业意义 ​

2.4 FlagOS：国产 AI 芯片的"隐形基础设施" ​

三、华为昇腾 NPU 适配 ​

3.1 适配概况 ​

3.2 技术优化要点 ​

3.3 性能数据 ​

3.4 训练层面的适配 ​

四、寒武纪 vLLM 集成 ​

4.1 适配方案 ​

4.2 技术实现 ​

4.3 适配效率 ​

五、海光 DCU 适配 ​

5.1 适配概况 ​

5.2 技术特点 ​

六、其他五家国产芯片适配 ​

6.1 摩尔线程 ​

6.2 沐曦股份 ​

6.3 百度昆仑芯 ​

6.4 阿里平头哥 ​

6.5 天数智芯 ​

6.6 八家适配方案一览 ​

七、异构部署方案 ​

7.1 为什么需要异构 ​

7.2 英伟达训练 + 昇腾推理 ​

7.3 全国产方案 ​

7.4 异构部署的成本对比 ​

八、性能对比 ​

8.1 推理吞吐对比 ​

8.2 推理延迟对比 ​

8.3 Pro 版本对比 ​

8.4 性价比模型 ​

8.5 不同场景的芯片推荐 ​

九、国产 AI 芯片市场展望 ​

9.1 当前格局 ​

9.2 未来趋势（2026-2030） ​

9.3 真实部署案例 ​

9.4 英伟达的反击 ​

十、对开发者的影响 ​

10.1 部署选型原则 ​

10.2 成本优势 ​

10.3 迁移成本和注意事项 ​

10.4 实操指南：在国产芯片部署 V4-Flash ​

十一、适配的技术挑战 ​

11.1 MoE 通信瓶颈 ​

11.2 FP4 精度对齐 ​

11.3 长上下文推理优化 ​

11.4 算子下沉与驱动适配 ​

小结 ​

检验标准 ​

国产算力适配实战

一、引言

二、背景：为什么国产算力适配是必选项

2.1 出口管制与算力围堵

2.2 从 V3 到 V4：适配思路的转变

2.3 Day 0 适配的产业意义

2.4 FlagOS：国产 AI 芯片的"隐形基础设施"

三、华为昇腾 NPU 适配

3.1 适配概况

3.2 技术优化要点

3.3 性能数据

3.4 训练层面的适配

四、寒武纪 vLLM 集成

4.1 适配方案

4.2 技术实现

4.3 适配效率

五、海光 DCU 适配

5.1 适配概况

5.2 技术特点

六、其他五家国产芯片适配

6.1 摩尔线程

6.2 沐曦股份

6.3 百度昆仑芯

6.4 阿里平头哥

6.5 天数智芯

6.6 八家适配方案一览

七、异构部署方案

7.1 为什么需要异构

7.2 英伟达训练 + 昇腾推理

7.3 全国产方案

7.4 异构部署的成本对比

八、性能对比

8.1 推理吞吐对比

8.2 推理延迟对比

8.3 Pro 版本对比

8.4 性价比模型

8.5 不同场景的芯片推荐

九、国产 AI 芯片市场展望

9.1 当前格局

9.2 未来趋势（2026-2030）

9.3 真实部署案例

9.4 英伟达的反击

十、对开发者的影响

10.1 部署选型原则

10.2 成本优势

10.3 迁移成本和注意事项

10.4 实操指南：在国产芯片部署 V4-Flash

十一、适配的技术挑战

11.1 MoE 通信瓶颈

11.2 FP4 精度对齐

11.3 长上下文推理优化

11.4 算子下沉与驱动适配

小结

检验标准