Skip to content

定价经济学与成本优化

把 GPT-5 的价格打下来 95% — DeepSeek 定价策略背后的工程与商业逻辑 | 预计阅读时间:20 分钟


一、引言

DeepSeek V4 发布后,媒体讨论最多的是什么?不是 1.6T 参数,不是 MIT 开源协议,甚至不是 Agent 能力——而是价格。

V4-Flash 每百万 token 输出仅 0.28 美元。作为对比,Claude Opus 4.7 是 25 美元,GPT-5.5 是 30 美元。Flash 的价格不到 Opus 的 1/89。

这不是价格战意义上的"便宜一点",而是数量级层面的碾压。如果用 V4-Flash 代替 GPT-5.5 处理同样的任务,成本直接从 35 美元降到 0.42 美元——降幅 98.8%。

更惊人的是缓存命中价格:V4-Flash 的缓存命中输入仅 0.028 美元每百万 token,比一杯奶茶还便宜的价格足够处理整本《三体》。V4-Pro 的缓存命中输入为 0.145 美元,加上输出也只有 3.625 美元——相当于 GPT-5.5 的十分之一。

价格是 V4 最具颠覆性的武器。 性能接近闭源旗舰是"锦上添花",价格打到同行脚踝才是"雪中送炭"。对于独立开发者、中小团队和成本敏感型企业来说,V4 的定价策略直接改变了"用不用得起大模型"这个问题的答案。

本文从五个维度拆解 V4 的定价经济学:

  1. 定价体系——Pro / Flash / 缓存命中的完整价格表
  2. 竞品横评——对比 GPT-5 / Claude / Gemini / Qwen / GLM 的真实成本
  3. 成本优势来源——为什么 V4 能卖这么便宜
  4. 缓存定价策略——怎么用缓存把成本打骨折
  5. 未来价格预期——昇腾 950 超节点上市后还会降多少

还有三个典型场景的真金白银测算,帮你算清楚自己的账单。


二、V4 定价体系

2.1 标准价格

V4 的定价分两个版本,差异非常显著:

模型输入 ($/1M tokens)输出 ($/1M tokens)均价 (1:1 输入输出)
V4-Pro$1.74$3.48$5.22
V4-Flash$0.14$0.28$0.42

Pro 版本的价格大约是 Flash 的 12-13 倍。这个价差反映了两个版本的目标定位:Pro 面向需要最强能力的高性能任务,Flash 面向成本敏感的大规模生产场景。

2.2 缓存命中价格

2026 年 4 月 26 日,DeepSeek 发布了一次重磅调价——将全系 API 的输入缓存命中价格降至原价的十分之一。

模型缓存未命中输入缓存命中输入输出缓存命中总价 (1:1)节省幅度
V4-Pro$1.74$0.145$3.48$3.625-31%
V4-Flash$0.14$0.028$0.28$0.308-27%

缓存命中意味着用户请求中的前缀(比如系统提示词、对话历史)和前一次请求重复时,重复部分按缓存价收费。这个策略对两类场景影响巨大:一是长上下文对话(每次请求携带大量历史),二是统一系统提示词的批量 API 调用。

2.3 限时折扣与低谷优惠

除了标准价格,V4 还有两套叠加优惠:

首发 2.5 折优惠(Pro 专属):V4 上线初期推出 75% off 折扣,Pro 模型的输入降至 $0.435(缓存未命中),缓存命中输入降至 $0.03625。原定 5 月 5 日截止,后延至 5 月 31 日。折扣期的实际价格远低于标价:

模型折扣后输入 (缓存未命中)折扣后输入 (缓存命中)折扣后输出
V4-Pro (75% off)$0.435$0.03625$3.48
GPT-5.5 (无折扣)$5.00$0.25$30.00

折扣期的 Pro 输入价格甚至比 GPT-5.5 的缓存命中价还便宜。

低谷时段折扣:DeepSeek 延续了 V3 时代的低谷优惠——北京时间晚上 11 点到早上 7 点,API 调用享受 50% off。这个折扣在夜间的非高峰时段进一步拉低了成本,适合安排批量处理任务在低谷时段执行。

2.4 中国区人民币定价

在国内市场,DeepSeek 以人民币计价,价格更具冲击力:

模型输入 (缓存未命中)输入 (缓存命中)输出备注
V4-Flash1 元 / M tokens0.02 元 / M tokens2 元 / M tokens
V4-Pro3 元 / M tokens0.025 元 / M tokens6 元 / M tokens折扣后价格

V4-Flash 的缓存命中输入价格是 0.02 元每百万 tokens——两分钱。这是中国大模型市场有史以来的最低官方标价之一。用这个价格处理一篇《三体》的全本 token 量(约 400 万 tokens),缓存命中场景下只需要 8 分钱。

2.5 价格与竞品的对比概览

先给一张全景图,后面第三节逐项拆解:

维度V4-FlashV4-ProGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
输入$0.14$1.74$5.00$5.00$2.00
输出$0.28$3.48$30.00$25.00$12.00
缓存输入$0.028$0.145$0.25$0.50
1M输入+1M输出$0.42$5.22$35.00$30.00$14.00
对比 V4-Pro 倍数1x1x6.7x5.7x2.7x
对比 V4-Flash 倍数1x12.4x83x71x33x

V4-Flash 的降价幅度已经不是"性价比",而是结构性价格差异——同任务的成本仅为 GPT-5.5 的 1/83。


三、竞品价格横评

这一节把 2026 年主流模型的价格放在一起对比,不只是看标价,还要算真实场景下的实际成本。

3.1 旗舰模型完整价格表

厂商模型输入 ($/1M)输出 ($/1M)缓存输入 ($/1M)上下文
DeepSeekV4-Pro$1.74$3.48$0.1451M
DeepSeekV4-Flash$0.14$0.28$0.0281M
OpenAIGPT-5.5$5.00$30.00$0.251M
OpenAIGPT-5.4$2.50$15.00$0.25400K
AnthropicClaude Opus 4.7$5.00$25.00$0.501M
AnthropicClaude Sonnet 4.6$3.00$15.00$0.301M
AnthropicClaude Haiku 4.5$1.00$5.00$0.101M
GoogleGemini 3.1 Pro$2.00$12.001M
GoogleGemini 3 Flash$0.50$3.001M
xAIGrok 4.1 Fast$0.20$0.50
MiniMaxM2.7$0.30$1.20
MoonshotKimi K2.5$0.60$3.00
Z.aiGLM-5.1$1.40$4.40
Z.aiGLM-5$1.00$3.20
AlibabaQwen3-Max$1.20$6.00

(数据来源:各厂商官方定价页面 / TokenMix.ai 数据库,2026 年 4 月)

3.2 与 GPT-5 的价格对比

V4-Pro vs GPT-5.5 是最直观的对比:

  • 输入价格:V4-Pro $1.74 vs GPT-5.5 $5.00 —— V4 便宜 65%
  • 输出价格:V4-Pro $3.48 vs GPT-5.5 $30.00 —— V4 便宜 88%
  • 综合成本:1M 输入 + 1M 输出,V4-Pro $5.22 vs GPT-5.5 $35.00 —— V4 便宜 85%
  • 缓存场景:V4-Pro 缓存命中输入 $0.145 vs GPT-5.5 $0.25 —— V4 便宜 42%

注意 GPT-5.5 输出价格是输入的 6 倍,而 V4-Pro 输出仅为输入的 2 倍。这个价格结构差异意味着:输出密集场景下 V4 的性价比优势更大。 如果任务是长文本生成或复杂推理(输出 token > 输入 token),用 V4-Pro 相比 GPT-5.5 可以省下 85%-90% 的成本。

3.3 与 Claude Opus 的价格对比

  • 输入价格:V4-Pro $1.74 vs Opus 4.7 $5.00 —— V4 便宜 65%
  • 输出价格:V4-Pro $3.48 vs Opus 4.7 $25.00 —— V4 便宜 86%
  • 一句话总结:V4-Pro 的 1M 输出消费,在 Opus 上只能获得约 140K 输出

V4-Flash vs Claude Opus 4.7 的对比几乎是"嘲笑级"的:

  • V4-Flash 输入 $0.14 vs Opus 4.7 $5.00 —— Flash 是 Opus 的 1/36
  • V4-Flash 输出 $0.28 vs Opus 4.7 $25.00 —— Flash 是 Opus 的 1/89
  • V4-Flash 缓存命中输入 $0.028 vs Opus 4.7 $0.50 —— Flash 是 Opus 的 1/18

Flash 的价格已经不是 Flash 对 Opus——它是 GPT-5.5 价格的 1/100。

3.4 与国产竞品的价格对比

V4 的性价比优势不只针对海外竞品,在国产模型阵营中同样显著:

模型输入 ($/1M)输出 ($/1M)V4-Pro 性价比倍率 (输出端)
V4-Pro (折扣价)$0.435$3.481x (基准)
V4-Pro (标准价)$1.74$3.481x
V4-Flash$0.14$0.2812.4x
GLM-5.1$1.40$4.400.79x (比 V4-Pro 贵 21%)
GLM-5$1.00$3.201.09x (接近)
Qwen3-Max$1.20$6.000.58x (比 V4-Pro 贵 72%)
Kimi K2.5$0.60$3.001.16x
MiniMax M2.7$0.30$1.202.9x (Flash 级别)

(倍率 = 竞品输出价 / V4-Pro 输出价,大于 1 表示 V4-Pro 更便宜)

V4-Pro 即使在标准价下,输出价格也低于几乎所有国产竞品。折扣期更是断崖式领先。

3.5 价格-性能综合性价比

光看价格不够,还要考虑性能。用最简单的性价比衡量——每美元获得多少基准分数:

模型输出价格 ($/1M)SWE-Bench Verified性价比 (分/美元)
V4-Flash$0.28约 45%160
V4-Pro$3.48约 58%16.7
GPT-5.5$30.00约 60%2.0
Claude Opus 4.7$25.00约 61%2.4

V4-Flash 的 SWE-Bench 得分虽然只有 Pro 的 78%,但价格只有 Pro 的 8%。每美元获得的"能力密度"是 Pro 的 10 倍,是 GPT-5.5 的 80 倍。

这意味着:如果你有大量简单到中等复杂度的任务,V4-Flash 的"每分成本"远优于任何竞品。而 Pro 则在需要顶尖性能的任务上提供最好的"绝对成本"——因为它虽然比 Flash 贵,但在高端模型里它是最便宜的。

VentureBeat 用了一个精准的表述:DeepSeek 不是在打价格战,而是在重新定义价值曲线。 在 V4 之前,价格和性能大致呈线性关系——多花一倍钱大约多获得一倍能力。V4 把这个关系打碎了——同性能下价格低 5-10 倍,同价格下性能高 2-3 倍。


四、成本优势来源

V4 能卖这么便宜,不是靠补贴,不是靠亏本赚吆喝——而是靠架构创新和工程优化带来的真实成本下降。

4.1 MoE 稀疏激活:参数量不等于计算量

V4-Pro 有 1.6T 总参数,但每次推理只激活 49B 参数——激活率约 3%。V4-Flash 总参 284B,激活 13B,激活率约 4.6%。

这是什么概念?假设你在运营一个推理集群,V4-Pro 的"有效计算量"不是 1.6T 参数决定的,而是 49B 参数决定的。你需要的 GPU 算力大致等于一个 50B 的稠密模型,但获得的能力却接近 1.6T 模型的水平。

MoE 的稀疏激活是 V4 低成本的第一支柱。没有 MoE,V4-Pro 的推理成本至少是现在的 30 倍。

4.2 CSA+HCA 混合注意力:算力消耗砍掉 73%

V4 在注意力机制上的创新带来了惊人的效率提升:

指标V3.2V4优化幅度
单 Token 推理 FLOPs基准基准 × 27%-73%
KV Cache 显存占用基准基准 × 10%-90%
推理速度 (Flash 8K 输入)1600 TPS (昇腾单卡)
推理速度 (Pro 8K 输入)4700 TPS (昇腾单卡)

CSA(压缩共享注意力)在 token 维度做 4:1 甚至 128:1 的大尺度压缩,把需要计算的 token 数量大幅减少。HCA(硬件感知分块注意力)针对 GPU/NPU 的硬件特性切分计算,最大化硬件利用率。两者协同的结果是:同硬件条件下,V4 能处理的 token 量是 V3.2 的 3.7 倍。

注意这里的关键区别:不是"V4 用了更多卡",而是"V4 在同样的卡上做了更多事"。单卡 Decode 吞吐达到 1600-4700 TPS,意味着同样的 GPU 集群容量下,API 可以支持更高的并发量——单位 token 的硬件成本自然更低。

4.3 KV Cache 压缩:显存成本直降 90%

大模型推理中,KV Cache 是最大的显存消耗者之一。长序列推理时,KV Cache 可以吃掉一大半的显存。

V4 通过 CSA 的 token 压缩机制,将 KV Cache 的显存占用降至 V3.2 的 10%。这意味着:

  • 同硬件配置下可以支持更长的上下文
  • 同上下文长度下可以支持更高的并发
  • 显存不再是长序列推理的瓶颈

显存占用的下降直接转化为成本下降。大模型推理集群的成本构成中,显存是核心瓶颈之一——显存越大,可以同时处理的请求越多,单次请求的成本越低。V4 用 10% 的显存占用量做到了 V3.2 的上下文质量和更好的长文本性能。

4.4 国产算力的结构性成本优势

V4 的另一个成本优势来自国产芯片生态。这可能是最容易被忽视但影响最深远的一点。

DeepSeek 已经确认其 API 服务主要运行在华为昇腾芯片上。根据公开数据,国产 AI 芯片的采购成本显著低于同等算力的英伟达 GPU:

硬件采购成本 (估算)可用性
英伟达 H100$25,000-$35,000对华禁售
英伟达 H800受限 (对华出口管制)受限
华为昇腾 910B约 ¥8-12 万 (≈$11K-17K)充足供应
华为昇腾 950 (预计)待定 (预计低于 H100)2026 下半年批量上市

国产芯片的规模效应一旦形成,推理成本的下降空间会进一步打开。DeepSeek 在定价页面的坦诚说明已经透露了这个信号:"受限于高端算力,目前 Pro 版服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调。"

这不是营销话术,而是工程承诺。 V4 的定价和国产算力的供应节奏深度绑定——算力越充足,价格越低。

4.5 分层成本拆解

把 V4 的低成本拆成几个层次看:

V4 最终定价 ↓
  ├── MoE 稀疏激活:仅激活 3-4.6% 参数 → 计算量减少约 96%
  ├── CSA+HCA 注意力:FLOPs 减少 73% → 每 token 算力成本降至 1/4
  ├── KV Cache 压缩:显存减少 90% → 同硬件支持更高并发
  ├── 国产芯片平台:硬件成本比海外的 GPU 低 30-50%
  └── 训练效率提升:在有限预算下训练出接近闭源旗舰的模型

每一个层次都贡献了 2-5 倍的成本压缩,叠加之后就是 V4 相比 GPT-5 和 Opus 的 10-100 倍价格差距。这不是某个单一技术的胜利,而是系统级工程优化的结果。

花旗研报对此的评价很到位:DeepSeek 证明了一件事——模型能力的上限由架构设计和工程优化决定,而不是由训练预算决定。


五、缓存命中定价策略

缓存命中定价可能是 V4 定价体系中最精妙的设计——它不仅是"打折",更是在引导用户行为,优化整个系统的资源利用。

5.1 前缀缓存的工作原理

大模型 API 的缓存逻辑和传统 CDN 缓存有些类似但不完全一样:

用户请求

   ├── 系统提示词 (System Prompt) → 固定文本,命中最容易
   ├── 对话历史 (Chat History) → 重复部分可缓存
   └── 当前提问 (Query) → 每次都不同,通常不命中

当你的 API 请求包含一个固定的系统提示词(比如"你是一个代码助手,你擅长 Python 后端开发"),这个提示词会被 DeepSeek 服务器缓存。如果下一次请求使用相同的系统提示词,前缀部分的 token 按缓存命中价计费——只有新增加的 query 部分按标准价格计算。

5.2 定价策略分析

V4 的缓存命中价格设定非常激进:

模型缓存命中输入标准输入折扣幅度
V4-Pro$0.145$1.7492% off
V4-Flash$0.028$0.1480% off
V4-Pro (限时折上折)$0.03625$0.43592% off

缓存命中输入价格仅为标准价的 8%-20%。在 Pro 上,如果请求完全命中缓存,输入部分的成本可以忽略不计。

5.3 典型缓存利用场景

场景 A:统一系统提示词的聊天应用

假设你做了一个 AI 编程助手,系统提示词固定为 2000 tokens,用户每次提问约 500 tokens,回复约 1500 tokens。

计费项无缓存命中有缓存命中
每次系统提示词 (2000 tokens)2000 × $1.74/1M = $0.00348$0.00029 (缓存价)
每次用户输入 (500 tokens)$0.00087$0.00087 (不缓存)
每次模型输出 (1500 tokens)$0.00522$0.00522
每次请求总成本$0.00957$0.00638
10 万请求月成本$957$638
月节省$319 (33%)

场景 B:长上下文 RAG 应用

假设你处理法律文档分析,每次请求携带 50K tokens 的文档上下文,只变更查询部分。

计费项无缓存命中有缓存命中
每次文档上下文 (50K tokens)50000 × $1.74/1M = $0.087$0.00725 (缓存价)
每次用户查询 (1K tokens)$0.00174$0.00174
每次模型输出 (2K tokens)$0.00696$0.00696
每次请求总成本$0.0957$0.01595
1 万次文档分析月成本$957$160
月节省$797 (83%)

长上下文场景下,缓存定价的效果最显著。文档上下文往往是静态的,只要文档没换,查询部分的 token 占比其实很小——绝大部分成本的降低来自缓存命中的上下文。

场景 C:批量处理流水线

如果配合 DeepSeek 的低谷时段折扣(北京时间 23:00-7:00 享受 50% off),可以进一步压缩成本:

场景无优化缓存命中缓存 + 低谷折上折
单次请求 (Pro)$0.0957$0.01595$0.00798
月成本 (1 万次)$957$160$80

从 $957 到 $80——92% 的降幅,只靠两件事:利用缓存命中 + 规划在低谷时段运行。

5.4 缓存策略的设计意图

DeepSeek 把缓存定价压到这么低,意图非常清晰:引导开发者把系统提示词和对话上下文固定化。

这个策略的好处是多赢的:

  1. 对用户:成本大幅降低,可以用更低的预算享受 Pro 级别的模型能力
  2. 对 DeepSeek:缓存命中减轻了后端算力压力——相同的输入 token 不用重新计算注意力,吞吐量提升,单 token 成本下降
  3. 对生态:鼓励开发者采用统一的系统提示词和结构化对话管理,长期有利于应用标准化

这是一个巧妙的"定价即架构"设计。价格机制本身在引导用户行为,用户行为的改变又优化了系统的整体效率。当缓存命中率足够高时,DeepSeek 可以通过更高的服务密度来进一步降价——形成一个正反馈循环。


六、下半年价格预期

6.1 昇腾 950 超节点的影响

2026 年 4 月 24 日,DeepSeek 在 V4 定价页面写了一段不寻常的文字:

"受限于高端算力,目前 Pro 版服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调。"

一家模型公司把自己未来的降价空间绑定在芯片供应上,这在大模型行业相当罕见。但这段话透露了两个关键信息:

第一,现阶段 V4-Pro 的供应是受限的。Pro 模型的 1.6T 参数即使只激活 49B,对推理算力的需求仍然不小。国产芯片产能是目前 Pro 服务的瓶颈。

第二,DeepSeek 对昇腾 950 带来的成本下降有很高的预期。根据华为公开信息,昇腾超节点搭载的昇腾 950 芯片在推理性能上有显著提升:

指标昇腾 910B (当前)昇腾 950 超节点 (预计)提升
推理延迟 (Pro)约 20ms预期更低
推理延迟 (Flash)约 10ms预期更低
单卡 Decode 吞吐 (Pro, 8K 输入)~4700 TPS预计更高
批量上市时间2026 年下半年

当昇腾 950 超节点批量上市后,DeepSeek 可以用更多的国产芯片来支撑 V4 推理。算力供给的提升直接转化为两个结果:更高的并发服务能力 + 更低的单位 token 成本。

6.2 价格下降空间估算

基于公开数据,我们可以做一个保守估算:

目前 V4 的推理集群规模有限,如果昇腾 950 超节点上线后推理容量扩大 3-5 倍,即使不考虑芯片本身的性价比提升(新芯片的每 token 成本通常低于旧芯片),Pro 的定价也有 30-50% 的下降空间。

如果算上昇腾 950 相比 910B 的硬件效率提升(预计 2-3 倍),以及规模化带来的固定成本摊薄,Pro 价格的下调幅度可能在 50-70%。

参考 V3 系列的降价轨迹:V3 发布时的定价已经很低,但在后续一年中通过工程优化持续降价,V3.2 的推理成本降至 V3 的约 1/3。V4 的降价节奏可能更快——因为它的初始架构创新空间更大,国产算力的供应曲线也更陡峭。

6.3 限时折扣延续的可能性

目前 V4-Pro 的 2.5 折首发优惠已经从 5 月 5 日延期到 5 月 31 日。这个延期信号值得解读:

  • 短期看,折扣延续说明 DeepSeek 希望维持用户增长势头,特别是在 V4 发布初期培养用户习惯
  • 中期看,折扣结束后恢复到标准价 $1.74/$3.48 的概率较高,但这个"标准价"本身已经远低于竞品
  • 长期看,如果昇腾 950 如期上市,届时可能推出新一轮的价格调整

对开发者的建议:折扣期可以抓紧测试和接入,但要按标准价做长期预算规划。就算折扣结束后价格翻倍,V4-Pro 的标准价仍然是市面上最便宜的旗舰模型之一。


七、企业成本测算

理论讲完了,来看真金白银的测算。以下三个场景覆盖了从独立开发者到中型公司的主要使用模式。

7.1 场景一:个人开发者 / 独立产品的 AI 功能

假设:你开发了一个 AI 写作助手,每天服务 100 个活跃用户,每个用户平均 20 轮对话,每轮对话输入 2000 tokens(含系统提示和上下文),输出 1500 tokens。

参数数值
日活跃用户100
每用户日对话轮次20
每日总请求数2,000
每请求输入 token2,000 (其中系统提示 1,500)
每请求输出 token1,500
日输入总量4M tokens
日输出总量3M tokens

成本对比(月成本,单位:美元):

模型配置日成本月成本
V4-Flash (标准)$0.14×4 + $0.28×3 = $1.40$42
V4-Flash (缓存命中系统提示)$0.14×1 + $0.028×3 + $0.28×3 = $1.06$32
V4-Pro (标准)$1.74×4 + $3.48×3 = $17.40$522
V4-Pro (缓存命中)$1.74×1 + $0.145×3 + $3.48×3 = $12.18$366
GPT-5.5 (最便宜路径)$5×4 + $30×3 = $110$3,300
Claude Opus 4.7 (最便宜路径)$5×4 + $25×3 = $95$2,850

结论:个人开发者用 V4-Flash 可以把月度 API 成本控制在 $30-$50 级别。如果需求对质量要求较高需要 Pro,月成本在 $300-$500 级别。同场景下 GPT-5.5 和 Opus 4.7 的成本高达 $2,800-$3,300。

$42 一个月是什么概念?相当于一杯咖啡钱的日消费,你就能给 100 个用户提供 AI 功能。

7.2 场景二:小团队的内容处理流水线

假设:一个 5 人团队运营内容平台,每天用 AI 处理 500 篇文章——自动摘要、分类、关键词提取、多语言翻译。每篇文章输入 8K tokens,输出 2K tokens。

参数数值
日处理文章数500
每篇文章输入8K tokens
每篇文章输出2K tokens
日输入总量4M tokens (8000×500)
日输出总量1M tokens (2000×500)
缓存利用率70% (文章模板+指令固定)

成本对比(月成本,单位:美元):

模型日成本月成本
V4-Flash (缓存命中)$0.14×1.2M + $0.028×2.8M + $0.28×1M = $0.53$16
V4-Flash (无缓存)$0.14×4M + $0.28×1M = $0.84$25
V4-Pro (缓存命中)$1.74×1.2M + $0.145×2.8M + $3.48×1M = $6.02$181
GPT-5.5$5×4M + $30×1M = $50$1,500
Claude Opus 4.7$5×4M + $25×1M = $45$1,350

结论:小团队的内容批处理用 V4-Flash,月成本低至 $16-$25,几乎可以忽略不计。即使升级到 Pro,月成本也在 $180 左右,约为 GPT-5.5 的 1/8。这个级别的成本差异意味着——用 V4 后,小团队可以选择"所有文章都用 AI 处理",而不再是"只对前 100 篇热门文章用 AI"。

7.3 场景三:中型公司的 Agent / 客服系统

假设:一个中型公司部署了 AI 客服系统,日均处理 10,000 次对话。每次对话平均输入 12K tokens(含知识库检索结果 + 历史记录),输出 3K tokens。系统提示词固定且较长(4K tokens)。

参数数值
日对话次数10,000
每次输入12K tokens (其中系统提示 4K+历史 5K+新查询 3K)
每次输出3K tokens
日输入总量120M tokens
日输出总量30M tokens
可缓存比例75% (系统提示+历史前缀固定)

成本对比(月成本,单位:美元):

模型日成本月成本年成本
V4-Flash (缓存最大化)$0.14×30M + $0.028×90M + $0.28×30M = $15.12$454$5,445
V4-Pro (缓存最大化)$1.74×30M + $0.145×90M + $3.48×30M = $187.65$5,630$67,554
GPT-5.5$5×120M + $30×30M = $1,500$45,000$540,000
Claude Opus 4.7$5×120M + $25×30M = $1,350$40,500$486,000

结论:在中型公司的高并发场景下,模型选择的成本差异从"几百块"变成了"几十万"。

  • V4-Flash 年成本 $5,445 —— 一个普通助理的年薪级别
  • GPT-5.5 年成本 $540,000 —— 一个 10 人团队的薪酬级别

这个量级的成本差异已经不是技术选型问题了,而是商业决策。用 V4-Flash 替代 GPT-5.5,公司可以在保持覆盖所有客服需求的前提下,将 AI 成本降低 99%。

7.4 三种场景汇总

场景日请求量合适模型月成本范围等同 GPT-5.5 月成本节省比例
个人开发者 / 写作助手2,000V4-Flash$30-$50~$3,30098-99%
小团队 / 内容批处理500 篇文章V4-Flash / Pro$16-$180~$1,50088-99%
中型公司 / 客服系统10,000 对话V4-Flash$450-$5,600~$45,00087-99%

每一个场景用 V4 都比用 GPT-5.5 便宜 90% 以上。


八、定价策略的行业影响

8.1 "价格屠夫"效应

DeepSeek 的定价策略延续了 V3 时代的"AI 界拼多多"路线——用远低于行业平均的价格,提供接近行业顶级的性能。

V4 把这条路线推到了极致。这不是"打价格战"的粗放降价,而是"成本结构决定了可以降价"的系统性低价。

在 V4-Flash 的定价面前,其他模型的定价逻辑变得很难自洽:

  • 如果你的模型和 Flash 性能差不多(比如 Gemini 3 Flash),价格是它的 10 倍以上——用户为什么要选你?
  • 如果你的模型比 Flash 强(比如 Opus 4.7),强 2-3 倍但贵 90 倍——这个价差合理吗?
  • 如果你的模型介于两者之间,既不够便宜也不够强——你的定位是什么?

DeepSeek 实际上把市面上的模型分成了两类: 性价比路线(V4-Flash / V4-Pro 领跑)和性能路线(Claude Opus 4.7 / GPT-5.5)。最难受的是中间地带的模型——既不能像 Flash 那样便宜到可以忽略成本,又不能像 Opus 那样强到让人愿意支付溢价。

8.2 对竞品的定价压力

V4 定价的直接后果是压制了其他模型的定价空间:

  • 海外竞品:GPT-5.5 和 Claude Opus 4.7 必须证明它们多出来的 10-90 倍成本是值得的。对于成本敏感的用户(独立开发者、中小企业、批量处理场景),这个论证越来越难。
  • 国内竞品:GLM-5、Qwen3-Max、Kimi K2.5 等国产模型面临着更直接的竞争——不仅要比 V4 好用,还要比 V4 便宜。当 V4-Pro 的输出价格只有 $3.48 时,同档位国产模型很难维持 $4-$6 的定价。
  • API 聚合平台:OpenRouter 上 V4 系列的调用量在发布后迅速攀升——4 月 26 日 Flash 调用量 814 亿 tokens,Pro 调用量 96 亿 tokens。这说明开发者正在快速迁移。

资本市场已经给出了反应:V4 发布后,MiniMax 股价下跌 3.54%,智谱股价下跌 2.19%,两家公司的半年累计跌幅分别达到 50% 和 20%+。

花旗研报对此的评价一针见血:DeepSeek 的定价正在重新定义 "合理的 AI 成本"——以前行业认为 $5/$25 是旗舰模型的合理价格,现在这个锚点被 $1.74/$3.48 取代了。

8.3 对开发者的红利

定价战的最大受益者始终是终端开发者。V4 的价格红利体现在几个维度:

第一,试错成本趋近于零。

以前用 GPT-5 或 Opus 做原型验证,一个月光 API 费就要几百美元。如果项目做不通,这笔钱打了水漂。用 V4-Flash,一个月的 API 成本可能不到 50 美元——这个级别的投入,大多数独立开发者和创业团队都能承担。

"因为 API 费太贵所以不试"这个决策障碍,正在被 V4 消除。

第二,批处理成为可行方案。

V4 之前,大规模批处理 AI 任务的成本高到劝退——用 Claude Opus 处理 100 万条短文本,光 API 费就要几万美元。用 V4-Flash,同样的任务只需要几百美元。

这意味着以前只有大公司才能做的 "AI 工业化流程"(批量文档处理、大规模内容审核、海量数据标注),现在小团队也能干。

第三,多模型混合架构更实惠。

V4 的极低价格支持了一个新的模式:把 V4 作为"主力模型"处理大部分流量,只在复杂任务上回退到 Claude Opus 或 GPT-5.5。这种"V4 兜底 + 旗舰攻坚"的混合架构,可以在保持总质量的同时将成本降低 90% 以上。

8.4 定价的可持续性

最后一个需要回答的问题:V4 的价格能持续吗?

从 DeepSeek 的定价说明来看,答案是"可以,取决于算力供给"。当昇腾 950 超节点上市后,Pro 的价格还有进一步下降的空间。而 V4-Flash 的成本结构——284B 总参 / 13B 激活 + 流程化国产算力——已经足够健康,短期不会出现不可持续的迹象。

更关键的是,DeepSeek 有幻方量化这个 "现金牛" 母公司作为后盾。幻方量化年收入约 50 亿元人民币,在万卡级 AI 算力投入上虽然吃力,但 DeepSeek 正在寻求外部融资(估值超过 200 亿美元),一旦完成融资,资金储备将大幅增强。

V4 的低价不是"补贴获客"的营销策略,而是"效率创新"的工程结果。 补贴不可持续,效率创新可以。这是理解 V4 定价最关键的一点。


小结

DeepSeek V4 的定价策略可以被概括为一句话:架构创新的成果通过定价传递给用户。

维度结论
V4-Pro旗舰性能,入门价格。输出 $3.48/M 是目前最低的顶级模型定价
V4-Flash极致性价比,批量生产的最佳选择。$0.28/M 输出,仅为 Opus 的 1/89
缓存命中定价引导开发者优化对话结构,节省 30-90% 输入成本
成本优势来源MoE + CSA+HCA + KV 压缩 + 国产芯片,叠加带来 10-100 倍成本优势
未来降价空间昇腾 950 超节点上市后,Pro 价格会大幅下调
对独立开发者个人项目月成本可控制在 $30-$50,AI 功能的试错成本趋近于零
对中小团队批处理月成本低至 $16,以前只能"精挑细选"的任务现在可以全量处理
对企业客户高并发场景年成本从数十万降到数千,直接改变 AI 化的商业模型
行业影响重新定义"合理 AI 成本"的锚点,压缩竞品定价空间

V4 的价格颠覆性不亚于它的技术颠覆性。 当 Flash 的每百万 token 成本降到两分钱人民币时,这不再是一个"贵还是便宜"的问题——这是一个"任何应用都可以内置 AI 功能而不用担心成本"的新时代。

对于开发者来说,现在的正确姿势不是"因为 V4 便宜所以用它",而是"因为 V4 便宜,所以过去那些因为成本原因没做的 AI 应用,现在可以做了"。


检验标准

  • [ ] 能说出 V4-Pro 和 V4-Flash 的完整定价(标准价和缓存命中价),并计算 1:1 输入输出比例下的综合成本(Pro $5.22、Flash $0.42),以及 Flash 价格仅为 GPT-5.5 的约 1/83、约为 Opus 4.7 的 1/71
  • [ ] 能解释 V4 低成本的四大来源:MoE 稀疏激活(激活率 3-4.6%)降低计算量、CSA+HCA 混合注意力实现 FLOPs 减少 73% 且 KV Cache 减少 90%、国产芯片平台的结构性成本优势、以及系统级工程优化带来的叠加效应
  • [ ] 能说明缓存命中定价策略如何工作——当请求的前缀和之前请求重复时,重复部分按缓存价计费——并能在两种典型场景(固定系统提示词的聊天应用、静态文档上下文分析)下计算具体的成本节省比例(30-90%)
  • [ ] 能基于给定的使用量估算三类场景的月成本:个人 AI 产品(V4-Flash 约 $30-$50/月)、小团队批处理(Flash $16-$25/月或 Pro 约 $180/月)、中型公司客服系统(Flash 约 $454/月),并解释为什么昇腾 950 超节点上市后 Pro 价格还有下降空间

← 上一篇:长上下文与 Agent 能力 | 下一篇:API 接入与开发实践 →

最近更新

基于 MIT LICENSE 许可发布