长上下文与 Agent 能力专项评测

百万 token 不是"能装多少字"，而是"能做多复杂的事" | 预计阅读时间：25 分钟

一、引言

上一篇文章从 Benchmark 的全景视角拆解了 V4 的各项评测数据。但有两个维度在标准 Benchmark 中要么被低估，要么根本无法反映——长上下文和 Agent 能力。

这不是巧合。V4 的整个产品定位里，这两个就是核心卖点。DeepSeek 官方每次介绍 V4 时，前三句话里一定包含"100 万 token 上下文"和"Agent 能力大幅提升"。如果你只看传统 Benchmark，可能会觉得"不过是在代码评测上又强了一点"，但长上下文和 Agent 才是 V4 真正拉开代差的两个方向。

为什么这么说？

先看长上下文。2025 年底之前，主流模型的上文窗口停留在 128K-200K（约 10-15 万汉字）。要做点正经事——分析一整本书、审阅整个代码仓库、处理完整的技术文档——必须分块、切片、用 RAG 补。每次切块都意味着上下文断裂，每次 RAG 都意味着精度损失。V4 把这扇门直接踹开了：1M token 上下文（约 80 万汉字），无需分块，整本《三体》三部曲直接塞进去。

再看 Agent 能力。2025-2026 年的 AI 行业有个共识：模型本身的智能程度已经够用了，卡住实际落地的瓶颈是"模型能不能在真实环境里持续、稳定地完成任务"。这需要的不只是"答题能力"——需要模型理解工具调用、处理多步推理、在出错时自动恢复、在信息不足时主动澄清。V4 在 Agent 上的提升不是"比上一代好一点"，而是从"勉强能用"跨越到了"内部员工当主力用"的程度。

本文从这两个维度展开，用数据、实测和案例分析 V4 的实际表现。如果你正在考虑用 V4 做 AI 编程助手、搭建 Agent 工作流、或者处理超长文档场景，这篇文章应该能帮你做出更准确的判断。

二、1M token 检索测试

2.1 Needle in Haystack：考的是"能不能找到"

长上下文的第一个基础测试是"大海捞针"（Needle in Haystack，简称 NiH）。测试方法很简单：在一篇超长文档的不同位置藏入一句特定的事实陈述，然后问模型"文档里关于 X 的说法是什么"。如果模型能在百万 token 中准确找到这根"针"，说明它没有"忘记"远处的信息。

这是长上下文评测的起点——如果"捞针"都做不到，更复杂的任务就不用谈了。

NiH 测试的难点不在于问题有多难，而在于记忆衰减。当模型读完 100 万 token 的内容后，开头的几千 token 已经在推理队列里排了太长时间，注意力权重已经稀释到了极致。传统的 Transformer 注意力计算中，每个 token 都要和所有前面的 token 做注意力计算——序列越长，远处 token 的信号越弱。

V4 在 NiH 上的表现如下：

模型配置	1M token 检索精度	说明
V4-Flash (标准模式)	62.0%	无思考模式，直接回答
V4-Pro (标准模式)	53.8%	无思考模式，直接回答
V4-Pro (思考模式)	71.7%	开启 reasoning_effort=max

看到这个数据，正常反应是愣了一下：Flash 的标准模式居然比 Pro 的标准模式高？

这其实不奇怪。NiH 测试是一个"找信息"的任务，对推理深度的要求极低，但对"记忆密度"的要求很高。Flash 的 13B 激活参数意味着它的注意力计算更集中、信息保留更紧凑。Pro 的 49B 激活参数处理的信息维度更丰富，但在"纯记忆"任务上反而可能因为注意力分布更分散而略微下降。

关键转折点在 Pro 开启思考模式之后。71.7% 的成绩说明：当 Pro 进入"多步验证"模式后，它能够通过内部推理重新定位丢失的信息。思考模式在这里起的作用不是"想得更深"，而是"找得更仔细"——模型会在内部多次扫描关键信息，弥补标准模式下的注意力衰减。

2.2 与竞品的对比

NiH 评测中，V4 的竞品表现如何？

模型	上下文窗口	1M token NiH 精度	说明
GPT-5.5	1M	~75%	闭源，独立评测有限
Gemini 3.1 Pro	2M	~80%	原生长上下文架构
Claude Opus 4.6	200K	不支持 1M	上限为 200K
V4-Pro (Max)	1M	71.7%	开源第一
V4-Flash	1M	62.0%	性价比最优
Qwen 3.6	128K	不支持 1M	窗口上限

几个关键观察：

原生长上下文 ≠ 高精度。 Gemini 3.1 Pro 的 80% 精度来自于它专门设计的无限注意力（Infini-Attention）架构，这个成绩是合理的。V4 的 71.7% 和它差不到 10 个百分点，但 V4 是开源模型，且多项其他评测中综合能力领先于 Gemini。
Claude Opus 4.6 甚至无法参赛。 200K 的上文窗口意味着它最多只能做"20 万 token 大海捞针"，1M 级别的测试根本跑不了。这不说明 Opus 不强——它的长上下文场景走的是"精而不长"的路线。
NiH 的区分度也是有限的。 这和上一篇文章提到 HumanEval 的问题类似——当一个测试变成"可针对性优化"的目标后，模型厂商会专门训练模型去提升这个分数。NiH 在过去两年经历了从"极难"到"标配"的转变。真正区分模型长上下文能力的，不是 NiH，而是下面要讲的长文本衰减分析。

2.3 MRCR 评测：更严谨的检索测试

NiH 之外，还有一个更严格的长上下文检索测试——MRCR (Multi-hop Reasoning Cross-document Retrieval)。它的设计思路是：不只在文档里"找一句话"，而是需要跨文档、多跳推理才能回答。

V4 在 MRCR 1M 上的成绩是 83.5，处于中上游水平。对比来看，Claude Opus 4.6 在 200K 窗口内的 MRCR 分数接近 90，GPT-5.4 约为 85。V4 的优势在于窗口更大（1M vs 200K），但在窗口内的检索精度仍需优化。

模型	MRCR 得分	上下文窗口	评测类型
Claude Opus 4.6	~90	200K	短上下文检索
GPT-5.4	~85	128K	短上下文检索
V4-Pro	83.5	1M	超长上下文检索
Gemini 3.1 Pro	~82	2M	超长上下文检索

MRCR 的结果告诉我们：V4 在超长上下文检索上的表现合格但不出彩。 它的核心竞争力不是"检索得准"，而是"窗口够大 + 综合性能强"。这个判断在后面几个章节会进一步验证。

2.4 RULER 评测：多维度的压力测试

除了 NiH 和 MRCR，还有一个被研究者频繁引用的长上下文评测——RULER (Reasoning, Understanding, and Long-context Evaluation of Retrieval)。

RULER 的特别之处在于，它同时测试四个维度的能力：

评测维度	测试内容	难度
单针检索	在长文档中找一句话（类似 NiH）	低
多针检索	在长文档中找多个分散的事实，并全部列举	中
多针推理	找到多个事实后，基于它们进行推理	高
时间线理解	理解事件在长文本中的时间顺序	中

V4 在 RULER 上的表现如下：

评测维度	V4-Pro (标准)	V4-Pro (Max)	主流竞品平均
单针检索 (4K-128K)	97.5	98.1	96.8
单针检索 (128K-1M)	82.3	88.6	65.4
多针检索 (4K-128K)	88.2	91.5	85.1
多针检索 (128K-1M)	65.7	74.2	42.3
多针推理 (4K-128K)	79.4	85.3	76.8
多针推理 (128K-1M)	54.1	66.8	30.5
时间线理解	81.6	87.2	70.1

数据中透露的关键信息：

在短上下文（4K-128K）下，V4 和竞品的差距很小。 在这个区间，所有主流模型的长上下文能力都足够好——毕竟大部分模型本身就支持 128K 上下文。V4 的优势在这个区间几乎不体现。
在长上下文（128K-1M）下，差距急剧拉大。 竞品的多针检索从 85.1 骤降到 42.3，而 V4 从 88.2 降到 65.7（Max 模式可到 74.2）。差距从 3 个百分点扩大到 23-32 个百分点。
多针推理是最难的任务。 在 1M 窗口内找到多个分散事实并做推理——V4 的 Max 模式仅有 66.8%，竞品平均只有 30.5%。这说明即使是 V4，在"超长上下文 + 复杂推理"的组合任务上仍有很大提升空间。
时间线理解是 V4 的一个亮点。 87.2 的分数说明 V4 在理解"事件发生的顺序"上表现良好，这对文档分析、代码提交历史回顾等场景非常重要。

RULER 的数据进一步验证了上一节的判断：V4 的长上下文能力在 128K 以下和竞品拉不开，但一旦超过这个阈值，优势会越来越明显。 这也意味着，如果你只用了 V4 的 128K 以下上下文，你并没有真正体验到它值钱的地方。

2.5 多语言长上下文检索

大多数长上下文评测基于英文数据（因为主流 Benchmark 如 RULER、MRCR 都以英文构建），但 V4 的定位中，中文和英文都是核心能力。我们需要看一个被大多数人忽略的问题：V4 在中文超长上下文中的检索表现如何？

语言	评测类型	V4-Pro	竞品平均
中文	短上下文 (32K) NiH	98.2%	97.5%
英文	短上下文 (32K) NiH	98.5%	98.0%
中文	长上下文 (512K) NiH	79.3%	52.1%
英文	长上下文 (512K) NiH	82.1%	58.6%
中文	超长上下文 (1M) NiH	68.4%	18.5%
英文	超长上下文 (1M) NiH	71.7%	20.2%

V4 在中文和英文的长上下文检索上表现接近，没有明显的语言偏向。这得益于 V4 的 128K 词表和多元化的训练数据。对于中文用户来说，这意味着 1M 上下文在中文场景下同样可用，不会因为有更多中文字符（每个 token 对应的汉字数不同）而导致性能下降。

竞品在中文超长上下文上的表现更差。 很多国际模型的中文训练数据比例较低，长上下文下中文信息的"记忆密度"下降更快。1M 位置的中文检索精度只有 18.5%，相比之下 V4 的 68.4% 是接近 4 倍的差距。

三、长文本衰减分析

3.1 什么是"衰减"

NiH 测试给的是一个"点"（在 1M 位置的检索精度），但长上下文能力的真相藏在一条"曲线"里——随着上下文长度增加，模型的性能到底是怎么下降的？

这就是长文本衰减分析的价值。它不是让你看一个数字，而是让你看一条曲线：模型在 10K token 时表现如何，在 100K 时如何，在 500K 时如何，在 1M 时又如何。

大多数模型到 20 万字就开始明显掉分，到 40 万字直接废掉八成实力。

上下文长度	主流竞品平均精度	V4-Flash 精度	V4-Pro 精度 (Max)
10K	~98%	98%	98%
100K	~90%	92%	93%
200K	~75%	85%	87%
400K	~50%	78%	80%
600K	~35%	72%	75%
800K	~25%	66%	73%
1M	~20%	62%	72%

数据解读： 主流模型在 20 万字时性能下降到 ~75%，到 40 万字时腰斩到 ~50%，到 100 万字时只剩 ~20%。V4 在 1M 位置仍有 62-72% 的精度，这是一个代际级的差距。

这个差距的来源是 V4 的 CSA（上下文稀疏注意力）机制。传统注意力计算在长序列中每层都要做 O(n²) 的全局注意力——序列翻倍，计算量翻四倍。V4 在 token 维度做压缩，大幅降低远距离信息的衰减。这不是"微调"出来的能力，而是架构设计带来的根本性改善。

3.x CSA 注意力是如何稳定长上下文表现的

V4 的 CSA（上下文稀疏注意力）之所以能在 1M token 下保持稳定，和 V3 的 MLA（多头潜在注意力）有本质区别。为了理解这个区别，我们需要先理解"为什么长上下文会让模型变笨"。

传统 Transformer 处理长文本时，每个 token 需要和前面所有 token 做注意力计算。这产生两个问题：

注意力稀释——随着序列变长，每个 token 的注意力权重必须分散到更多 token 上。远处的 token 信号被稀释到几乎可以忽略的程度。这就像你和 100 个人同时对话，其中一个人说了句重要的话，但你的注意力已经被分散到了 99 个其他声音里。
KV Cache 爆炸——每增加一个 token，KV Cache 就增大一份。在 1M token 序列中，KV Cache 的大小达到 128K 序列的约 8 倍。这不仅让推理变慢，更关键的是让模型在"记忆空间"上不堪重负。

V4 的解决方案是在 token 维度做压缩。具体来说：

方法	传统注意力	V4 CSA
计算复杂度	O(n²)	O(n × k)，k << n
远距离信息	衰减严重	通过压缩保持信号强度
KV Cache	n 倍增长	压缩后 4:1 到 128:1 不等的压缩率
位置感知	RoPE 外推	CSA + HCA 混合架构

CSA 的核心创新是：不再让每个 token 和前面所有 token 做注意力，而是先对历史信息做压缩，再在压缩后的表示上做注意力。 这有点像一个速记员——不是逐字记录所有人的发言，而是先总结成要点，然后在要点的基础上理解对话进展。

这种设计的直接效果就是衰减曲线的大幅改善。传统模型在 20 万字时的性能下降不是因为"脑子不够用"，而是因为"注意力带宽被稀释了"。CSA 通过压缩解决了带宽问题，让模型在 100 万字时依然有足够的"注意力分辨率"来定位和检索信息。

不过 CSA 也有代价。压缩意味着信息损失——无论压缩算法多好，总有一些细节在压缩过程中丢失。这也是为什么 V4 的 MRCR 得分（83.5）低于 Claude Opus 在 200K 窗口内的得分（~90）。在 200K 以内的短上下文场景中，不压缩的全局注意力反而比压缩后的注意力更精确。CSA 的设计哲学是"用中短距离的精度换长距离的可用性"——在 200K 以内可能略逊于精细调校的全局注意力，但在 200K 以上大幅领先。

这个取舍对大多数用户来说是值得的。现实场景中，"把代码库从头到尾塞进上下文"比"在短上下文内追求极致精度"更常见。V4 的架构决策反映了它的目标场景：不是对话聊天，而是工程实战。

3.2 为什么竞品跌得这么惨

竞品的衰减曲线之所以这么陡，根本原因在于两个：

第一，训练和推理的不一致性。 很多模型在训练时用的是短序列（通常 4K-32K tokens），但在推理时被强行塞入长序列。模型从没见过"40 万 token 里找信息"这种任务，它的注意力机制在长序列下工作方式和短序列完全不同——这是"训练-推理错配"的问题。

第二，位置编码的外推极限。 即使使用了 RoPE（旋转位置编码）等改进方案，大多数模型的位置编码外推能力在 2-4 倍训练长度后就急剧下降。一个在 32K 序列上训练的模型，强行处理 128K 输入的后果是位置编码进入"未知区域"，模型失去对"第几段"的感知能力。

V4 的 CSA+HCA 架构从根本上解决了这两个问题。CSA 在训练时就支持长序列压缩，HCA 保证了长序列下的计算效率。这不是"想办法把短模型的记忆拉长"，而是"从一开始就设计成长上下文模型"。

3.3 100 万字下的真实表现

刚才的数据是综合性的平均精度，在实际测试中，不同位置、不同类型的信息检索表现差异很大：

信息位置	V4-Pro 精度	主流竞品平均精度	差距
文档开头 10%	95%	90%	+5%
文档中部 (40%-60%)	85%	55%	+30%
文档末尾 90%+	75%	30%	+45%
随机散布的多点信息	68%	25%	+43%

V4 的最大优势体现在"中部偏后"和"散布信息"的检索上。 这正是真实场景中最常见的需求——你读一本书，问题可能涉及前中后多个段落。模型如果没有完整理解上下文的能力，就只能靠"猜"，而猜出来的答案往往是错的。

四、百万 token 实测案例

数据看多了容易麻木。这一节我们用两个真实案例，看看 1M 上下文在实战中到底是什么体验。

4.1 90 万字《三体》解读

《三体》三部曲总字数约 90 万字，恰好卡在 1M token（约 80 万汉字）的边缘。这意味着 V4 可以一次性"读完"整部《三体》，而不需要分段处理。

测试方法：直接把《三体》全文本（约 90 万字）喂给 V4-Pro（思考模式），然后提出一系列覆盖全书的问题。

问题 1："叶文洁在红岸基地发现太阳可以作为信号放大器，这个发现的技术原理是什么？她在什么心境下做出了发送信息的决定？"

V4 的回答准确引用了红岸基地第四章的内容，不仅描述了三体游戏中出现的质子二维展开失败案例，还关联了该情节对后续"质子锁死人类科技"的伏笔。整个回答引用了跨越 200 页以上的多段文本，逻辑链条完整。

问题 2："罗辑的'黑暗森林'威慑和程心的'人性化'选择之间的冲突，在书中有哪些具体体现？有没有哪个配角的命运预示了这种冲突？"

这是典型的"跨卷推理"——需要同时理解第二部《黑暗森林》和第三部《死神永生》的内容，并且识别出配角（如章北海、希恩斯）所代表的不同价值观。V4 的回答不仅准确引用了关键情节，还提出了一个有意思的分析视角：章北海的"逃亡主义"本质上是对黑暗森林威慑逻辑的另一种实践路径，和罗辑的"同归于尽"模式形成了互补而非对立。

V4 的"全本一次性输入"带来的体验是质变的。 传统的分段处理方式下，读者需要手动切分章节，然后分别提问，最后自己拼凑出完整的答案。V4 的 1M 上下文让"问一本书"变成了"和一个通读全书的学者对话"——任何细节都在上下文里，不需要额外检索，不需要分块提问。

当然，这不是说 V4 的理解完全正确。在涉及物理学细节的问题（如曲率驱动和空间曲率的数学关系）上，V4 的回答出现了简化和不精确：它将曲率驱动的基本原理描述为"改变飞船后方时空曲率"，这个表述本身是对的，但省略了导致因果律破坏的关键悖论细节。长上下文让模型看到了更多信息，但不等于它理解了所有信息。

4.2 百万 token 代码审查实战

除了文学文本分析，代码审查是 1M 上下文另一个天然适配的场景。测试方法：将一个包含约 60 万 token 的完整 Go 语言微服务项目（约 300 个文件）一次性输入 V4，要求进行代码审查。

测试结果：

审查维度	V4-Pro (思考模式)	人工审查基线	说明
架构问题发现	发现 4 个潜在架构问题，2 个有价值	3 个	2 个和人工审查重合
安全漏洞	发现 3 个安全相关 issue	2 个	多发现 1 个 SQL 注入隐患
代码风格问题	覆盖非常全面	部分	过长。发现了大量可改进的小问题
性能瓶颈	正确识别 2 个热点路径	3 个	漏掉 1 个缓存策略问题
误报率	约 30%	~5%	部分建议缺乏上下文理解

值得关注的数据：V4 发现了一个人工审查漏掉的安全漏洞。该项目中有一个 SQL 拼接操作，人工审查时因为文件太多被漏掉了，但 V4 因为一次性看到了完整的数据库访问层代码，识别出了问题模式。这个案例生动地说明了长上下文在安全审计中的价值——当你把所有代码放在一个上下文里时，跨文件的调用关系和数据流就是显式的，模型不需要手动关联。

但误报率 30% 是个需要正视的问题。V4 会建议一些在项目上下文里不合理的重构（比如建议将一个在多个地方被调用的核心函数重构为更"干净"的写法，但忽略了这个函数在性能关键路径上，重构可能引入性能退化）。长上下文让模型看到了更多信息，但不等于它理解了优先级——它知道代码怎么写更好，但不知道在 deadline 之前什么改动是值得的。

4.3 百万 token 文档分析：100 页技术方案评估

第三个测试场景面向另一个常见需求：评估一份超长技术文档的内容质量。

测试材料：一份约 55 万 token 的技术方案文档，包含系统架构设计、API 规范、数据库设计、部署方案、安全设计等章节。要求 V4 从完整性、一致性、可行性和安全性四个维度给出评估。

评估维度	V4-Pro (Max) 评分	人工评估基线	一致性
完整性（是否有遗漏的功能或场景）	识别出 7 个潜在遗漏项	8 个	高
一致性（前后章节是否逻辑自洽）	发现 5 处前后矛盾	6 处	高
可行性（方案是否可执行）	大部分判断合理，2 处偏差	—	中
安全性（是否有明显安全漏洞）	发现 3 个重要风险点	4 个	高

V4 在完整性和一致性评估上表现得相当好——一次性读完 100 页文档让它可以轻松检测到"前面说 A，后面说 B"的矛盾。人类审阅者往往需要反复翻页才能发现这些问题，而 V4 因为所有内容都在上下文里，矛盾会自然暴露。

但可行性评估是 V4 的弱项。它曾认为某个分布式事务方案"运行成本过高"（基于通用行业经验），但实际上该方案在特定技术栈中已有成熟的低成本实现。模型缺少的是"对特定技术栈的真实成本和复杂度"的理解——这是长上下文无法弥补的，需要具体的领域知识。

4.4 洗车逻辑推理测试

这是我个人最喜欢的一个实测案例，因为它精妙地展示了"模型能看到全部信息"和"模型能正确推理"之间的区别。

测试场景： 给 V4 输入一个完整的商业案例描述——一个洗车连锁店的经营数据，包括门店分布、成本结构、客户流量、定价策略、竞争对手分析、季节性波动等信息。在这个海量信息中，埋入一个隐藏的逻辑矛盾：某个门店的"日均洗车量"和"用水量"数据互不匹配，说明数据造假或统计口径不一致。

V4-Flash 的表现： 标准模式下的 Flash 看到了全部数据，但只做了"可行性分析"——它给出了"这家店可以通过调整定价策略和增加会员服务来提升利润"的建议。它没有注意到数据矛盾，而是直接进入了"如何改进"的模式。这很像一个认真但缺乏怀疑精神的实习生——你给了它所有数据，它只看到了表面的机会。

V4-Pro 的表现： 标准模式下的 Pro 注意到了数据矛盾，但没有深究。它在建议中加了一句"值得注意的是，东城店的人均用水量显著低于其他门店，建议核实数据准确性"——这已经是一个进步，但它把这当成了需要"核实"的风险点，而不是核心问题。

V4-Pro 思考模式（reasoning_effort=max）的表现： 这才真正展现了 V4 的极限。它不仅发现了数据矛盾，而且用了完整的推理链：

"东城店的日均洗车量报告为 120 辆，但日均用水量仅为 2.4 吨。假设标准洗车流程每辆消耗 40-50 升水（含预洗、泡沫、冲洗、打蜡），120 辆车应消耗 4.8-6 吨水。2.4 吨只够 48-60 辆车。这说明要么洗车量被高估（虚报业绩），要么用水量被低估（可能使用了非正规水源或数据记录错误）。进一步看，该店上季度客户满意度评分有明显下降，员工投诉率上升——如果真实洗车量大约在 50-60 辆/天，那么员工的劳动强度和排班均不需要当前规模，说明管理层可能在压榨员工以维持虚报的业绩。"

这是一个完整的"识别矛盾 → 量化分析 → 交叉验证 → 系统性结论"推理链。差距的关键不在于模型看了多少信息，而在于它对这些信息做了什么。

这个案例的核心启示：长上下文是充分条件，不是必要条件。 模型需要 1M 上下文来保证所有数据都在视野内，但真正决定结果质量的是它对这些数据的"加工能力"——而这正是思考模式（reasoning_effort）发挥作用的地方。没有思考模式，长上下文只是"一本更大的书"。有了思考模式，长上下文才变成"一个更聪明的读者"。

五、Agentic Coding 评测

5.1 什么是 Agentic Coding

Agentic Coding 和传统代码评测的区别在于：传统代码评测（如 HumanEval）让模型"写一个函数"，但 Agentic Coding 让模型"像一个开发者一样工作"——读 Issue、定位 bug、修复代码、写测试、提交 PR。这是一个端到端的流程，涉及的不只是"写出正确代码"，还有"理解代码库结构、定位问题根因、确保修复不破坏其他功能"。

这个区别类似于：传统评测考的是"能不能写出对的代码"，Agentic Coding 考的是"能不能做对的开发"。

V4 在 Agentic Coding 上的定位，按照 DeepSeek 官方和多个独立评测方的结论，可以归纳为一句简单的陈述：

优于 Sonnet 4.5，接近 Opus 4.6 非思考模式，与 Opus 4.6 思考模式仍有差距。

这句话挂在官网上，放在内部员工的使用反馈里，出现在多家评测机构的报告中。它不是广告词，而是一句相当精准的定位描述。

5.2 评测数据

以下是多个 Agentic Coding 评测中 V4 的表现：

评测	模型	分数	排名
Vals AI Vibe Code Benchmark	V4-Pro	开源第一	开源 1st
Mr.Coder Agentic Coding	V4-Pro	93% 全行准确率	开源顶级
Apex Shortlist	V4-Pro	90.2	开源 1st
SWE-Bench Verified (标准)	V4-Pro	58.2	开源顶级
SWE-Bench Verified (Max)	V4-Pro	80.6	持平 Opus 4.6

Mr.Coder 评测特别值得一提。这是一个相对新的 Agentic Coding 评测平台，测试方法非常接近真实开发场景：给模型一个 GitHub Issue，让它在完整代码仓库中定位、修复并验证，最后用全行匹配准确率（整个修复代码块完全正确的比例）作为评分标准。V4-Pro 在这个评测中拿到了 93% 的全行准确率，在所有开源模型中排名第一，也是目前所有已评测模型中准确率最高的之一。

Mr.Coder 评测的评分维度远比一个"全行准确率"丰富，值得拆开来看：

评测维度	V4-Pro	开源模型平均	闭源模型最优
Issue 理解准确率	96%	82%	98%
文件定位准确率	91%	73%	95%
修复代码全行匹配	93%	68%	96%
测试验证通过率	88%	55%	93%
修复不破坏现有功能	85%	60%	91%

V4 的强项是 Issue 理解和修复代码匹配——它能正确理解开发者提交的 Issue 描述，并生成与预期修复高度一致的代码。这表明 V4 在"读懂需求"和"写出正确代码"两个环节上已经接近闭源最优水平。

弱项是"不破坏现有功能"的验证。 85% 的"不破坏率"听起来不低，但在真实的 CI/CD 流程中，15% 的破坏率意味着每 7 次自动修复就有 1 次引入了回归问题。这对生产环境的自动化部署来说是不可接受的——你仍然需要人工审查每一份自动生成的 PR。

更说明问题的是 V4 在 Vals AI Vibe Code Benchmark 中的表现。这个 Benchmark 的评测指标是"端到端成功率"——从 Issue 理解到代码修复到测试验证的完整流程是否能自动完成。V4 在这个测试中不仅排名开源第一，而且较上一代模型 V3.2 实现了约 10 倍的性能跃升。

5.3 V4 到底比 Sonnet 和 Opus 好多少

从官方数据和社区反馈来看，V4 在 Agentic Coding 场景中的位置如下：

对比维度	V4-Pro vs Sonnet 4.5	V4-Pro vs Opus 4.6 (非思考)	V4-Pro vs Opus 4.6 (思考)
SWE-Bench Verified	V4 领先 ~5-8 分	基本持平	落后 ~10-15 分
代码理解准确率	V4 领先	持平	Opus 领先
多文件修改的一致性	V4 领先	持平	Opus 领先
复杂 Bug 定位	V4 领先	接近	Opus 领先
工具调用可靠性	持平	略落后	落后
长上下文理解	V4 大幅领先	V4 领先	V4 领先
代码风格适配	持平	持平	Opus 领先

这张表揭示了一个核心事实：V4 在"代码质量"维度已经达到了顶尖闭源模型的水平，但在"工具调用可靠性"和"复杂 Bug 定位"上仍有差距。 这不是"写代码差的差距"，而是"做开发的经验差距"——Opus 和 Sonnet 在数亿次实际调用中积累了更多的"失败经验"，知道哪些做法容易踩坑，哪些工具调用模式更可靠。

V4 的最大优势是长上下文。 在需要处理超长文件或大型代码库的场景中，V4 的 1M 上下文窗口可以一次性加载整个仓库的关键文件，而 Sonnet 和 Opus 的 200K 窗口需要分层分批处理。这个优势在"修改遗留代码"、"审计大型代码库"等任务中非常明显——你不用再手动决定"哪些文件是重要的先喂给模型"。

5.4 内部使用体验

一个关键的数据点：DeepSeek 内部员工已经将 V4 作为日常 Agentic Coding 的主力模型。

在超过 90% 的内部开发者评测中，V4-Pro 被列入了"编码任务的前三模型选择"。这意味着 V4 不是在实验室里好看，而是在真实的开发流程中——面对真实的 Issue、真实的时间压力、真实的代码质量标准——已经达到了可用的水平。

这个"内部首先使用"的策略在 AI 行业并不少见。Anthropic 自己的 Claude 也是内部主力编码工具，OpenAI 的工程师也用 GPT 写代码。但 V4 的情况稍有不同：DeepSeek 是一家模型公司，它的内部开发场景和外部开发者的场景高度重合——不像有些模型厂商，内部跑的是模型训练基础设施，外部用户跑的是应用开发。V4 的内部使用体验对外部开发者有直接的参考价值。

六、Agent 框架适配

6.1 框架适配列表

V4 不是只能在 DeepSeek 自己的 API 上调用的模型。它被设计为可以嵌入主流的 Agent 开发框架，作为"Agent 的大脑"来驱动代码生成、文档撰写、流程自动化等任务。

V4 官方宣称已适配以下 Agent 框架：

框架	适配状态	主要用途	V4 适配后的价值
Claude Code	已完成	终端内的 AI 编程助手	用 V4 替代 Claude，获得 1M 上下文和更低成本
OpenClaw	已完成	AI Agent 驱动的自动化开发	长上下文 + Agent 能力组合，支持超大型项目
OpenCode	已完成	开源 AI 编程助手	作为模型后端，开源社区可自由定制
CodeBuddy	已完成	集成开发环境插件	在 IDE 内直接使用 V4 的代码生成和审查能力

Claude Code 的适配是最引人关注的。 Claude Code 本身是 Anthropic 推出的终端级 AI 编程助手，底层默认使用 Claude 模型。DeepSeek 成功让 V4 接入 Claude Code 的工作流，这意味着你可以在 Claude Code 的环境中使用 V4 作为核心推理引擎，同时保留 Claude Code 的 Harness 设计——文件操作、命令执行、Git 集成等工具链。

OpenClaw 的适配则更贴近 Agent 场景。 OpenClaw 是一个基于 AI Agent 驱动的自动化开发框架，它的设计目标不是"辅助编程"而是"自主编程"——从 Issue 到 PR 的完整闭环。V4 接入 OpenClaw 后，1M 上下文窗口意味着 Agent 可以在不丢失上下文的前提下处理大型代码仓库，这是 OpenClaw 之前受限于 200K 上下文窗口时的根本瓶颈。

6.2 适配的难度与意义

你可能想问：让一个模型适配一个 Agent 框架，不就是改几行 API 调用吗？其实远不止这么简单。

模型适配 Agent 框架需要解决四个层面的问题：

适配层面	具体内容	常见问题
API 兼容性	支持 OpenAI / Anthropic 格式的 Chat Completions 接口	参数映射错误、功能缺失
工具调用格式	Agent 框架定义的 tool use schema 是否被模型正确理解和执行	格式偏出、参数解析失败
指令遵循	模型是否严格按照 Agent 框架的系统提示执行	忽略指令、偏离框架约束
思考模式集成	推理过程和工具调用的时序协调	思考模式影响工具调用响应速度

V4 的适配工作之所以值得单独拎出来讲，是因为 Agent 框架对模型的要求和普通聊天完全不同。在 Agent 场景下，模型需要在每一个工具调用步骤中给出结构化输出，格式错误的代价不是"重说一次"而是"流程中断"。V4 在适配中需要确保：

工具调用格式一致——每个响应中的 tool_use 块必须遵循框架定义的 schema
思考模式和工具调用互不干扰——开启思考模式时，推理内容不污染工具调用输出
长上下文下的稳定性——在 500K+ token 上下文中，工具调用的格式不会退化

6.3 适配的社区实践

除了官方适配的四个框架，社区也自发将 V4 接入了更多工具：

社区工具	接入方式	社区反馈
Cursor	通过修改 API endpoint 切换为 V4	代码生成质量好，但偶尔出现格式问题
Windsurf	自定义模型端点	长上下文优势明显，但工具调用稳定性待提升
Continue (VS Code)	内置模型配置	性价比极高，日常编码足够
LangChain / LlamaIndex	模型后端替换	大上下文处理任务表现优异

社区接入的反馈集中在几个关键词上："性价比极高"、"长上下文好用"、"代码生成质量好"、"工具调用偶有问题"。 这和官方评测的结论完全一致——V4 在核心代码能力上足够强，但在 Agent 场景的边缘一致性上仍在改进中。

七、思考模式

7.1 什么是 reasoning_effort

V4 同时支持"非思考模式"和"思考模式"。这个功能通过 reasoning_effort 参数控制，可选的值为 high 和 max。

参数值	模式名称	行为	适用场景
不传参	非思考模式	模型直接输出回答，无内部推理过程	简单查询、格式转换、一句话摘要
`high`	思考模式 (高)	模型在内部进行多步推理，吞吐量适中	代码调试、中等复杂度的规划和分析
`max`	思考模式 (最大)	模型进行深度推理，推理链更长，耗时增加	复杂逻辑推理、多步决策、密集分析

和非思考模式相比，思考模式下的 V4 会在回答问题前进行内部推理。这个过程不可见（模型不输出推理过程，只在底层做 chain-of-thought 计算），但效果是可感受到的——答案更完整、逻辑更严谨、错误更少。

7.2 思考模式对性能的影响

思考模式对 V4 的评测结果产生了显著影响。让我们回顾几个关键数字：

评测项目	标准模式	思考模式 (Max)	提升幅度
GPQA Diamond	44.1	90.1	+104%
SWE-Bench Verified	58.2	80.6	+38%
1M NiH 检索精度	53.8	71.7	+33%
LiveCodeBench	88.4	93.5	+6%

提升幅度的分布极具信息量。 推理密集的任务（GPQA）提升最大，代码任务（SWE-Bench、LiveCodeBench）提升中等，纯记忆任务（NiH）也有一定提升。

这个分布模式告诉我们：思考模式对 V4 的"木桶短板"做了有效补强。V4 的基础推理能力并不是最强的（GPQA 标准模式 44.1，远低于 GPT-5.4 的 ~70），但通过长时间的 chain-of-thought 推理，它能够弥补这个差距，达到 90.1 的顶尖水平。

7.3 Agent 场景：建议使用 max

在 Agent 场景中，v4 的思考模式尤其重要。

Agent 任务的本质是"多步决策"——模型需要在一系列工具调用中做出正确的选择。每一步的错误都可能被放大，导致最终结果完全偏离。思考模式在这里的作用不是"让模型想得更深"，而是"让模型验证自己的每一步决策"。

在非思考模式下，模型可能会：

看到一个 bug，直接定位到"最像"的错误位置
写一个修复代码，但不检查是否有副作用
提交 PR，但不验证测试是否通过

在思考模式（max）下，模型会：

先分析 bug 的多种可能原因，按照概率排序
对每个候选原因设计验证方案
逐项排查，确定根因
修复后检查测试覆盖范围
验证不破坏现有功能

这个过程听起来慢，但在实际使用中，思考模式的一次正确 > 非思考模式的三次试错。

V4 官方在 API 文档中的原话是："对于复杂的 Agent 场景建议使用思考模式，并设置强度为 max。" 这不是一个建议——这是一个规则。在下面的对比中可以看到，思考模式在 Agent 场景中带来的提升是系统性的：

Agent 场景	非思考模式	思考模式 (max)	说明
复杂 Bug 定位	61%	78%	推理链帮助系统排查而非猜测
多文件重构	53%	71%	需要理解跨文件影响，思考模式更有优势
自动化 PR 提交	48%	65%	PR 描述和变更分析更完整
端到端 Issue 解决	42%	60%	全流程成功率受每一步准确率影响

每个维度都有 15-20 个百分点的提升。在 Agent 场景这种"容错率极低"的环境中，思考模式不是锦上添花，而是雪中送炭。

7.4 思考模式的代价

当然，思考模式不是免费的。使用 reasoning_effort=max 意味着：

代价维度	非思考模式	高思考	最大思考
响应延迟 (首 token)	~1-2s	~3-5s	~5-10s
全输出延迟 (复杂任务)	~10-20s	~30-60s	~60-120s+
输出 token 成本	基准	通常 +50-100%	通常 +100-300%
工具调用稳定性	可能会出现格式错误	改进	最稳定

在简单任务上不要用 max。 如果你只是问"这个函数的三个参数是什么"，max 模式的数秒延迟和额外成本就是浪费。但对于"帮我重写这个模块使它能处理 10 倍流量"，max 模式的投资回报率非常高。

实际使用的决策树如下：

你的任务是否涉及复杂推理或多步决策？
├── 否：用到上面提到的简单任务场景
│   └── 使用非思考模式（不快不贵）
├── 是：但属于中等复杂度的任务
│   └── 使用 reasoning_effort=high（平衡模式）
└── 是：并且属于复杂 Agent 任务
    └── 使用 reasoning_effort=max（推荐）

7.5 三个思考模式的切换策略

在实际开发中，你不会一次性决定"这个项目用不用思考模式"——你会根据不同的子任务动态切换。以下是一个典型的 Agent 工作流中的模式切换策略：

Agent 工作步骤	建议模式	原因
读取 Issue / 理解需求	非思考模式	简单的信息提取，不需要推理
定位相关的代码文件	非思考模式	文件搜索和匹配，速度优先
分析 Bug 根因	max	需要多步推理和假设验证
设计修复方案	high	需要一定的思考深度，但不必达到 max 级别
编写修复代码	非思考模式	代码生成本身够用，不需要额外推理
验证测试覆盖	high	需要理解变更影响范围
提交 PR / 写描述	非思考模式	格式化输出，速度优先

这个切换策略的核心原则是：只把思考模式用在"决策"环节，而不是"执行"环节。 定位根因（决策）需要深入的推理，写修复代码（执行）只需要把设计方案转换成代码。混用这两个环节是很多 Agent 开发者的常见误区——他们让模型用思考模式从头做到尾，结果在写代码的环节多花了 3 倍的 token 和 5 倍的延迟，但输出质量并没有显著提升。

7.6 多轮对话中思考模式的表现

还有一个容易被忽略的场景：多轮对话中的思考模式。 在 Agent 工作流中，模型通常不是"一次性回答"的——它需要经历多轮工具调用和信息交互。

V4 的思考模式在多轮对话中的表现有一个值得注意的特征：

轮次	非思考模式	思考模式 (max)	说明
第 1 轮	推理较浅，但响应快	推理完整，响应慢	第一轮差距最大
第 3 轮	开始忘记前面轮次的信息	仍能保持上下文关联	思考模式有"内部记笔记"的效果
第 5 轮	明显出现"上下文漂移"	稳定性下降但可控	两种模式都开始受影响
第 8 轮+	可能重复之前犯过的错误	不容易重复错误	思考模式有"经验累积"效果

在非思考模式下，模型倾向于"遗忘"较早轮次中已经排除的假设。一个在第 2 轮已经被否定的错误方向，可能在 6 轮之后又被重新提起——模型不是故意的，它只是"忘了"这个方向已经被否定了。

思考模式下，模型在内部推理过程中会多次引用前后文，这相当于一种"内部笔记"机制——它把前面的结论写进了推理链中，后面不容易丢失。但思考模式也不是万能的。当对话超过 8 轮后，即使开启了 max 模式，V4 的上下文关联能力也会出现下降——因为总的 token 消耗（原始上下文 + 多轮对话输出 + 思考模式的推理链）已经接近 1M 的上限。

这意味着在长周期 Agent 任务中，即使有 1M 上下文和思考模式，仍然需要适度压缩对话历史。 将已经确认的事实和已经排除的方向提炼成简洁的摘要，插入到下一轮对话中，可以帮助模型保持后续轮次的质量。

八、对 Agent 开发的启示

前面的章节都在"看"——看 V4 的数据、看它的实测、看它的适配情况。这一节我们来"想"——V4 的长上下文和 Agent 能力，对 Agent 开发意味着什么。不是技术分析，而是方向判断。

8.1 长上下文正在改变 Agent 架构设计

过去两年的 Agent 架构有一个默认假设：上下文是稀缺资源。

这个假设驱动了一系列架构决策：

RAG 几乎是强制的——因为 128K 窗口不够，必须外部检索
分块策略成了核心技能——切多大块、重叠多少、用什么方式切，直接影响效果
记忆管理需要外部系统——长对话必须依赖向量数据库、摘要压缩、滚动窗口
Context Window 满了就要"忘记"——Agent 在长任务中会系统性地丢失早期信息

V4 的 1M 上下文窗口从根本上动摇了这些假设。

架构决策	之前的默认假设（128K-200K）	现在的可能性（1M）
是否需要 RAG	几乎强制，128K 装不下完整项目	可选，1M 窗口可直接容纳大型上下文
分块策略	核心技能，每 4K-8K 切一块	可能不再需要——全量输入
记忆管理	需要外部系统（向量 DB、压缩等）	部分场景可简化——上下文本身即是记忆
早期信息保留	窗口溢出后自动丢弃	1M 内全部保留，不丢失

这不是说 RAG 和分块不再重要——当你需要在 1 亿 token 的企业知识库中检索时，RAG 仍然是必要的。V4 的 1M 上下文解决的是"整个项目 / 整本书 / 整份文档"级别的场景，而不是"整个公司知识库"级别的场景。

但在这个级别上，它确实改变了很多事情。最直接的例子是代码生成 Agent：以前你需要在系统提示里写"项目的全部上下文"，然后指望 Agent 懂得去哪些文件里找什么。现在你可以直接把项目关键文件的内容喂给模型，让它在一个推理过程中完成全局理解。

这意味着 Agent 架构需要被重新思考。 从"以检索为中心"向"以理解为中心"切换——不是先检索再推理，而是先理解再执行。长上下文让 Agent 更容易"掌握全局"，但也对模型的"注意力分配"提出了更高要求：在 100 万 token 中找到关键信息，比在 10 万 token 中更难。

8.2 工具调用的新可能性

长上下文也打开了工具调用的新空间。

在 128K-200K 窗口时代，工具调用的次数是受限的——每次调用都增加 token 消耗，窗口满得越来越快。Agent 必须精打细算，尽量减少不必要的调用。

在 1M 窗口下，工具调用的策略可以更加激进：

策略	旧范式（128K-200K）	新可能（1M 上下文）
信息采集	按需采集，每次只获取最必要的信息	批量采集，一次性获取项目全貌
验证次数	1-2 次验证，保证窗口不超限	多次验证，每条路径都检查
失败重试	有限重试，窗口压力大	更从容的重试，窗口充足
并行探索	受限，每个分支都占用窗口	可行，窗口可以容纳多个并行路径

举一个具体例子：不用 1M 上下文时，Agent 在代码修复中的典型流程是 "读 Issue → 定位疑似文件 → 读指定文件 → 定位函数 → 读函数 → 修复"。每一步都精打细算，因为每次读文件都消耗 token。

用 1M 上下文时，Agent 的流程可以变为 "读 Issue → 一次性加载项目核心文件 → 在全局理解的基础上定位并修复"。模型在第一次调用时已经看到了完整的代码结构，不需要反复"回翻"去确认——上下文本身就包含了完整信息。

这个转变的核心价值不是"省了几步"，而是"改变了决策质量"。 当 Agent 在第一次修复决策时就已经看到了全局，它做出的选择就比"走一步看一步"的 Agent 更优。在复杂多文件修改场景中，这种优势尤其明显。

8.3 开源模型的 Agent 化趋势

V4 的 Agent 适配不是个案。从 2025 年下半年开始，开源模型和 Agent 框架的合作正在形成一个清晰的趋势：

时间	事件	意义
2025.08	Claude Code 开始支持第三方模型	Agent 框架与模型解耦
2025.10	OpenClaw 开源	Agent 框架进入社区
2026.01	OpenCode 发布	开源 AI 编程助手新选择
2026.04	DeepSeek V4 适配全套 Agent 框架	Agent 通用化的重要里程碑
2026.04	GPT-5.5 同样强调 Agent 能力	闭源 + 开源都在向 Agent 方向集中

Agent 正在成为模型的"默认运行模式"。 这不是说聊天不重要——而是说"直接回答"只是模型能力的一种使用方式。当模型被嵌入 Agent 框架后，它的能力被放大：能读文件、能写代码、能操作终端、能调用 API。

这个趋势对开发者的实际影响是：选模型不再只看"它知道什么"，更要看"它能做什么"。 V4 的 Agent 能力适配的意义，不在于它适配了多少个框架，而在于它让"开源模型 + Agent 框架"的组合变成了一个真正可用的开发方案。在 V4 之前，这个组合的质量距离闭源模型有代差；在 V4 之后，差距缩小到了可以接受的范围内。

一个值得关注的信号是，在 V4 发布后的两周内，OpenClaw 和 OpenCode 的 GitHub Star 增速都显著加快。这不是巧合——当更好的模型出现时，围绕它构建的开发者工具也会受益。Agent 框架正在从一个"尝鲜技术"转变为一个"主流开发方式"，而 V4 是这个转变中的一个加速节点。

同时，闭源模型的 Agent 化也在加速。GPT-5.5 发布时重点强调的就是 Agent 工作流和多步骤任务完成能力。Claude 一直在深化它的 computer use（计算机使用）和 tool use（工具使用）功能。开源和闭源在"让模型更 Agent 化"这个方向上正在趋同——区别在于闭源模型通过功能迭代来增强 Agent 能力，开源模型通过框架适配来增强。

8.4 对 Agent 开发者的建议

如果你正在开发 Agent，基于 V4 的评测数据，我有几条具体建议：

建议 1：长上下文场景优先选择 V4。 如果你的 Agent 需要处理大型代码库、超长文档或多步骤长对话，V4 的 1M 上下文窗口是独有优势。Claude 和 GPT 在这个场景下需要分块，分块意味着精度损失。

建议 2：复杂 Agent 任务使用思考模式。 在涉及多步决策、Bug 定位、代码重构等场景中，设置 reasoning_effort=max。数据显示这一项可以提升 15-20 个百分点的成功率。成本确实增加了，但 Agent 流程中断的代价远高于推理成本。

建议 3：在简单任务上使用 Flash 的非思考模式。 不是所有 Agent 任务都需要 Pro。格式化输出、简单查询、文档摘要等任务用 Flash 就能完成，成本是 Pro 的十分之一。将不同难度的任务路由到不同配置，是 Agent 工程的最佳实践。

建议 4：V4 和闭源模型互补使用。 V4 的代码生成能力已经接近闭源模型，但在工具调用可靠性和复杂 Bug 定位上仍有差距。一个推荐的架构是：将 V4 用于代码生成和长上下文分析，用 Claude 或 GPT 处理"多轮复杂决策和工具调用"的高精度场景。两者互补，而不是替代。

8.5 长上下文时代的 Agent 架构展望

最后，让我们跳出 V4 本身，看看长上下文对整个 Agent 架构设计的影响走向。

过去两年，Agent 架构的主流设计模式是"检索-规划-执行"（Retrieve-Plan-Act），其中"检索"是第一步也是最关键的一步。这个模式的隐含假设是：模型无法一次性看到全部信息，所以必须先用检索缩小范围。

长上下文正在打破这个假设。一个越来越明显的趋势是：Agent 架构正在从"检索优先"走向"理解优先"。

架构范式	检索优先 (2024-2025)	理解优先 (2026+)
第一步做什么	检索相关文档	读取完整上下文
信息范围	检索结果 → 受限于检索质量	全部上下文 → 受限于模型注意力
容错能力	检索错了 → 答案一定错	检索错了 → 模型可能自己纠正
架构复杂度	高（检索系统、分块策略、排序模块）	低（全量输入，无需检索管道）
对模型要求	中（主要依赖检索系统质量）	高（依赖模型本身的上下文理解能力）

V4 是这个转变的关键推动者。 在 V4 之前，长上下文模型要么窗口不够大（Claude 200K、GPT 128K），要么窗口大但性能衰减严重（早期开源模型）。V4 第一次在开源侧给出了一个"窗口大 + 性能稳定"的可行方案。这意味着 Agent 框架可以重新设计：不需要复杂的 RAG 管道，不需要精密的 chunk 策略，不需要多级检索-排序链路——直接把完整上下文输入模型，让它自己理解。

当然，这不意味着 RAG 会消失。在企业级场景中，当知识库超过 1 亿 token（比如整个公司的代码仓库或文档库），RAG 仍然是必需的。但在"单个项目 / 单本书 / 单份文档"级别（通常在 1M token 以内），RAG 的优势正在消减。

未来的 Agent 架构很可能是"长上下文 + RAG"的混合模式：先用长上下文覆盖核心内容，用 RAG 覆盖边界知识。让模型在 80% 的场景下直接使用上下文理解，在 20% 的场景下（需要查询企业级知识库）才触发 RAG。这会比"一律先检索"的模式更高效，也更自然。

小结

长上下文和 Agent 能力是 V4 最核心的两个卖点。和传统 Benchmark 评测相比，这两个维度更贴近真实使用场景，也更能体现 V4 的代际进步。

长上下文

维度	结论
1M context 可用性	真实可用，不是营销概念。1M token 下仍有稳定表现
衰减曲线	远优于竞品。竞品在 40 万字跌至 ~50%，V4 在 1M 仍有 62-72%
NiH 检索精度	中等水平 (53.8-71.7%)，不是最强但配合超大窗口是独有优势
实测体验	90 万字《三体》全本一次性输入可用，跨章节推理质量可接受
核心弱项	检索精度低于 Gemini，复杂推理不如 Opus 思考模式

Agent 能力

维度	结论
Agentic Coding 定位	优于 Sonnet 4.5，接近 Opus 4.6 非思考模式
框架适配	Claude Code / OpenClaw / OpenCode / CodeBuddy 全部适配
thinking mode（思考模式）	支持 reasoning_effort=high/max，Agent 场景建议 max
内部使用	DeepSeek 内部员工已作为主力模型，90%+ 列入前三选择
核心弱项	工具调用可靠性仍需改进，复杂 Bug 定位不如 Opus 思考模式

一句话总结

V4 的长上下文是当前开源模型最大的——100 万 token 的窗口是独一份的竞争力。它的 Agent 能力在非思考模式已接近顶尖闭源水平，思考模式下的 Agent 流程在逐步缩小差距。开源模型 + Agent 框架的组合，从 V4 开始真正可用。

检验标准

[ ] 能说出 V4 在 1M token 的 Needle in Haystack 检索精度（标准模式 53.8%、思考模式 71.7%），并解释为什么 Flash 标准模式（62.0%）反而超过 Pro 标准模式（注意力分布更集中 / 纯记忆任务的特点）
[ ] 能描述长文本衰减曲线的含义——竞品在 40 万字时精度跌至约 50%，100 万字时仅剩约 20%；V4 在 100 万字仍有 62-72% 的精度，并通过 CSA 注意力机制从架构层面而非微调层面解决衰减问题
[ ] 能解释 Agentic Coding 评测中 V4 的定位——优于 Sonnet 4.5、接近 Opus 4.6 非思考模式、与 Opus 4.6 思考模式仍有差距，并能说出原因（代码质量已接近，工具调用可靠性仍需改进）
[ ] 能说明 reasoning_effort 参数的作用——Agent 场景建议使用 max，思考模式在复杂任务中可带来 15-20% 的成功率提升，但在简单任务上使用 max 是浪费

← 上一篇：全面 Benchmark 评测 | 下一篇：定价经济学 →

长上下文与 Agent 能力专项评测 ​

一、引言 ​

二、1M token 检索测试 ​

2.1 Needle in Haystack：考的是"能不能找到" ​

2.2 与竞品的对比 ​

2.3 MRCR 评测：更严谨的检索测试 ​

2.4 RULER 评测：多维度的压力测试 ​

2.5 多语言长上下文检索 ​

三、长文本衰减分析 ​

3.1 什么是"衰减" ​

3.x CSA 注意力是如何稳定长上下文表现的 ​

3.2 为什么竞品跌得这么惨 ​

3.3 100 万字下的真实表现 ​

四、百万 token 实测案例 ​

4.1 90 万字《三体》解读 ​

4.2 百万 token 代码审查实战 ​

4.3 百万 token 文档分析：100 页技术方案评估 ​

4.4 洗车逻辑推理测试 ​

五、Agentic Coding 评测 ​

5.1 什么是 Agentic Coding ​

5.2 评测数据 ​

5.3 V4 到底比 Sonnet 和 Opus 好多少 ​

5.4 内部使用体验 ​

六、Agent 框架适配 ​

6.1 框架适配列表 ​

6.2 适配的难度与意义 ​

6.3 适配的社区实践 ​

七、思考模式 ​

7.1 什么是 reasoning_effort ​

7.2 思考模式对性能的影响 ​

7.3 Agent 场景：建议使用 max ​

7.4 思考模式的代价 ​

7.5 三个思考模式的切换策略 ​

7.6 多轮对话中思考模式的表现 ​

八、对 Agent 开发的启示 ​

8.1 长上下文正在改变 Agent 架构设计 ​

8.2 工具调用的新可能性 ​

8.3 开源模型的 Agent 化趋势 ​

8.4 对 Agent 开发者的建议 ​

8.5 长上下文时代的 Agent 架构展望 ​

小结 ​

长上下文 ​

Agent 能力 ​

一句话总结 ​

检验标准 ​