DeepSeek V4：功能、基准测试与对比

了解 DeepSeek V4 的功能、定价与 100 万上下文效率。我们将 V4 Pro 与 Flash 的基准表现对比 GPT-5.5 和 Opus 4.7 等前沿模型。

更新 2026年4月24日 · 7分钟读

在数月的传闻之后，伴随全新 GPT-5.5 与 Claude Opus 4.7 的发布，DeepSeek 终于推出了 DeepSeek V4。本次发布包含两个预览模型：V4-Pro 与 V4-Flash，以激进的定价和接近前沿的性能进入市场。

DeepSeek V4-Pro 默认提供 1600 亿亿（1.6 万亿）总参数与 100 万 token 的上下文窗口。DeepSeek 声称其与最先进的闭源模型仅相差 3 至 6 个月，但成本仅为 OpenAI 与 Anthropic 等竞争对手的一小部分。

在本文中，我将介绍 DeepSeek V4 的发布情况，重点关注其关键特性、基准测试表现，以及与竞品的对比。您也可以查看我们关于 GPT-5.5 和 Claude Opus 4.7 的指南。

DeepSeek V4 一言以蔽之

V4 提供两种版本：Pro（1.6T 参数）与 Flash（284B 参数）。
两款模型均默认支持 100 万 token 的上下文窗口。
Pro 定价为每百万 token $1.74（输入）/$3.48（输出），大幅低于 GPT-5.5 与 Opus 4.7。
可通过 API、网页端以及开源权重（MIT 许可证）获得。

什么是 DeepSeek V4？

DeepSeek V4 是中国 AI 实验室 DeepSeek 推出的备受期待的开源权重大型语言模型系列。发布于 2026 年 4 月 24 日，V4 系列包含 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两个版本。两者均采用 a Mixture of Experts（专家混合）architecture，并默认提供高达 100 万 token 的上下文窗口。

让 DeepSeek V4 成为行业重大发布的，是其接近前沿的性能与极具竞争力的定价组合。V4-Pro 模型拥有 1.6 万亿总参数（激活参数 490 亿），是目前可用的体量最大的开源权重模型。

尽管体量庞大，DeepSeek 声称其与最先进的闭源模型仅有 3 至 6 个月的差距，同时成本只是 OpenAI 与 Anthropic 等对手的一小部分。

DeepSeek V4 的关键特性

以下是本次发布的一些亮点：

结构创新与 100 万上下文效率

DeepSeek V4 的一大亮点是其对长上下文的高效处理能力。

技术说明显示，V4 系列采用了混合注意力架构（Hybrid Attention Architecture），结合了压缩稀疏注意力（CSA）与高压缩注意力（HCA）。

得益于这些结构变化，100 万 token 的上下文现已成为所有 DeepSeek 服务的标准配置。

DeepSeek 称在 100 万 token 的场景中，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为其前代 DeepSeek-V3.2 的 27%，KV 缓存仅为 10%。

三种推理投入模式

为便于用户在时延与性能间精细取舍，DeepSeek V4 提供三种推理模式：

Non-think：快速、直觉式响应，适用于日常事务与低风险决策。
Think High：显式的逻辑分析，速度较慢，但在复杂问题求解上更为精准。
Think Max：最大限度释放推理能力，探索模型能力边界。

增强的 Agent 能力

据称 DeepSeek V4 针对 Agent 化编程进行了优化。发布说明表示其可无缝集成诸如 Claude Code、OpenClaw 与 OpenCode 等领先 AI Agent，且已驱动 DeepSeek 自研的 Agent 化编码基础设施。

先进的训练优化

在底层，DeepSeek 引入了 Manifold-Constrained Hyper-Connections（mHC）以加强残差连接并稳定信号传播。同时切换为 Muon 优化器以实现更快收敛与更高训练稳定性，并在超过 32 万亿的多样化 token 上完成预训练。

DeepSeek V4 基准测试

根据 DeepSeek 的内部结果，DeepSeek V4 展现出令人印象深刻的性能，尤其在将推理能力推至上限（DeepSeek-V4-Pro-Max）时表现突出。

官方发布说明显示，其在更广泛行业对比中的相对位置如下：

知识与推理

Pro-Max 轻松超越其他开源模型，并击败诸如 GPT-5.2 等较早期的前沿模型。在 MMLU-Pro 上得分 87.5%，在 GPQA Diamond 上得分 90.1%，并在数学基准 GSM8K 上达到 92.6%。尽管与绝对前沿（GPT-5.4 与 Gemini-3.1-Pro）尚有数月差距，但已显著缩小知识鸿沟。

Agent 任务

Pro-Max 与领先的开源模型处于同一水平，Terminal Bench 2.0 得分 67.9%，SWE-Bench Pro 得分 55.4%。尽管在公开排行榜上略逊于最新的闭源模型，内部测试显示其可超越 Claude Sonnet 4.5，并接近 Opus 4.5 的水平。

长上下文

100 万 token 的窗口并非纸上谈兵。Pro-Max 在此项上表现极强，MRCR 1M（MMR）“大海捞针”检索测试得分 83.5%。在学术类长上下文基准上，这一成绩甚至超过了 Gemini-3.1-Pro。

DeepSeek V4 Pro 与 Flash

由于体量更小，Flash-Max 在纯知识测评上分数自然更低，并在最复杂的 Agent 工作流中更易受限。不过，如果给予更大的“思考预算”，其推理分数可媲美较早期的前沿模型，对于高负载场景而言极具性价比。

图片来源

如何获取 DeepSeek V4？

目前有多种方式可以使用 DeepSeek V4：

网页端：可在 chat.deepseek.com 通过即时模式或专家模式立即体验两款模型。
API 访问：API 今日可用。开发者只需将模型参数更新为 deepseek-v4-pro 或 deepseek-v4-flash。该 API 同时兼容 OpenAI ChatCompletions 与 Anthropic 的 API 格式。（注意：旧版 deepseek-chat 与 deepseek-reasoner 模型将于 2026 年 7 月 24 日停用）。
开源权重：两款模型均以 MIT 许可证发布。您可以从 Hugging Face 或 ModelScope 直接下载权重。Pro 的下载体积为 865GB，Flash 则为更易管理的 160GB。

DeepSeek V4 与竞品对比

过去一周内，OpenAI 的 GPT-5.5 与 Anthropic 的 Claude Opus 4.7 相继发布。尽管这些模型在长上下文推理与 Agent 化编程方面拥有顶级能力，DeepSeek V4 在价值与开放可得性方面竞争力十足。

以下是 DeepSeek-V4-Pro 与 OpenAI 与 Anthropic 新旗舰模型的对比：

功能/基准	DeepSeek V4 Pro	GPT-5.5	Claude Opus 4.7
API 定价（每百万：输入 / 输出）	$1.74 / $3.48	$5.00 / $30.00	$5.00 / $25.00
上下文窗口	100 万 tokens	约 100 万 tokens	约 100 万 tokens
SWE-bench Pro（编程）	55.4%	58.6%	64.3%
Terminal-Bench 2.0（Agent）	67.9%	82.7%	69.4%
开放权重	是（MIT 许可证）	否（闭源）	否（闭源）

注：若您更看重预算，DeepSeek V4 Flash 的价格仅为每百万输入 token $0.14、每百万输出 token $0.28，甚至低于诸如 GPT-5.4 Nano 这类小型模型。

DeepSeek V4 有多强？

DeepSeek V4 是一次颠覆性的发布。根据 DeepSeek 自报的基准结果，Pro 模型与最前沿的模型（如 GPT-5.4 与 Gemini-3.1-Pro）在发展进程上仅相差约 3 至 6 个月。

不过放在更宽广的行业背景下看，原始性能只是故事的一半。DeepSeek V4 最大的亮点在于其超高的上下文效率与极具吸引力的价格。

在以极低成本提供接近前沿的能力（包括 100 万 token 上下文窗口）方面，DeepSeek V4 成为高吞吐企业任务、开源研究者与注重预算的开发者的最具吸引力之选。

DeepSeek V4 的应用场景

结合上述优势，我认为 V4 在以下领域尤为出色：

自动化软件工程：优秀的 Agent 基准表现与对 OpenClaw 等工具的集成，使 V4-Pro 成为自动化重构与调试代码库的有力候选。
海量文档处理：在 100 万 token 上下文下的计算成本下降，意味着财务分析师与法务团队可用极低成本处理海量 PDF、10-K 与合同。
本地部署与研究：由于采用 MIT 许可证，研究者可进行量化（尤其是 160GB 的 Flash 模型），在高端消费级硬件上本地探索前沿级 AI。

结语

DeepSeek V4 为开源 AI 社区带来了巨大进步。尽管在最艰难的编程与推理基准上，GPT-5.5 与 Claude Opus 4.7 可能略胜一筹，DeepSeek V4 却将 100 万 token 的上下文窗口与复杂的 Agent 工作流普惠化。

如果您希望走在前沿，并把这些尖端模型落地到自己的工作流程中，建议查看我们的部分资源。尤其是 Understanding Prompt Engineering 课程，帮助您优化与 DeepSeek 等模型的交流方式；或我们的 AI Agent Fundamentals skill track，助您开始构建可扩展的 Agent 化系统。