跳至内容

DeepSeek V4:功能、基准测试与对比

了解 DeepSeek V4 的功能、定价与 100 万上下文效率。我们将 V4 Pro 与 Flash 的基准表现对比 GPT-5.5 和 Opus 4.7 等前沿模型。
更新 2026年4月24日  · 7分钟

在数月的传闻之后,伴随全新 GPT-5.5 与 Claude Opus 4.7 的发布,DeepSeek 终于推出了 DeepSeek V4。本次发布包含两个预览模型:V4-Pro 与 V4-Flash,以激进的定价和接近前沿的性能进入市场。

DeepSeek V4-Pro 默认提供 1600 亿亿(1.6 万亿)总参数与 100 万 token 的上下文窗口。DeepSeek 声称其与最先进的闭源模型仅相差 3 至 6 个月,但成本仅为 OpenAI 与 Anthropic 等竞争对手的一小部分。

在本文中,我将介绍 DeepSeek V4 的发布情况,重点关注其关键特性、基准测试表现,以及与竞品的对比。您也可以查看我们关于 GPT-5.5 Claude Opus 4.7 的指南。

DeepSeek V4 一言以蔽之

  • V4 提供两种版本:Pro(1.6T 参数)与 Flash(284B 参数)。
  • 两款模型均默认支持 100 万 token 的上下文窗口。
  • Pro 定价为每百万 token $1.74(输入)/$3.48(输出),大幅低于 GPT-5.5 与 Opus 4.7。
  • 可通过 API、网页端以及开源权重(MIT 许可证)获得。

什么是 DeepSeek V4?

DeepSeek V4 是中国 AI 实验室 DeepSeek 推出的备受期待的开源权重大型语言模型系列。发布于 2026 年 4 月 24 日,V4 系列包含 DeepSeek-V4-ProDeepSeek-V4-Flash 两个版本。两者均采用 a Mixture of Experts(专家混合)architecture,并默认提供高达 100 万 token 的上下文窗口。

让 DeepSeek V4 成为行业重大发布的,是其接近前沿的性能与极具竞争力的定价组合。V4-Pro 模型拥有 1.6 万亿总参数(激活参数 490 亿),是目前可用的体量最大的开源权重模型。 

尽管体量庞大,DeepSeek 声称其与最先进的闭源模型仅有 3 至 6 个月的差距,同时成本只是 OpenAI 与 Anthropic 等对手的一小部分。

DeepSeek V4 的关键特性

以下是本次发布的一些亮点: 

结构创新与 100 万上下文效率

DeepSeek V4 的一大亮点是其对长上下文的高效处理能力。 

技术说明显示,V4 系列采用了混合注意力架构(Hybrid Attention Architecture),结合了压缩稀疏注意力(CSA)与高压缩注意力(HCA)。 

得益于这些结构变化,100 万 token 的上下文现已成为所有 DeepSeek 服务的标准配置。 

DeepSeek 称在 100 万 token 的场景中,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为其前代 DeepSeek-V3.2 的 27%,KV 缓存仅为 10%。

三种推理投入模式

为便于用户在时延与性能间精细取舍,DeepSeek V4 提供三种推理模式:

  • Non-think:快速、直觉式响应,适用于日常事务与低风险决策。
  • Think High:显式的逻辑分析,速度较慢,但在复杂问题求解上更为精准。
  • Think Max:最大限度释放推理能力,探索模型能力边界。

增强的 Agent 能力

据称 DeepSeek V4 针对 Agent 化编程进行了优化。发布说明表示其可无缝集成诸如 Claude Code、OpenClaw 与 OpenCode 等领先 AI Agent,且已驱动 DeepSeek 自研的 Agent 化编码基础设施。

先进的训练优化

在底层,DeepSeek 引入了 Manifold-Constrained Hyper-Connections(mHC) 以加强残差连接并稳定信号传播。同时切换为 Muon 优化器以实现更快收敛与更高训练稳定性,并在超过 32 万亿的多样化 token 上完成预训练。

DeepSeek V4 基准测试

根据 DeepSeek 的内部结果,DeepSeek V4 展现出令人印象深刻的性能,尤其在将推理能力推至上限(DeepSeek-V4-Pro-Max)时表现突出。 

官方发布说明显示,其在更广泛行业对比中的相对位置如下:

知识与推理

Pro-Max 轻松超越其他开源模型,并击败诸如 GPT-5.2 等较早期的前沿模型。在 MMLU-Pro 上得分 87.5%,在 GPQA Diamond 上得分 90.1%,并在数学基准 GSM8K 上达到 92.6%。尽管与绝对前沿(GPT-5.4 与 Gemini-3.1-Pro)尚有数月差距,但已显著缩小知识鸿沟。

Agent 任务

Pro-Max 与领先的开源模型处于同一水平,Terminal Bench 2.0 得分 67.9%SWE-Bench Pro 得分 55.4%。尽管在公开排行榜上略逊于最新的闭源模型,内部测试显示其可超越 Claude Sonnet 4.5,并接近 Opus 4.5 的水平。

长上下文

100 万 token 的窗口并非纸上谈兵。Pro-Max 在此项上表现极强,MRCR 1M(MMR)“大海捞针”检索测试得分 83.5%。在学术类长上下文基准上,这一成绩甚至超过了 Gemini-3.1-Pro。

DeepSeek V4 Pro 与 Flash

由于体量更小,Flash-Max 在纯知识测评上分数自然更低,并在最复杂的 Agent 工作流中更易受限。不过,如果给予更大的“思考预算”,其推理分数可媲美较早期的前沿模型,对于高负载场景而言极具性价比。

DeepSeek v4 benchmarks

图片来源

如何获取 DeepSeek V4?

目前有多种方式可以使用 DeepSeek V4:

  • 网页端:可在 chat.deepseek.com 通过即时模式或专家模式立即体验两款模型。
  • API 访问:API 今日可用。开发者只需将模型参数更新为 deepseek-v4-prodeepseek-v4-flash。该 API 同时兼容 OpenAI ChatCompletions 与 Anthropic 的 API 格式。(注意:旧版 deepseek-chatdeepseek-reasoner 模型将于 2026 年 7 月 24 日停用)。
  • 开源权重:两款模型均以 MIT 许可证发布。您可以从 Hugging Face 或 ModelScope 直接下载权重。Pro 的下载体积为 865GB,Flash 则为更易管理的 160GB。

DeepSeek V4 与竞品对比

过去一周内,OpenAI 的 GPT-5.5 与 Anthropic 的 Claude Opus 4.7 相继发布。尽管这些模型在长上下文推理与 Agent 化编程方面拥有顶级能力,DeepSeek V4 在价值与开放可得性方面竞争力十足。

以下是 DeepSeek-V4-Pro 与 OpenAI 与 Anthropic 新旗舰模型的对比:

功能/基准

DeepSeek V4 Pro

GPT-5.5

Claude Opus 4.7

API 定价(每百万:输入 / 输出)

$1.74 / $3.48

$5.00 / $30.00

$5.00 / $25.00

上下文窗口

100 万 tokens

约 100 万 tokens

约 100 万 tokens

SWE-bench Pro(编程)

55.4%

58.6%

64.3%

Terminal-Bench 2.0(Agent)

67.9%

82.7%

69.4%

开放权重

是(MIT 许可证)

否(闭源)

否(闭源)

注:若您更看重预算,DeepSeek V4 Flash 的价格仅为每百万输入 token $0.14、每百万输出 token $0.28,甚至低于诸如 GPT-5.4 Nano 这类小型模型。

DeepSeek V4 有多强?

DeepSeek V4 是一次颠覆性的发布。根据 DeepSeek 自报的基准结果,Pro 模型与最前沿的模型(如 GPT-5.4 与 Gemini-3.1-Pro)在发展进程上仅相差约 3 至 6 个月。

不过放在更宽广的行业背景下看,原始性能只是故事的一半。DeepSeek V4 最大的亮点在于其超高的上下文效率与极具吸引力的价格。 

在以极低成本提供接近前沿的能力(包括 100 万 token 上下文窗口)方面,DeepSeek V4 成为高吞吐企业任务、开源研究者与注重预算的开发者的最具吸引力之选。

DeepSeek V4 的应用场景

结合上述优势,我认为 V4 在以下领域尤为出色: 

  • 自动化软件工程:优秀的 Agent 基准表现与对 OpenClaw 等工具的集成,使 V4-Pro 成为自动化重构与调试代码库的有力候选。
  • 海量文档处理:在 100 万 token 上下文下的计算成本下降,意味着财务分析师与法务团队可用极低成本处理海量 PDF、10-K 与合同。
  • 本地部署与研究:由于采用 MIT 许可证,研究者可进行量化(尤其是 160GB 的 Flash 模型),在高端消费级硬件上本地探索前沿级 AI。

结语

DeepSeek V4 为开源 AI 社区带来了巨大进步。尽管在最艰难的编程与推理基准上,GPT-5.5 与 Claude Opus 4.7 可能略胜一筹,DeepSeek V4 却将 100 万 token 的上下文窗口与复杂的 Agent 工作流普惠化。

如果您希望走在前沿,并把这些尖端模型落地到自己的工作流程中,建议查看我们的部分资源。尤其是 Understanding Prompt Engineering 课程,帮助您优化与 DeepSeek 等模型的交流方式;或我们的 AI Agent Fundamentals skill track,助您开始构建可扩展的 Agent 化系统。

DeepSeek V4 常见问题

DeepSeek V4 是否开源?

是的。DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 均为开源权重模型,并以高度宽松的 MIT 许可证发布。这允许开发者与研究者在商业环境中使用、修改与部署这些模型。

DeepSeek V4 的上下文窗口是多少?

Pro 与 Flash 两个模型均默认支持 100 万 token 的上下文窗口。凭借全新的混合注意力架构,DeepSeek V4 能以远低于旧模型的算力与内存成本处理如此巨大的上下文。

DeepSeek V4 API 的费用是多少?

定价非常具有竞争力。DeepSeek-V4-Flash 的价格仅为每百万输入 token $0.14、每百万输出 token $0.28。DeepSeek-V4-Pro 的价格为每百万输入 token $1.74、每百万输出 token $3.48。

DeepSeek V4 模型有多大?

DeepSeek 采用专家混合(MoE)架构。Pro 模型包含 1.6 万亿总参数(激活参数 490 亿),下载体积为 865GB。Flash 模型包含 2840 亿参数(激活参数 130 亿),下载体积为 160GB。

DeepSeek V4 能否击败 GPT-5.5 和 Claude Opus 4.7?

若仅比拼能力,答案是否定的。根据 DeepSeek 自报数据,V4-Pro 在最困难的编程与推理基准上,较最先进的闭源模型仍落后约 3 至 6 个月。不过,它以约三分之一的 API 成本提供接近前沿的性能,颇具颠覆性。

主题

DataCamp 热门课程

Tracks

AI Fundamentals

10小时
Discover the fundamentals of AI, learn to leverage AI effectively for work, and dive into models like ChatGPT to navigate the dynamic AI landscape.
查看详情Right Arrow
开始课程
查看更多Right Arrow