Track
После месяцев слухов и сразу вслед за выходом новых GPT-5.5 и Claude Opus 4.7 DeepSeek наконец выпустила DeepSeek V4. Релиз представлен в виде двух превью-моделей — V4-Pro и V4-Flash — с агрессивным ценообразованием и производительностью, почти соответствующей лидерам.
DeepSeek V4-Pro насчитывает суммарно 1,6 трлн параметров и по умолчанию поддерживает контекстное окно в 1 миллион токенов. По словам DeepSeek, отставание от передовых закрытых моделей составляет всего 3–6 месяцев, при этом стоимость — лишь малая доля цены конкурентов вроде OpenAI и Anthropic.
В этой статье я расскажу о релизе DeepSeek V4, его ключевых возможностях, результатах бенчмарков и сравнении с конкурентами. Также вы можете посмотреть наши материалы по GPT-5.5 и Claude Opus 4.7.
Коротко о DeepSeek V4
- V4 выпускается в двух вариантах: Pro (1,6T параметров) и Flash (284B параметров).
- Обе модели по умолчанию поддерживают контекстное окно в 1 миллион токенов.
- Pro стоит $1,74 за вход / $3,48 за выход на 1 млн токенов, существенно дешевле GPT-5.5 и Opus 4.7.
- Доступно через API, веб-интерфейс и открытые веса (лицензия MIT).
Что такое DeepSeek V4?
DeepSeek V4 — давно ожидаемая новая серия моделей больших языковых моделей с открытыми весами от китайской лаборатории DeepSeek. Выпущенная 24 апреля 2026 года серия V4 включает две версии: DeepSeek-V4-Pro и DeepSeek-V4-Flash. Обе модели используют a Mixture of Experts (MoE) aрхитектуру и по умолчанию предлагают огромное контекстное окно на 1 миллион токенов.
Главная значимость DeepSeek V4 для отрасли — в сочетании производительности, близкой к передовой, и очень конкурентной цены. Модель V4-Pro насчитывает 1,6 трлн суммарных параметров (49 млрд активных), что делает её крупнейшей моделью с открытыми весами на рынке.
Несмотря на размер, по заявлениям DeepSeek, отставание от лучших закрытых моделей составляет всего 3–6 месяцев, при этом цена — лишь часть стоимости решений от OpenAI и Anthropic.
Ключевые возможности DeepSeek V4
Рассмотрим некоторые из самых заметных возможностей нового релиза:
Структурные инновации и эффективность в контексте 1M
Ключевая особенность DeepSeek V4 — чрезвычайно эффективная работа с длинным контекстом.
Согласно техническим примечаниям, серия V4 использует гибридную архитектуру внимания, объединяющую Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA).
Благодаря этим структурным изменениям контекст в 1 миллион токенов стал стандартом во всех сервисах DeepSeek.
DeepSeek утверждает, что в сценарии с контекстом 1M токенов DeepSeek-V4-Pro требует лишь 27% FLOPs для вывода по одному токену и всего 10% KV-кэша по сравнению с предшественником, DeepSeek-V3.2.
Три режима рассуждений
Чтобы дать пользователям тонкий контроль над задержкой и качеством, DeepSeek V4 включает три режима рассуждений:
- Non-think: Быстрые, интуитивные ответы для повседневных задач и решений с низким риском.
- Think High: Осознанный логический анализ — медленнее, но очень точный для сложных задач.
- Think Max: Максимально задействует способности к рассуждению, исследуя пределы возможностей модели.
Расширенные агентные возможности
DeepSeek V4, судя по всему, оптимизирован для агентного кодинга. В примечаниях к релизу утверждается, что он бесшовно интегрируется с ведущими AI-агентами, такими как Claude Code, OpenClaw и OpenCode, и уже используется во внутренней агентной инфраструктуре DeepSeek.
Продвинутые оптимизации обучения
Под капотом DeepSeek внедрила Manifold-Constrained Hyper-Connections (mHC) для усиления резидуальных связей и стабилизации распространения сигнала. Также был выбран оптимизатор Muon для более быстрой сходимости и устойчивости обучения; модели предобучены на более чем 32 трлн разнообразных токенов.
Бенчмарки DeepSeek V4
Согласно внутренним результатам DeepSeek, DeepSeek V4 демонстрирует впечатляющую производительность, особенно при работе на максимальных режимах рассуждений (DeepSeek-V4-Pro-Max).
По официальным примечаниям к релизу, вот как модель выглядит на фоне отрасли:
Знания и рассуждения
Pro-Max с лёгкостью превосходит другие модели с открытым кодом и обходит более старые фронтирные модели, такие как GPT-5.2. Она показывает очень конкурентные 87,5% на MMLU-Pro и 90,1% на GPQA Diamond, а также впечатляющие 92,6% на GSM8K по математике. Хотя она всё ещё немного уступает самому передовому уровню (GPT-5.4 и Gemini-3.1-Pro), разрыв в знаниях заметно сократился.
Агентные задачи
Pro-Max на уровне ведущих открытых моделей, достигая 67,9% на Terminal Bench 2.0 и 55,4% на SWE-Bench Pro. Хотя в публичных таблицах она немного уступает новейшим закрытым моделям, внутренние тесты показывают превосходство над Claude Sonnet 4.5 и приближение к уровню Opus 4.5.
Длинный контекст
Окно в 1 миллион токенов — не для галочки. Pro-Max демонстрирует здесь очень сильные результаты, набирая 83,5% на MRCR 1M (MMR) в тестах поиска «иголки в стоге сена». Это даже превосходит Gemini-3.1-Pro на академических бенчмарках длинного контекста.
DeepSeek V4 Pro vs Flash
Из-за меньшего размера Flash-Max естественно показывает более низкие результаты по «чистым» знаниям и испытывает трудности с наиболее сложными агентными сценариями. Однако при увеличении «бюджета на размышления» он достигает показателей рассуждений, сопоставимых со старыми фронтирными моделями, что делает его крайне экономичным вариантом для больших нагрузок.

Как получить доступ к DeepSeek V4?
Есть несколько способов получить доступ к DeepSeek V4 уже сейчас:
- Веб-интерфейс: Вы можете попробовать обе модели на chat.deepseek.com в режимах Instant Mode или Expert Mode.
- Доступ через API: API доступен уже сегодня. Разработчикам достаточно указать модель
deepseek-v4-proилиdeepseek-v4-flash. API совместим с форматами OpenAI ChatCompletions и Anthropic API. (Примечание: устаревшие моделиdeepseek-chatиdeepseek-reasonerбудут выведены из эксплуатации 24 июля 2026 года). - Открытые веса: Обе модели выпущены по лицензии MIT. Вы можете скачать веса напрямую с Hugging Face или ModelScope. Размер скачивания для Pro — 865 ГБ, для Flash — гораздо более управляемые 160 ГБ.
DeepSeek V4 и конкуренты
За последнюю неделю вышли OpenAI GPT-5.5 и Anthropic Claude Opus 4.7. Хотя эти модели демонстрируют высочайшие возможности, особенно в рассуждениях на длинном контексте и агентном кодинге, DeepSeek V4 предлагает сильную ценность и открытую доступность.
Вот как DeepSeek-V4-Pro выглядит на фоне новых флагманов от OpenAI и Anthropic:
|
Функция/бенчмарк |
DeepSeek V4 Pro |
GPT-5.5 |
Claude Opus 4.7 |
|
Цена API (вход / выход за 1M) |
$1,74 / $3,48 |
$5,00 / $30,00 |
$5,00 / $25,00 |
|
Контекстное окно |
1M токенов |
~1M токенов |
~1M токенов |
|
SWE-bench Pro (кодинг) |
55,4% |
58,6% |
64,3% |
|
Terminal-Bench 2.0 (агентные) |
67,9% |
82,7% |
69,4% |
|
Открытые веса |
Да (лицензия MIT) |
Нет (закрыто) |
Нет (закрыто) |
Примечание: тем, кто в первую очередь ориентируется на бюджет, DeepSeek V4 Flash обойдётся всего в $0,14 за 1M входных токенов и $0,28 за 1M выходных токенов — дешевле даже небольших моделей вроде GPT-5.4 Nano.
Насколько хорош DeepSeek V4?
DeepSeek V4 — крайне «ломающий рынок» релиз. По данным самих разработчиков, модель Pro отстаёт от передовых фронтирных моделей (таких как GPT-5.4 и Gemini-3.1-Pro) всего на 3–6 месяцев по траектории развития.
Однако в более широком отраслевом контексте «сырая» производительность — лишь часть пазла. Главный заголовок про DeepSeek V4 — это сверхвысокая эффективность работы с контекстом и минимальные цены.
Предлагая возможности, близкие к фронтирным, включая окно контекста в 1M токенов, по цене в разы ниже GPT-5.5 или Opus 4.7, DeepSeek V4 становится самым привлекательным вариантом для массовых корпоративных задач, исследователей open-source и разработчиков с ограниченным бюджетом.
Сценарии использования DeepSeek V4
С учётом этих сильных сторон вот несколько областей, где V4 особенно хорош:
- Автоматизированная разработка ПО: Сильные агентные бенчмарки и интеграция с инструментами вроде OpenClaw делают V4-Pro отличным кандидатом для автономного рефакторинга и отладки кодовых баз.
- Обработка документов в больших объёмах: Снижение затрат при вычислениях в контексте 1M токенов позволяет финансовым аналитикам и юристам за копейки обрабатывать горы PDF, 10-K и контрактов.
- Локальный деплой и исследования: Благодаря лицензии MIT исследователи могут проводить квантование (особенно для модели Flash на 160 ГБ), чтобы экспериментировать с фронтирным ИИ локально на мощном потребительском «железе».
Итоги
DeepSeek V4 — огромный шаг вперёд для сообщества open-source ИИ. Хотя GPT-5.5 и Claude Opus 4.7 могут опережать его в самых сложных бенчмарках по коду и рассуждениям, DeepSeek V4 демократизирует доступ к контекстным окнам на 1 миллион токенов и сложным агентным конвейерам.
Если вы хотите быть впереди и научиться внедрять эти передовые модели в собственные рабочие процессы, рекомендую воспользоваться нашими материалами. В частности, курс Understanding Prompt Engineering, чтобы совершенствовать взаимодействие с моделями вроде DeepSeek, и наш AI Agent Fundamentals skill track, если вы хотите начать строить масштабируемые агентные системы.
DeepSeek V4: ответы на частые вопросы
Является ли DeepSeek V4 open-source?
Да. И DeepSeek-V4-Pro, и DeepSeek-V4-Flash — модели с открытыми весами, выпущенные под весьма либеральной лицензией MIT. Это позволяет разработчикам и исследователям использовать, модифицировать и коммерчески развёртывать модели.
Какое контекстное окно у DeepSeek V4?
И Pro, и Flash по умолчанию поддерживают контекстное окно в 1 миллион токенов. Благодаря новой гибридной архитектуре внимания DeepSeek V4 работает с таким огромным контекстом при существенно меньших вычислительных и мемориальных затратах по сравнению со старыми моделями.
Сколько стоит API DeepSeek V4?
Цены крайне конкурентные. DeepSeek-V4-Flash стоит всего $0,14 за 1M входных токенов и $0,28 за 1M выходных токенов. DeepSeek-V4-Pro стоит $1,74 за 1M входных токенов и $3,48 за 1M выходных токенов.
Насколько велики модели DeepSeek V4?
DeepSeek использует архитектуру Mixture of Experts (MoE). Модель Pro содержит 1,6 трлн суммарных параметров (49 млрд активных) и требует скачивания 865 ГБ. Модель Flash содержит 284 млрд параметров (13 млрд активных) и требует скачивания 160 ГБ.
Превосходит ли DeepSeek V4 GPT-5.5 и Claude Opus 4.7?
Если говорить о чистых возможностях — нет. По собственным данным DeepSeek, модель V4-Pro отстаёт от передовых закрытых моделей примерно на 3–6 месяцев в самых сложных бенчмарках по коду и рассуждениям. Однако при этом она обеспечивает производительность, близкую к фронтиру, примерно за треть стоимости API, что делает её крайне «ломающей рынок».