Claude Opus 4.7 и Gemini 3.1 Pro: какая модель лучше?

Мы сравниваем Opus 4.7 и Gemini 3.1 Pro по программированию, рассуждению, агентным бенчмаркам, ценам и лимитам контекста, чтобы помочь вам выбрать подходящую модель.

Обновлено 27 апр. 2026 г. · 10 мин читать

Изучить с помощью AI

Открыть в ChatGPT Открыть в Claude Открыть в Perplexity

Пока что 2026 год проходит под знаком агентного ИИ. Улучшения моделей привели к появлению множества инструментов для агентной работы — от персональных AI-ассистентов до кодирующих агентов. Ключевыми игроками здесь стали Gemini от Google, серия GPT от OpenAI и модели Anthropic, которые полюбились разработчикам.

В этой статье я сравню Claude Opus 4.7 и Gemini 3.1 Pro, включая бенчмарки и цены. В конце я дам критерий, который поможет вам решить, какая из моделей лучше подходит для вашего рабочего процесса.

Что такое Claude Opus 4.7?

Как мы рассказываем в нашей статье об Opus 4.7, Claude Opus 4.7 — это новый флагман Anthropic, обновление его предшественника Claude Opus 4.6. Он создан для сложных агентных рабочих процессов и многошагового рассуждения. Модель лучше справляется с агентным кодингом, визуальным рассуждением и использованием инструментов.

Ключевые возможности и особенности Claude Opus 4.7

Одна из центральных функций Opus 4.7 — бюджеты задач, позволяющие задать финансовое ограничение на количество токенов, которые агент может израсходовать на задачу. Это предотвращает неожиданные расходы при автономной работе агента, заставляя его оптимизировать и укладываться в бюджет.

У Claude Opus 4.7 окно контекста составляет 1 миллион токенов и до 128 тыс. выходных токенов. Это означает, что он может выполнять длительные задачи, сохраняя весь контекст. Особенно полезно при исследовании большого кодовой базы.

Модель также улучшила зрительные возможности, поддерживая изображения до 3,75 мегапикселя. В результате она лучше справляется с визуальным рассуждением, чем Opus 4.6, что делает её идеальной для задач вроде извлечения данных из высокодетализированных графиков.

В Opus 4.7 появился новый уровень рассуждения xhigh, который располагается между high и max и даёт наилучшие результаты в задачах кодинга и агентных сценариях. Можно также использовать усилие high для несколько меньшей глубины размышлений. Anthropic также представила команду /ultrareview в Claude Code для ревью изменений кода и поиска багов.

Некоторых может удивить, что Adaptive Thinking теперь по умолчанию не выводит размышления. Вы можете вернуть краткое изложение рассуждений, установив thinking.display в значение summarized.

По бенчмаркам Opus 4.7 набирает:

87,6% на SWE-bench Verified
64,3% на более сложном варианте SWE-bench Pro
78% на OSWorld, который измеряет автономное использование компьютера
77,3% на MCP Atlas для оркестровки многоинструментальных рабочих процессов

На момент релиза Claude Opus 4.7 он возглавил индекс Artificial Analysis Intelligence с результатом 57. Он также лидировал в реальных агентных задачах по метрике GDPval-AA с показателем 1 753 Elo. С тех пор GPT-5.5 обошёл его по обоим направлениям.

Узнайте, как построить эталонное приложение на Streamlit, чтобы проверить, действительно ли память самокритики в Opus 4.7 улучшает качество кодинга на уровнях усилий high, xhigh и max, в нашем практическом бенчмарке Claude Opus 4.7.

Плюсы и минусы Claude Opus 4.7

Модели Anthropic известны как лучшие для программирования, и бенчмарки Opus 4.7 это подтверждают. Однако семейство Opus недешёвое, поэтому бюджеты задач — полезное дополнение, особенно для тех, кто запускает длинные агентные пайплайны.

Модель доступна через различные облачные провайдеры, такие как Amazon Bedrock, Google Vertex AI и Microsoft Foundry. Это упрощает интеграцию с использованием вашего текущего провайдера.

Opus 4.7 также поставляется с новым токенизатором, что немного усложняет сравнение фактической стоимости с предыдущей моделью Opus. Однако, по данным Artificial Analysis Intelligence, для запуска индекса Opus 4.7 использовал примерно на 35% меньше выходных токенов, чем Opus 4.6.

Познакомьтесь с возможностями лучшей общедоступной модели Anthropic, Claude Opus 4.7, и создайте инструмент для науки о данных, который превращает график в «сырые» данные, по нашему руководству по API Claude Opus 4.7.

Что такое Gemini 3.1 Pro?

Gemini 3.1 Pro — текущая флагманская модель рассуждения Google DeepMind на базе трансформера с архитектурой mixture of experts. На момент выхода Gemini 3.1 Pro возглавляла индекс Artificial Analysis Intelligence с отрывом в 4 пункта от Opus 4.6, а сейчас идёт вровень с Opus 4.7 с результатом 57.

Чтобы узнать больше о Gemini 3.1 Pro, ознакомьтесь с нашей статьёй «Создаём с Gemini 3.1 Pro», где мы разбираем, как построить готовое к продакшену приложение на Gemini 3.1 Pro.

Ключевые возможности и особенности Gemini 3.1 Pro

В отличие от Gemini 3 Pro, у которой было два уровня, у Gemini 3.1 Pro три уровня размышления: low, medium и high. Уровень low лучше всего подходит для скорости и экономии токенов. medium даёт сбалансированный подход. Поскольку high генерирует больше «thinking»-токенов и самые медленные ответы, используйте его для задач, требующих сложного рассуждения.

Gemini 3.1 Pro также поддерживает окно контекста в 1 миллион токенов на входе, но более небольшое — порядка 65 тыс. — на выходе. Это мультимодальная модель с поддержкой аудио, PDF, текста и изображений.

Перейдём к бенчмаркам. Вот два направления, где Gemini 3.1 Pro выделяется:

Gemini 3.1 Pro лидирует на ARC-AGI-2 с результатом 77,1%.
Gemini 3.1 Pro набирает 73,9% на MCP Atlas, который измеряет координацию многоинструментальных рабочих процессов.

По данным Artificial Analysis Intelligence, Gemini 3.1 Pro Preview эффективна по токенам: на запуск их индекса потребовалось около 57 млн токенов по сравнению с Opus 4.6.

Gemini 3.1 Pro опережает Opus 4.7 в индексе Coding от Artificial Analysis, но уступает ему в Agentic Index.

Плюсы и минусы Gemini 3.1 Pro

Цены на Gemini 3.1 Pro весьма привлекательны, особенно для задач с большим объёмом токенов. Google также предлагает скидку 50% в пакетном режиме биллинга (batch pricing), что делает модель идеальной, когда вам не нужны результаты в реальном времени.

Из минусов — выходное окно Gemini 3.1 Pro на 65 тыс. токенов вдвое меньше, чем у Opus 4.7 (128 тыс.).

Сравнение Claude Opus 4.7 и Gemini 3.1 Pro лицом к лицу

Краткая шпаргалка перед тем, как перейти к каждой категории.

	Claude Opus 4.7	Gemini 3.1 Pro
Дата выхода	16 апреля 2026	19 февраля 2026
Окно контекста	1 млн токенов	1 млн токенов
Макс. вывод	128 тыс. токенов	65 тыс. токенов
SWE-bench Verified	87,6%	80,6%
SWE-bench Pro	64,3%	54,2%
ARC-AGI-2	68,8%	77,1%
GPQA Diamond	94,2% (ничья)	94,3% (ничья)
MCP Atlas	77,3%	73,9%
OSWorld	78,0%	Нет опубликованного результата
Визуальные возможности	2576 px / 3,75 МП	Мультимодальность (видео, аудио, PDF)
Цена ввода	$5/млн токенов	$2/млн токенов
Цена вывода	$25/млн токенов	$12/млн токенов

Производительность в агентных задачах и при работе с компьютером

Opus 4.7 — очень сильная модель для агентной работы, в частности потому, что позволяет контролировать, сколько токенов может использовать агент. В Gemini 3.1 Pro такой системы нет; для управления расходом токенов приходится выбирать уровень thinking.

Opus 4.7 набирает 78% в бенчмарке OSWorld по автономному использованию компьютера — это результат на уровне GPT 5.5 с 78,7%, тогда как у Gemini 3.1 Pro нет опубликованной оценки OSWorld. В MCP Atlas Opus 4.7 лидирует с 77,3% против 73,9% у Gemini. Эти цифры делают Opus 4.7 отличным выбором для продакшен-агентов.

Бенчмарки по программированию

Теперь посмотрим, какая модель лучше в программировании по имеющимся бенчмаркам, особенно SWE-bench Verified, который проверяет реальные задачи из GitHub.

Opus 4.7 достигает 87,6% против 80,6% у Gemini 3.1 Pro. На SWE-bench Pro, более сложном варианте тестов, Opus 4.7 набирает 64,3% против 54,2% у Gemini (и 58,6% у GPT 5.5). Эти числа показывают, что Opus 4.7 сейчас — самая сильная модель для кодинга в мире.

Посмотрим, как модели выступают на Terminal-Bench 2.0, который оценивает способность писать код в терминале. Opus 4.7 набирает 69,4%, Gemini Pro — 68,5%, а новый GPT 5.5 — 82,7%. GPT‑5.5 — явный победитель в этом бенчмарке, а наши две модели здесь фактически на равных.

Рассуждение и научные задачи

Какая модель лучше для рассуждения и научных задач? Давайте выясним. Я не буду использовать бенчмарк GPQA Diamond, потому что все модели показывают там отличные результаты. Вместо этого посмотрим на ARC-AGI-2, который измеряет «текучий интеллект» — способность модели решать абстрактные задачи, с которыми она ранее не сталкивалась.

Gemini 3.1 Pro набирает 77,1% против 75,8% у Opus 4.7 и 85,0% у GPT 5.5, что делает GPT 5.5 явным лидером здесь, за ним следует Gemini 3.1 Pro.

В Humanity's Last Exam, который призван измерять уровень рассуждений магистерского уровня в науке, математике и гуманитарных науках, Opus 4.7 опережает Gemini 3.1 Pro как с инструментами, так и без них:

Без инструментов: Opus 4.7 лидирует с 46,9%, за ним Gemini 3.1 Pro (44,4%) и GPT 5.5 Pro (43,1%).
С инструментами: GPT 5.5 Pro лидирует с 57,2%, за ним Opus 4.7 (54,7%) и Gemini 3.1 Pro (51,4%).

Стоимость и эффективность по токенам

Opus 4.7 стоит $5 за миллион входных токенов и $25 за миллион выходных токенов, тогда как Gemini 3.1 Pro — $2 за миллион входных токенов и $12 за миллион выходных. Gemini значительно дешевле, а со скидкой 50% при пакетном ценообразовании модель очень выгодна для задач с большим числом токенов.

Также важно отметить, что новый токенизатор в Opus 4.7 немного затрудняет сравнение стоимости с предыдущей моделью Opus.

Окно контекста и объём вывода

Обе модели принимают до 1 миллиона входных токенов, что позволяет им «съедать» целые кодовые базы и длинные исследовательские документы в одном запросе.

По выходным токенам Opus 4.7 поддерживает 128 тыс., тогда как Gemini 3.1 Pro — 65 536. Это делает Opus лучшим выбором для процессов, которым требуется генерировать больше выходного текста.

Узнайте, как соотносятся Opus 4.7 и GPT 5.4, в нашем руководстве «Opus 4.7 vs. GPT‑5.4», где мы сравниваем их для кодинга, агентных пайплайнов и задач с длинным контекстом и анализируем бенчмарки.

Лучше ли Claude Opus 4.7, чем Gemini 3.1 Pro?

Итак, какую из двух моделей стоит выбрать?

Вам стоит выбрать Claude Opus 4.7, если...

Вы строите агентные конвейеры для кодинга, где разница в 10 пунктов на SWE-bench Pro напрямую снижает число неудачных запусков в продакшене.
Вам нужны бюджеты задач, чтобы сделать длительные автономные циклы более предсказуемыми без добавления внешней логики мониторинга.
Ваш пайплайн генерирует длинные ответы, и потолок в 128 тыс. токенов важен — это почти вдвое больше, чем поддерживает Gemini 3.1 Pro.
Вам нужен самый высокий результат по оркестрации нескольких инструментов в MCP Atlas для сложных агентных рабочих процессов.
Вы уже в экосистеме Anthropic — через Claude Code, Amazon Bedrock или Claude API — и стоимость переключения перевешивает разницу в цене.

Вам стоит выбрать Gemini 3.1 Pro, если...

Ваши объёмы токенов делают разницу в 2,5 раза по цене ввода существенной: при 500 млн токенов в месяц это $1 500 ежемесячно.
Вам нужны нативные видео-, аудио- или PDF-входы в одном вызове API без отдельного шага предобработки.
Вы строите на инфраструктуре Google и хотите работать с одним вендором через Vertex AI.
Абстрактное визуальное рассуждение — ваш основной кейс. Opus уступает на ARC-AGI-2 с 75,8% против 77,1% у Gemini.

Итоги

И Claude Opus 4.7, и Gemini 3.1 Pro — сильные модели. Выбор зависит от вашего бюджета и задач. Opus выигрывает в агентных сценариях, но если он не вписывается в бюджет, Gemini 3.1 Pro — тоже сильный кандидат, особенно с более дешёвыми токенами и скидкой 50% при пакетном ценообразовании.

Anthropic сохраняет лидерство по лучшим моделям для кодинга, что делает их крайне подходящими для агентных задач, требующих сложного рассуждения и программирования. Google предлагает передовые модели рассуждения по заметно более низкой цене по сравнению с Anthropic. Борьба между обеими компаниями и другими крупными игроками, такими как OpenAI, идёт за то, чтобы предложить лучший агентный ИИ, который при этом будет хорош и как универсальная модель.

Учитывая высокую стоимость семейства Opus, приятно видеть появление бюджетов задач. Не удивлюсь, если другие провайдеры внедрят это в будущих релизах. Это поможет сделать стоимость длительных агентных задач более предсказуемой.

Чтобы узнать больше о работе с инструментами ИИ, рекомендую посмотреть наш обзор лучших бесплатных инструментов ИИ. Для более широких навыков кодинга с ИИ попробуйте курс AI‑Assisted Coding for Developers, чтобы развить навыки, делающие AI‑ассистентов более надёжными партнёрами в вашем процессе разработки.

Наконец, вы также можете узнать, как создавать приложения на базе ИИ с использованием LLM, промптов, цепочек и агентов в LangChain на нашем курсе Developing LLM Applications with LangChain.

Темы

Искусственный интеллект

Большие языковые модели