Gemini 3.5 Flash vs Claude Opus 4.7: спринтер и хирург

Скоростная модель Google уровня Flash против флагмана Anthropic с глубоким кодингом: агентные процессы, рассуждение, мультимодальность и цены.

Обновлено 25 мая 2026 г. · 12 мин читать

Если вы строите агентные пайплайны или выбираете помощника для программирования, скорее всего, сейчас сравниваете Gemini 3.5 Flash и Claude Opus 4.7. Обе модели вышли в 2026 году, обе нацелены на долгосрочные агентные задачи и обе заявляют о превосходстве над предыдущим поколением по ключевым для продакшна бенчмаркам. Выбор неочевиден.

Gemini 3.5 Flash — ответ Google на вопрос, может ли модель, оптимизированная на скорость, быть моделью переднего края. Claude Opus 4.7 — текущий продакшн-флагман Anthropic, прямое обновление Opus 4.6 с существенным приростом в агентном кодинге и кросс-сессионной памяти.

В этой статье я сравню Gemini 3.5 Flash и Claude Opus 4.7 по пяти направлениям: кодинг и агентные рабочие процессы, задачи рассуждения и знаний, мультимодальные возможности, экосистема и доступность, а также цены. Также вы можете посмотреть наши отдельные обзоры Gemini 3.5 Flash и Claude Opus 4.7 для более детального разбора каждой модели.

Что такое Gemini 3.5 Flash?

Gemini 3.5 Flash — последняя скоростная модель Google, анонсированная на Google I/O 2026 19 мая. Она относится к уровню Flash в семействе Gemini 3.5, которое Google позиционирует как новую линейку, ориентированную на агентное исполнение, а не только на быструю инференс. Ключевая заявка — 3.5 Flash обеспечивает интеллект уровня передового фронтира при вчетверо большей пропускной способности по выходным токенам по сравнению с другими фронтирными моделями.

Необычно для модели уровня Flash то, что 3.5 Flash обходит последнюю версию Pro, Gemini 3.1 Pro, по ряду бенчмарков для агентных и кодинговых задач, включая Terminal-Bench 2.1 (76,2%), MCP Atlas (83,6%) и Finance Agent v2 (57,9%).

Она спроектирована для работы с каркасом Antigravity от Google для мультиагентных развёртываний. Обязательно прочитайте наш материал Claude Code vs Antigravity для подробного сравнения подходов Anthropic и Google к каркасам для агентов.

Flash 3.5 теперь является моделью по умолчанию в приложении Gemini и в режиме AI в Поиске по всему миру. Gemini 3.5 Pro находится в разработке и ожидается в следующем месяце.

Что такое Claude Opus 4.7?

Claude Opus 4.7 — текущий продакшн-флагман Anthropic, выпущенный 16 апреля 2026 года. Это прямое обновление Opus 4.6 с наиболее значимыми улучшениями в:

Агентном кодинге (SWE-bench Pro вырос с 53,4% до 64,3%)
Высокодетальном зрении (изображения до 2 576 пикселей по длинной стороне, более чем втрое выше прежнего лимита)
Кросс-сессионной памяти на базе файлового хранилища

Anthropic описывает её как модель, которой можно поручать сложные задачи программирования с меньшим надзором, чем требовалось Opus 4.6.

Важно помнить одно: Opus 4.7 — не самая способная модель Anthropic. Этой является Mythos Preview, которая набирает 77,8% на SWE-bench Pro против 64,3% у Opus 4.7. Mythos недоступна широко, поэтому для большинства разработчиков практический потолок — Opus 4.7. В Opus 4.7 также появился новый уровень усилий xhigh, который расположен между high и max для более тонкого контроля глубины рассуждений.

Для практических тестов и полного разбора бенчмарков см. наш гайд по Claude Opus 4.7.

Gemini 3.5 Flash vs Claude Opus 4.7: сравнение лицом к лицу

Коротко о том, как модели сопоставляются по параметрам, наиболее важным для практиков.

Характеристика	Gemini 3.5 Flash	Claude Opus 4.7
Уровень	Оптимизирована на скорость (Flash)	Флагман
SWE-bench Pro	55,1%	64,3%
Terminal-bench 2.1	76,2%	66,1%
MCP Atlas (использование инструментов)	83,6%	77,3%
CharXiv Reasoning (мультимодальность)	84,2%	82,1%
Finance Agent v2	57,9%	51,5%
OSWorld (управление компьютером)	78,4%	78,0%
Humanity's Last Exam	40,2%	46,9%
ARC-AGI-2 (абстрактное мышление)	72,1%	75,8%
Контекстное окно	1M токенов	1M токенов
Разрешение зрения	Не указано	До 2 576px / 3,75MP
Поддержка Computer Use	Не поддерживается	Поддерживается (OSWorld: 78,0%)
Стоимость ввода по API	$1,50 / 1M токенов	$5,00 / 1M токенов
Стоимость вывода по API	$9,00 / 1M токенов	$25,00 / 1M токенов
Мультиагентный фреймворк	Каркас Antigravity	Бюджеты задач + параметр усилий

Кодинг и агентные рабочие процессы

Именно здесь различия наиболее заметны, хотя однозначного лидера нет.

На SWE-bench Pro, ключевом бенчмарке для кодинга, Opus 4.7 набирает 64,3% против 55,1% у Gemini 3.5 Flash. Это ощутимый разрыв в пользу репозиторно-уровневой инженерии у Claude. Однако ситуация меняется на Terminal-Bench 2.1, где Gemini 3.5 Flash показывает 76,2%, опережая Opus 4.7 с его 66,1% примерно на ту же величину. Для задач с упором на терминал Gemini 3.5 Flash предпочтительнее.

Бенчмарк	Gemini 3.5 Flash	Claude Opus 4.7	Примечания
SWE-bench Pro	55,1%	64,3%	По данным вендора; Opus 4.7 лидирует примерно на 9 п.п.
Terminal-Bench 2.1 / 2.0	76,2% (v2.1)	69,4% (v2.0)	Разные версии бенчмарка; сравнение ориентировочное
MCP Atlas	83,6%	77,3%	Gemini 3.5 Flash лидирует в оркестрации инструментов

Обе модели рассчитаны на долгосрочные агентные задачи, но подходят к ним по-разному. Gemini 3.5 Flash построена вокруг каркаса Antigravity, который разворачивает коллаборативных субагентов параллельно. Пример Google — синтез статьи AlphaZero и создание полностью играбельной игры силами двух агентов за шесть часов. Opus 4.7 использует бюджеты задач и новый уровень усилий xhigh, чтобы удерживать качество на длинных прогонах; по словам Anthropic, модель «продавливает» сложные проблемы, а не останавливается на полпути.

Gemini 3.5 Flash лидирует на MCP Atlas с 83,6% против 77,3% у Opus 4.7 — это метрика сложных многополосных (multi-tool) рабочих процессов. Если ваш агентный контур опирается в основном на оркестрацию инструментов, а не на глубокое понимание кода, у 3.5 Flash есть реальное преимущество.

Для глубокой программной инженерии сильнее Opus 4.7. Для агентных пайплайнов с тяжелой инструментальной частью, где важны пропускная способность и параллельные субагенты, Gemini 3.5 Flash конкурентоспособна и заметно дешевле.

Задачи рассуждения и знаний

Помимо навыков программирования, общая глубина рассуждений — ключевая область, где Opus 4.7 опережает Gemini 3.5 Flash. В Humanity's Last Exam, наборе вопросов уровня магистратуры по естественным наукам, математике и гуманитарным дисциплинам, Opus 4.7 набирает 46,9% без инструментов против 40,2% у Gemini 3.5 Flash. Разрыв сокращается на абстрактном мышлении: ARC-AGI-2 даёт Flash 72,1% и Opus 4.7 — 75,8%.

Более любопытный сигнал — Finance Agent v2, где Gemini 3.5 Flash набирает 57,9% против 51,5% у Opus 4.7. Именно это число заставило меня пересмотреть всё сравнение. Изначально я предполагал, что Opus 4.7 будет лидировать во всём, что требует многошаговых рассуждений по сложным документам — это ведь её заявленное флагманское преимущество. Победа модели уровня Flash на 6 пунктов в автоматизации финансовых процессов — это не погрешность округления.

Это наводит на мысль, что Google специально оптимизировал 3.5 Flash под типовые для предприятий конвейеры с вызовом инструментов и интенсивной работой с документами.

Мультимодальные возможности и управление компьютером

В CharXiv Reasoning, который проверяет зрительное рассуждение по научным графикам, Gemini 3.5 Flash набирает 84,2% против 82,1% у Opus 4.7. Разрыв небольшой, но показательно, что модель уровня Flash опережает флагман в визуальном рассуждении — особенно учитывая, что это одна из сильных сторон Opus 4.7.

OSWorld, проверяющий управление интерфейсом компьютера, фактически даёт паритет (78,4% против 78,0%). Важная оговорка: Gemini 3.5 Flash не поддерживает функцию Computer Use, несмотря на результат OSWorld, который относится лишь к исследовательской оценке. То есть это измеряет, что модель может сделать в условиях бенчмарка, но инструмент Computer Use API для этой версии модели просто не (пока?) открыт или не поставляется.

Opus 4.7 поддерживает Computer Use, и это задокументированная возможность с результатом 78,0% OSWorld-Verified. Если вашему пайплайну нужны агенты, которые кликают, печатают и автономно перемещаются по приложениям, здесь подходит только Opus 4.7.

Opus 4.7 также получила серьёзное обновление зрения: поддержка изображений до 2 576 пикселей по длинной стороне — более чем втрое выше, чем в предыдущих моделях Claude. Это открывает сценарии вроде чтения «плотных» скриншотов, извлечения данных из сложных диаграмм и компьютерных агентов, которым нужна точность на уровне пикселей. XBOW сообщил о росте с 54,5% до 98,5% в их тесте визуальной остроты после перехода на Opus 4.7 — показатель того, насколько критично увеличение разрешения на практике.

Экосистема и доступность

Gemini 3.5 Flash доступна через Google AI Studio, Gemini API, Android Studio, Gemini Enterprise Agent Platform, Gemini Enterprise и Google Antigravity. Она также используется по умолчанию в приложении Gemini и в режиме AI в Поиске по всему миру, то есть миллиарды пользователей уже работают с ней. Для разработчиков в экосистеме Google Cloud путь интеграции прямой.

Opus 4.7 доступна через Anthropic API, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry, а также в веб- и мобильных приложениях Claude. ID модели — claude-opus-4-7. Anthropic также запустила бюджеты задач в публичной бете вместе с Opus 4.7, дав разработчикам способ ограничивать расход токенов на длинных агентных прогонах. Новая слэш-команда /ultrareview в Claude Code создаёт отдельную сессию ревью, которая помечает баги и проблемы в дизайне.

Практическое отличие: Gemini 3.5 Flash тесно связана с каркасом Antigravity для мультиагентной работы, тогда как бюджеты задач и параметр усилий Opus 4.7 подходят для любой среды оркестрации. Если вы строите на фреймворке, отличном от Antigravity, Opus 4.7 даёт больше гибкости в управлении долгоживущими агентами.

Цены

Здесь сравнение особенно интересно. Gemini 3.5 Flash стоит $1,50 за миллион входных токенов и $9,00 за миллион выходных. Claude Opus 4.7 стоит $5,00 за миллион входных и $25,00 за миллион выходных токенов. При таких ставках Gemini 3.5 Flash примерно в 3,3 раза дешевле по входу и в 2,8 раза — по выходу.

Есть нюанс на стороне Opus 4.7. Anthropic ввела новый токенизатор в Opus 4.7, который использует на 1,0–1,35 раза больше токенов для того же входа по сравнению с Opus 4.6. В англоязычных нагрузках независимые тесты показывают инфляцию токенов примерно на 12–18%. Список цен не изменился, но эффективная стоимость промпта выросла. Рекомендации Anthropic — использовать параметр усилий, бюджеты задач и явные инструкции на краткость.

Для высокообъёмных или чувствительных к задержкам задач по стоимости очевидно выигрывает Gemini 3.5 Flash. Для нагрузок, где действительно нужна глубина кодинга Opus 4.7 или поддержка Computer Use, ценовую премию сложно обойти. В качестве мер контроля затрат Anthropic предлагает кеширование промптов (до 90% экономии на кэшированных входных токенах) и пакетную обработку (до 50% экономии), что может сократить разрыв при подходящих паттернах нагрузки.

Когда выбирать Gemini 3.5 Flash, а когда — Claude Opus 4.7

Данные бенчмарков и различия в возможностях указывают на достаточно чёткое разделение сценариев. Я бы сформулировал выбор так.

Сценарий	Рекомендация	Почему
Высокообъёмные агентные пайплайны с ограничениями по стоимости	Gemini 3.5 Flash	В 3 раза дешевле по выходным токенам и в 4 раза выше пропускная способность
Инжиниринг на уровне репозитория	Claude Opus 4.7	64,3% против 55,1% на SWE-bench Pro; сильнее на сложных многофайловых задачах
Оркестрация агентов с несколькими инструментами	Gemini 3.5 Flash	Лидирует на MCP Atlas: 83,6% против 77,3% у Opus 4.7
Агенты для управления компьютером (клики, ввод, навигация по приложениям)	Claude Opus 4.7	Поддерживается Computer Use; у Gemini 3.5 Flash поддержки нет
Анализ финансовых документов и автоматизация процессов	Gemini 3.5 Flash	Лидирует на Finance Agent v2: 57,9% против 51,5%; пилот Macquarie Bank подтверждает пригодность
Анализ изображений и диаграмм в высоком разрешении	Claude Opus 4.7	Поддержка изображений до 2 576px / 3,75MP; XBOW сообщил 98,5% в тесте визуальной остроты
Интеграция с Google Cloud или приложением Gemini	Gemini 3.5 Flash	Нативная интеграция в Google AI Studio, Android Studio, Gemini Enterprise и Поиске
Длинные кодинговые задачи с кросс-сессионной памятью	Claude Opus 4.7	Файловая память сохраняет важные заметки между сессиями

Выберите Gemini 3.5 Flash, если…

Вы запускаете высокообъёмные агентные пайплайны, где главные ограничения — стоимость и пропускная способность. При $1,50 за вход / $9,00 за выход за миллион токенов она существенно дешевле Opus 4.7 при том же объёме нагрузки.
Ваши процессы больше про инструменты, чем про код. Показатель MCP Atlas 83,6% — самый высокий среди моделей в сравнении, а каркас Antigravity специально создан для параллельного развёртывания субагентов.
Вы уже в экосистеме Google. Модель доступна нативно в Google AI Studio, Android Studio, Gemini Enterprise и Antigravity без дополнительной интеграции.
Ваш кейс включает финансовое рассуждение по документам или анализ графиков. Gemini 3.5 Flash лидирует на Finance Agent v2 и CharXiv Reasoning — неожиданно для модели уровня Flash.

Выберите Claude Opus 4.7, если…

Ваш основной сценарий — инженерия на уровне репозитория. Показатель SWE-bench Pro 64,3% на 9 пунктов выше, чем у Gemini 3.5 Flash; ранние тестеры вроде Cursor (70% против 58% на CursorBench) и Rakuten (в 3 раза больше решённых продакшн-задач) сообщают о значимом приросте в реальности.
Вам нужна поддержка Computer Use. У Gemini 3.5 Flash её нет; Opus 4.7 набирает 78,0% на OSWorld-Verified и остаётся единственным вариантом для агентов, управляющих десктопом.
Агентам нужно работать с изображениями высокого разрешения или плотными техническими диаграммами. Поддержка 2 576px — изменение на уровне модели, оно действует автоматически и критично для OCR, извлечения данных из графиков и для агентов, читающих плотные скриншоты.
Вам нужна кросс-сессионная память для долгих проектов. Файловая память Opus 4.7 позволяет агентам переносить контекст между сессиями без переустановки с нуля каждый раз.

Итоги

Если говорить честно, эти две модели не столько конкурируют за одни и те же нагрузки. Gemini 3.5 Flash — модель уровня Flash, которая при этом обходит Pro-прошлого поколения по ряду агентных бенчмарков, причём по цене, позволяющей практические высокообъёмные развёртывания. Claude Opus 4.7 — флагман с более глубокой способностью к кодингу, поддержкой Computer Use и более сильной «сырой» глубиной рассуждений. Выбор обычно сводится к тому, нужны ли вам показатели уровня SWE-bench и Computer Use, или же вам важнее пропускная способность, экономичность и сильная оркестрация инструментов.

Больше всего в этом сравнении меня зацепил результат Finance Agent v2. 57,9% у Gemini 3.5 Flash против 51,5% у Opus 4.7 в автоматизации финансовых процессов — не то, чего ждёшь от модели, оптимизированной на скорость. В сочетании с лидерством на MCP Atlas это наводит на мысль, что Google специально настраивал 3.5 Flash под многошаговые рабочие процессы с вызовом инструментов и рассуждением по документам, которые реально используются в компаниях, а не только под «сухие» бенчмарки.

За чем стоит последить: Gemini 3.5 Pro ожидается в следующем месяце. Если она повторит путь 3.5 Flash и заметно превзойдёт Gemini 3.1 Pro, сравнение с Opus 4.7 будет иным. Цены уровня Pro, вероятно, сократят разрыв в стоимости, но потолок производительности поднимется. На сейчас Gemini 3.5 Flash — лучший выбор для чувствительных к стоимости агентных задач, а Opus 4.7 — для глубокого кодинга и управления компьютером.

Если вы хотите получить практические навыки работы с агентными ИИ-системами и понять, как использовать подобные модели в продакшне, рекомендую изучить трек навыков AI Agent Fundamentals на DataCamp.

Темы

Искусственный интеллект

Большие языковые модели