Track
Если вы строите агентные пайплайны или выбираете помощника для программирования, скорее всего, сейчас сравниваете Gemini 3.5 Flash и Claude Opus 4.7. Обе модели вышли в 2026 году, обе нацелены на долгосрочные агентные задачи и обе заявляют о превосходстве над предыдущим поколением по ключевым для продакшна бенчмаркам. Выбор неочевиден.
Gemini 3.5 Flash — ответ Google на вопрос, может ли модель, оптимизированная на скорость, быть моделью переднего края. Claude Opus 4.7 — текущий продакшн-флагман Anthropic, прямое обновление Opus 4.6 с существенным приростом в агентном кодинге и кросс-сессионной памяти.
В этой статье я сравню Gemini 3.5 Flash и Claude Opus 4.7 по пяти направлениям: кодинг и агентные рабочие процессы, задачи рассуждения и знаний, мультимодальные возможности, экосистема и доступность, а также цены. Также вы можете посмотреть наши отдельные обзоры Gemini 3.5 Flash и Claude Opus 4.7 для более детального разбора каждой модели.
Что такое Gemini 3.5 Flash?
Gemini 3.5 Flash — последняя скоростная модель Google, анонсированная на Google I/O 2026 19 мая. Она относится к уровню Flash в семействе Gemini 3.5, которое Google позиционирует как новую линейку, ориентированную на агентное исполнение, а не только на быструю инференс. Ключевая заявка — 3.5 Flash обеспечивает интеллект уровня передового фронтира при вчетверо большей пропускной способности по выходным токенам по сравнению с другими фронтирными моделями.
Необычно для модели уровня Flash то, что 3.5 Flash обходит последнюю версию Pro, Gemini 3.1 Pro, по ряду бенчмарков для агентных и кодинговых задач, включая Terminal-Bench 2.1 (76,2%), MCP Atlas (83,6%) и Finance Agent v2 (57,9%).
Она спроектирована для работы с каркасом Antigravity от Google для мультиагентных развёртываний. Обязательно прочитайте наш материал Claude Code vs Antigravity для подробного сравнения подходов Anthropic и Google к каркасам для агентов.
Flash 3.5 теперь является моделью по умолчанию в приложении Gemini и в режиме AI в Поиске по всему миру. Gemini 3.5 Pro находится в разработке и ожидается в следующем месяце.
Что такое Claude Opus 4.7?
Claude Opus 4.7 — текущий продакшн-флагман Anthropic, выпущенный 16 апреля 2026 года. Это прямое обновление Opus 4.6 с наиболее значимыми улучшениями в:
- Агентном кодинге (SWE-bench Pro вырос с 53,4% до 64,3%)
- Высокодетальном зрении (изображения до 2 576 пикселей по длинной стороне, более чем втрое выше прежнего лимита)
- Кросс-сессионной памяти на базе файлового хранилища
Anthropic описывает её как модель, которой можно поручать сложные задачи программирования с меньшим надзором, чем требовалось Opus 4.6.
Важно помнить одно: Opus 4.7 — не самая способная модель Anthropic. Этой является Mythos Preview, которая набирает 77,8% на SWE-bench Pro против 64,3% у Opus 4.7. Mythos недоступна широко, поэтому для большинства разработчиков практический потолок — Opus 4.7. В Opus 4.7 также появился новый уровень усилий xhigh, который расположен между high и max для более тонкого контроля глубины рассуждений.
Для практических тестов и полного разбора бенчмарков см. наш гайд по Claude Opus 4.7.
Gemini 3.5 Flash vs Claude Opus 4.7: сравнение лицом к лицу
Коротко о том, как модели сопоставляются по параметрам, наиболее важным для практиков.
| Характеристика | Gemini 3.5 Flash | Claude Opus 4.7 |
|---|---|---|
| Уровень | Оптимизирована на скорость (Flash) | Флагман |
| SWE-bench Pro | 55,1% | 64,3% |
| Terminal-bench 2.1 | 76,2% | 66,1% |
| MCP Atlas (использование инструментов) | 83,6% | 77,3% |
| CharXiv Reasoning (мультимодальность) | 84,2% | 82,1% |
| Finance Agent v2 | 57,9% | 51,5% |
| OSWorld (управление компьютером) | 78,4% | 78,0% |
| Humanity's Last Exam | 40,2% | 46,9% |
| ARC-AGI-2 (абстрактное мышление) | 72,1% | 75,8% |
| Контекстное окно | 1M токенов | 1M токенов |
| Разрешение зрения | Не указано | До 2 576px / 3,75MP |
| Поддержка Computer Use | Не поддерживается | Поддерживается (OSWorld: 78,0%) |
| Стоимость ввода по API | $1,50 / 1M токенов | $5,00 / 1M токенов |
| Стоимость вывода по API | $9,00 / 1M токенов | $25,00 / 1M токенов |
| Мультиагентный фреймворк | Каркас Antigravity | Бюджеты задач + параметр усилий |
Кодинг и агентные рабочие процессы
Именно здесь различия наиболее заметны, хотя однозначного лидера нет.
На SWE-bench Pro, ключевом бенчмарке для кодинга, Opus 4.7 набирает 64,3% против 55,1% у Gemini 3.5 Flash. Это ощутимый разрыв в пользу репозиторно-уровневой инженерии у Claude. Однако ситуация меняется на Terminal-Bench 2.1, где Gemini 3.5 Flash показывает 76,2%, опережая Opus 4.7 с его 66,1% примерно на ту же величину. Для задач с упором на терминал Gemini 3.5 Flash предпочтительнее.
| Бенчмарк | Gemini 3.5 Flash | Claude Opus 4.7 | Примечания |
|---|---|---|---|
| SWE-bench Pro | 55,1% | 64,3% | По данным вендора; Opus 4.7 лидирует примерно на 9 п.п. |
| Terminal-Bench 2.1 / 2.0 | 76,2% (v2.1) | 69,4% (v2.0) | Разные версии бенчмарка; сравнение ориентировочное |
| MCP Atlas | 83,6% | 77,3% | Gemini 3.5 Flash лидирует в оркестрации инструментов |
Обе модели рассчитаны на долгосрочные агентные задачи, но подходят к ним по-разному. Gemini 3.5 Flash построена вокруг каркаса Antigravity, который разворачивает коллаборативных субагентов параллельно. Пример Google — синтез статьи AlphaZero и создание полностью играбельной игры силами двух агентов за шесть часов. Opus 4.7 использует бюджеты задач и новый уровень усилий xhigh, чтобы удерживать качество на длинных прогонах; по словам Anthropic, модель «продавливает» сложные проблемы, а не останавливается на полпути.
Gemini 3.5 Flash лидирует на MCP Atlas с 83,6% против 77,3% у Opus 4.7 — это метрика сложных многополосных (multi-tool) рабочих процессов. Если ваш агентный контур опирается в основном на оркестрацию инструментов, а не на глубокое понимание кода, у 3.5 Flash есть реальное преимущество.
Для глубокой программной инженерии сильнее Opus 4.7. Для агентных пайплайнов с тяжелой инструментальной частью, где важны пропускная способность и параллельные субагенты, Gemini 3.5 Flash конкурентоспособна и заметно дешевле.
Задачи рассуждения и знаний
Помимо навыков программирования, общая глубина рассуждений — ключевая область, где Opus 4.7 опережает Gemini 3.5 Flash. В Humanity's Last Exam, наборе вопросов уровня магистратуры по естественным наукам, математике и гуманитарным дисциплинам, Opus 4.7 набирает 46,9% без инструментов против 40,2% у Gemini 3.5 Flash. Разрыв сокращается на абстрактном мышлении: ARC-AGI-2 даёт Flash 72,1% и Opus 4.7 — 75,8%.
Более любопытный сигнал — Finance Agent v2, где Gemini 3.5 Flash набирает 57,9% против 51,5% у Opus 4.7. Именно это число заставило меня пересмотреть всё сравнение. Изначально я предполагал, что Opus 4.7 будет лидировать во всём, что требует многошаговых рассуждений по сложным документам — это ведь её заявленное флагманское преимущество. Победа модели уровня Flash на 6 пунктов в автоматизации финансовых процессов — это не погрешность округления.
Это наводит на мысль, что Google специально оптимизировал 3.5 Flash под типовые для предприятий конвейеры с вызовом инструментов и интенсивной работой с документами.
Мультимодальные возможности и управление компьютером
В CharXiv Reasoning, который проверяет зрительное рассуждение по научным графикам, Gemini 3.5 Flash набирает 84,2% против 82,1% у Opus 4.7. Разрыв небольшой, но показательно, что модель уровня Flash опережает флагман в визуальном рассуждении — особенно учитывая, что это одна из сильных сторон Opus 4.7.
OSWorld, проверяющий управление интерфейсом компьютера, фактически даёт паритет (78,4% против 78,0%). Важная оговорка: Gemini 3.5 Flash не поддерживает функцию Computer Use, несмотря на результат OSWorld, который относится лишь к исследовательской оценке. То есть это измеряет, что модель может сделать в условиях бенчмарка, но инструмент Computer Use API для этой версии модели просто не (пока?) открыт или не поставляется.
Opus 4.7 поддерживает Computer Use, и это задокументированная возможность с результатом 78,0% OSWorld-Verified. Если вашему пайплайну нужны агенты, которые кликают, печатают и автономно перемещаются по приложениям, здесь подходит только Opus 4.7.
Opus 4.7 также получила серьёзное обновление зрения: поддержка изображений до 2 576 пикселей по длинной стороне — более чем втрое выше, чем в предыдущих моделях Claude. Это открывает сценарии вроде чтения «плотных» скриншотов, извлечения данных из сложных диаграмм и компьютерных агентов, которым нужна точность на уровне пикселей. XBOW сообщил о росте с 54,5% до 98,5% в их тесте визуальной остроты после перехода на Opus 4.7 — показатель того, насколько критично увеличение разрешения на практике.
Экосистема и доступность
Gemini 3.5 Flash доступна через Google AI Studio, Gemini API, Android Studio, Gemini Enterprise Agent Platform, Gemini Enterprise и Google Antigravity. Она также используется по умолчанию в приложении Gemini и в режиме AI в Поиске по всему миру, то есть миллиарды пользователей уже работают с ней. Для разработчиков в экосистеме Google Cloud путь интеграции прямой.
Opus 4.7 доступна через Anthropic API, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry, а также в веб- и мобильных приложениях Claude. ID модели — claude-opus-4-7. Anthropic также запустила бюджеты задач в публичной бете вместе с Opus 4.7, дав разработчикам способ ограничивать расход токенов на длинных агентных прогонах. Новая слэш-команда /ultrareview в Claude Code создаёт отдельную сессию ревью, которая помечает баги и проблемы в дизайне.
Практическое отличие: Gemini 3.5 Flash тесно связана с каркасом Antigravity для мультиагентной работы, тогда как бюджеты задач и параметр усилий Opus 4.7 подходят для любой среды оркестрации. Если вы строите на фреймворке, отличном от Antigravity, Opus 4.7 даёт больше гибкости в управлении долгоживущими агентами.
Цены
Здесь сравнение особенно интересно. Gemini 3.5 Flash стоит $1,50 за миллион входных токенов и $9,00 за миллион выходных. Claude Opus 4.7 стоит $5,00 за миллион входных и $25,00 за миллион выходных токенов. При таких ставках Gemini 3.5 Flash примерно в 3,3 раза дешевле по входу и в 2,8 раза — по выходу.
Есть нюанс на стороне Opus 4.7. Anthropic ввела новый токенизатор в Opus 4.7, который использует на 1,0–1,35 раза больше токенов для того же входа по сравнению с Opus 4.6. В англоязычных нагрузках независимые тесты показывают инфляцию токенов примерно на 12–18%. Список цен не изменился, но эффективная стоимость промпта выросла. Рекомендации Anthropic — использовать параметр усилий, бюджеты задач и явные инструкции на краткость.
Для высокообъёмных или чувствительных к задержкам задач по стоимости очевидно выигрывает Gemini 3.5 Flash. Для нагрузок, где действительно нужна глубина кодинга Opus 4.7 или поддержка Computer Use, ценовую премию сложно обойти. В качестве мер контроля затрат Anthropic предлагает кеширование промптов (до 90% экономии на кэшированных входных токенах) и пакетную обработку (до 50% экономии), что может сократить разрыв при подходящих паттернах нагрузки.
Когда выбирать Gemini 3.5 Flash, а когда — Claude Opus 4.7
Данные бенчмарков и различия в возможностях указывают на достаточно чёткое разделение сценариев. Я бы сформулировал выбор так.
| Сценарий | Рекомендация | Почему |
|---|---|---|
| Высокообъёмные агентные пайплайны с ограничениями по стоимости | Gemini 3.5 Flash | В 3 раза дешевле по выходным токенам и в 4 раза выше пропускная способность |
| Инжиниринг на уровне репозитория | Claude Opus 4.7 | 64,3% против 55,1% на SWE-bench Pro; сильнее на сложных многофайловых задачах |
| Оркестрация агентов с несколькими инструментами | Gemini 3.5 Flash | Лидирует на MCP Atlas: 83,6% против 77,3% у Opus 4.7 |
| Агенты для управления компьютером (клики, ввод, навигация по приложениям) | Claude Opus 4.7 | Поддерживается Computer Use; у Gemini 3.5 Flash поддержки нет |
| Анализ финансовых документов и автоматизация процессов | Gemini 3.5 Flash | Лидирует на Finance Agent v2: 57,9% против 51,5%; пилот Macquarie Bank подтверждает пригодность |
| Анализ изображений и диаграмм в высоком разрешении | Claude Opus 4.7 | Поддержка изображений до 2 576px / 3,75MP; XBOW сообщил 98,5% в тесте визуальной остроты |
| Интеграция с Google Cloud или приложением Gemini | Gemini 3.5 Flash | Нативная интеграция в Google AI Studio, Android Studio, Gemini Enterprise и Поиске |
| Длинные кодинговые задачи с кросс-сессионной памятью | Claude Opus 4.7 | Файловая память сохраняет важные заметки между сессиями |

Выберите Gemini 3.5 Flash, если…
- Вы запускаете высокообъёмные агентные пайплайны, где главные ограничения — стоимость и пропускная способность. При $1,50 за вход / $9,00 за выход за миллион токенов она существенно дешевле Opus 4.7 при том же объёме нагрузки.
- Ваши процессы больше про инструменты, чем про код. Показатель MCP Atlas 83,6% — самый высокий среди моделей в сравнении, а каркас Antigravity специально создан для параллельного развёртывания субагентов.
- Вы уже в экосистеме Google. Модель доступна нативно в Google AI Studio, Android Studio, Gemini Enterprise и Antigravity без дополнительной интеграции.
- Ваш кейс включает финансовое рассуждение по документам или анализ графиков. Gemini 3.5 Flash лидирует на Finance Agent v2 и CharXiv Reasoning — неожиданно для модели уровня Flash.
Выберите Claude Opus 4.7, если…
- Ваш основной сценарий — инженерия на уровне репозитория. Показатель SWE-bench Pro 64,3% на 9 пунктов выше, чем у Gemini 3.5 Flash; ранние тестеры вроде Cursor (70% против 58% на CursorBench) и Rakuten (в 3 раза больше решённых продакшн-задач) сообщают о значимом приросте в реальности.
- Вам нужна поддержка Computer Use. У Gemini 3.5 Flash её нет; Opus 4.7 набирает 78,0% на OSWorld-Verified и остаётся единственным вариантом для агентов, управляющих десктопом.
- Агентам нужно работать с изображениями высокого разрешения или плотными техническими диаграммами. Поддержка 2 576px — изменение на уровне модели, оно действует автоматически и критично для OCR, извлечения данных из графиков и для агентов, читающих плотные скриншоты.
- Вам нужна кросс-сессионная память для долгих проектов. Файловая память Opus 4.7 позволяет агентам переносить контекст между сессиями без переустановки с нуля каждый раз.
Итоги
Если говорить честно, эти две модели не столько конкурируют за одни и те же нагрузки. Gemini 3.5 Flash — модель уровня Flash, которая при этом обходит Pro-прошлого поколения по ряду агентных бенчмарков, причём по цене, позволяющей практические высокообъёмные развёртывания. Claude Opus 4.7 — флагман с более глубокой способностью к кодингу, поддержкой Computer Use и более сильной «сырой» глубиной рассуждений. Выбор обычно сводится к тому, нужны ли вам показатели уровня SWE-bench и Computer Use, или же вам важнее пропускная способность, экономичность и сильная оркестрация инструментов.
Больше всего в этом сравнении меня зацепил результат Finance Agent v2. 57,9% у Gemini 3.5 Flash против 51,5% у Opus 4.7 в автоматизации финансовых процессов — не то, чего ждёшь от модели, оптимизированной на скорость. В сочетании с лидерством на MCP Atlas это наводит на мысль, что Google специально настраивал 3.5 Flash под многошаговые рабочие процессы с вызовом инструментов и рассуждением по документам, которые реально используются в компаниях, а не только под «сухие» бенчмарки.
За чем стоит последить: Gemini 3.5 Pro ожидается в следующем месяце. Если она повторит путь 3.5 Flash и заметно превзойдёт Gemini 3.1 Pro, сравнение с Opus 4.7 будет иным. Цены уровня Pro, вероятно, сократят разрыв в стоимости, но потолок производительности поднимется. На сейчас Gemini 3.5 Flash — лучший выбор для чувствительных к стоимости агентных задач, а Opus 4.7 — для глубокого кодинга и управления компьютером.
Если вы хотите получить практические навыки работы с агентными ИИ-системами и понять, как использовать подобные модели в продакшне, рекомендую изучить трек навыков AI Agent Fundamentals на DataCamp.