Claude Opus 4.8 vs Gemini 3.5 Flash: сравнение бенчмарков и сценариев использования

Сравните Claude Opus 4.8 и Gemini 3.5 Flash по MCP Atlas, SWE-bench Pro и GDPval, а также по цене и скорости, чтобы выбрать подходящую модель для вашей работы.

Обновлено 9 июн. 2026 г. · 9 мин читать

Изучить с помощью AI

Открыть в ChatGPT Открыть в Claude Открыть в Perplexity

Агентные рабочие процессы определили первую половину 2026 года, особенно в программировании: модели, которые получают один запрос и доводят задачу до завершения. Конкуренция теперь сразу по трём осям: возможности, скорость и цена. Anthropic и Google сделали заметно разные ставки.

В этой статье сравниваются два недавних релиза: Gemini 3.5 Flash от Google, анонсированный на Google I/O, и Claude Opus 4.8 от Anthropic, представленный 28 мая. Они не одного класса. Один — быстрый и недорогой рабочий конь; другой — премиальный флагман. Именно этот разрыв делает сравнение интересным, потому что заставляет задаться вопросом, когда за «сырой» потенциал стоит платить больше.

В этой статье я сравню их по бенчмаркам, стоимости и скорости, а затем разберу, какая модель под какую задачу подходит. Также смотрите наши подробные обзоры: Gemini 3.5 Flash и Claude Opus 4.8.

Если кратко

Opus 4.8 — более способная модель в целом. Она лидирует в Artificial Analysis Intelligence Index (61,4), GDPval-AA (1 890 Elo) и Humanity's Last Exam.
Gemini 3.5 Flash значительно дешевле и быстрее: $1,50/$9 за миллион токенов против $5/$25 у Opus 4.8 и 192,2 выходных токена в секунду против 66,8.
Gemini 3.5 Flash принимает мультимодальные входные данные (видео, аудио, PDF), тогда как Opus 4.8 работает только с текстом и изображениями.
Выбирайте Opus 4.8, когда качество выполнения и риск галлюцинаций имеют реальную стоимость. Выбирайте Gemini 3.5 Flash для массовых, мультимодальных и чувствительных к затратам конвейеров.

Что такое Claude Opus 4.8?

Claude Opus 4.8 — флагманская модель Anthropic и преемник Opus 4.7, созданная для сложного рассуждения и долгих агентных циклов кодирования. Сейчас она возглавляет Artificial Analysis Intelligence Index с результатом 61,4.

Она также лидирует в таблице GDPval-AA, которая оценивает модели на реальных задачах по ряду профессий, и в новом бенчмарке ITBench-AA, проверяющем, насколько хорошо агенты диагностируют первопричины инцидентов в Kubernetes по сохранённым снимкам инцидентов.

Ключевые возможности

Основные характеристики:

контекстное окно на 1 млн токенов с максимумом до 128K выходных токенов
adaptive thinking как единственный поддерживаемый режим мышления
параметр усилия, который теперь по умолчанию высокий везде, включая Claude Code

Opus 4.8 также добавляет быстрый режим, сейчас в статусе research preview, который обеспечивает до 2,5 раза больше выходных токенов в секунду при цене $10/$50 за миллион входных/выходных токенов. Это вдвое дороже стандартной цены Opus 4.8, но треть от стоимости быстрого режима в Opus 4.7.

Messages API теперь принимает системные записи внутри массива messages, так что вы можете обновлять инструкции Claude по ходу задачи без перезапуска беседы. Можно передавать разрешения, бюджеты токенов или контекст окружения, не ломая кэш промптов.

Минимальная длина кэшируемого промпта также снижена до 1 024 токенов, против 4 096 в Opus 4.7, так что теперь кэшируются и более короткие подсказки.

По сравнению с Opus 4.7, приросты видны на нескольких бенчмарках по данным Artificial Analysis:

Terminal-Bench Hard: +6,6 пункта
τ²-Bench Telecom, моделирующий сценарии техподдержки: +5,8 пункта
IFBench, измеряющий точность следования инструкциям: +3,6 пункта

Она также возглавляет Humanity's Last Exam, набирая 49,8% без инструментов и 57,9% с инструментами.

Плюсы и минусы

В агентных задачах Opus 4.8 — самый сильный вариант в этом сравнении. Он занимает первое место в Artificial Analysis Agentic Index, который охватывает задачи вроде программирования.

Но есть ложка дёгтя — стоимость. Цены не изменились по сравнению с Opus 4.7: $5/$25 за миллион входных/выходных токенов, что дорого для больших объёмов. Контроли сэмплирования по-прежнему недоступны: при установке temperature, top_p и top_k возвращается ошибка.

Что такое Gemini 3.5 Flash?

Gemini 3.5 Flash — новейшая модель Google, созданная для скорости при почти флагманском качестве, как мы рассказывали в нашем обзоре Gemini 3.5 Flash. Она набрала 76,2% на Terminal-Bench 2.1 и достигла 1 656 Elo на GDPval-AA.

Ключевые возможности

Flash принимает на вход текст, изображения, видео, аудио и PDF с полной поддержкой уровней мышления. Базовый набор функций:

примерно 1 млн входных токенов (1 048 576 токенов) с лимитом в 65 536 выходных токенов
Batch API и кэширование промптов
выполнение кода и вызов функций
привязка к поиску и структурированные ответы

В бенчмарках она достигает 83,6% на MCP Atlas (многоинструментальная агентная координация) и 84,2% на CharXiv Reasoning (мультимодальное понимание). Она занимает 7-е место в Artificial Analysis Intelligence Index — это сильно для уровня Flash, — и 6-е место в Agentic Index, близко к Opus 4.7.

Gemini 3.5 Flash также нативно поддерживает мультиагентный фрейм Antigravity. Интерфейс Antigravity в этом релизе переработан и напоминает приложения OpenAI Codex и Cursor.

Плюсы и минусы

Главный аргумент Flash — интеллект за доллар: показатель 55 в Artificial Analysis Intelligence Index при цене $1,50 за миллион входных токенов и $9 за миллион выходных — это необычно высокий уровень для такой стоимости.

Ещё одно достоинство — нативный мультимодальный ввод, включая видео и аудио. Её четырёхуровневая система мышления (минимум, низкий, средний, высокий) даёт более тонкий контроль над стоимостью и производительностью, чем единая настройка усилия в Opus 4.8.

Но особенно выделяется использование инструментов в агентных сценариях. Flash набирает 83,6% на MCP Atlas — это лучший результат по многоинструментальной координации в этом сравнении и даже выше, чем у Opus 4.8 с 82,2%. То, что модель уровня Flash обходит новейший флагман Anthropic на этом бенчмарке, — результат, который обычно не совпадает с границами уровней.

Есть две оговорки. В прогоне Intelligence Index Flash сгенерировала 73 млн токенов против среднего 35 млн, то есть она многословна, а это бьёт по оплате за выходные токены. Время до первого токена — 18,88 секунды, что много для этого класса, где сопоставимые модели укладываются примерно в две секунды.

Чтобы увидеть, как Flash смотрится на фоне флагмана OpenAI, мы сравниваем их в статье Gemini 3.5 Flash vs. GPT-5.5.

Claude Opus 4.8 vs Gemini 3.5 Flash: сравнение лицом к лицу

Вот краткая справка перед подробным разбором по категориям.

Свойство	Claude Opus 4.8	Gemini 3.5 Flash
Релиз	28 мая 2026	19 мая 2026
Контекстное окно	1M токенов	1M токенов
Макс. выход токенов	128K	65 536
Intelligence Index (AA)	61,4	55
GDPval-AA Elo	1 890	1 656
Скорость вывода	66,8 токенов/с	192,2 токена/с
Входные модальности	Текст, изображение	Текст, изображение, видео, аудио, PDF
Цена за вход	$5 / 1M токенов	$1,50 / 1M токенов
Цена за выход	$25 / 1M токенов	$9 / 1M токенов
Режимы мышления	Только adaptive	Minimal / low / medium / high

Агентная работа и кодинг

Opus 4.8 — более сильный агент, но Flash ближе, чем предполагает его уровень. Opus 4.8 лидирует в GDPval-AA с 1 890 Elo против 1 656 у Flash, так что он лучше справляется с интеллектуальными задачами.

MCP Atlas — сюрприз. Flash набирает 83,6% на этом бенчмарке многоинструментальной координации, немного опережая 82,2% у Opus 4.8. То, что модель уровня Flash обходит новейший флагман Anthropic по агентному использованию инструментов, действительно неожиданно, и это самый очевидный аргумент в пользу Flash в этом сравнении.

SWE-bench Pro показывает обратную картину. Этот бенчмарк проверяет модели на решении реальных задач по разработке ПО, и Opus 4.8 набирает 69,2% — второй результат после внутреннего Mythos Preview от Anthropic. Flash показывает 55,0% — отстаёт от Opus ожидаемо для разницы уровней, но сам по себе показатель примечателен: он превосходит 54,2% у Gemini 3.1 Pro, то есть этот релиз Flash догнал прошлое поколение уровня Pro.

На Terminal-Bench Hard Opus 4.8 набирает 58,3% против 40,9% у Flash, что делает его лучшим выбором для терминальной разработки, администрирования систем и задач обработки данных. Flash уместен, когда вы запускаете параллельные циклы кодирования, а скорость и стоимость важнее топовой точности.

Рассуждение и научные задачи

Opus 4.8 заметно впереди в академическом рассуждении. Он набирает 57,9% на Humanity's Last Exam против 40,25% у Flash, что делает его предпочтительным для задач по математике, наукам и гуманитарным дисциплинам.

Поддержка мультимодального ввода

Здесь чистая победа за Flash. Opus 4.8 читает текст и изображения; Flash также читает видео, аудио и PDF. Если ваш конвейер включает эти форматы, из этих двух моделей с ними справится только Flash.

Скорость и задержка

Flash примерно в три раза быстрее по выходу. По данным Artificial Analysis, его скорость — 192,2 выходных токена в секунду против 66,8 у Opus 4.8.

Стоимость и эффективность по токенам

Именно выходные токены сильнее всего бьют по бюджету: $25 за миллион у Opus 4.8 против $9 у Flash — то есть Opus примерно в 2,8 раза дороже. В высокообъёмных конвейерах эта разница быстро накапливается.

Контекст и объём вывода

Обе модели принимают до 1 млн входных токенов, так что разница — в выходе. Opus 4.8 может записать до 128K токенов за один проход против 65 536 у Flash — почти вдвое больше. Для синтеза длинного кода, генерации документов или агентных циклов с крупными одноразовыми выходами этот запас важен.

Какую модель выбрать?

Всё упирается в то, платите ли вы за возможности или за пропускную способность. Вот как я бы разделил.

Выберите Claude Opus 4.8, если…

Качество завершения задачи имеет прямые последствия. Его 1 890 Elo в GDPval-AA и более низкий уровень галлюцинаций, чем у моделей Google и OpenAI на AA-Omniscience, делают его более безопасным выбором для высокоточного интеллектуального труда.
Вам нужны 128K выходных токенов для крупных одноразовых генераций — почти вдвое больше, чем 65 536 у Flash.
Вы уже строите решения в экосистеме Anthropic через Claude Code или API, и переход будет болезненным.
Ваши агентные циклы длятся достаточно долго, чтобы имели значение системные сообщения по ходу беседы, поскольку Messages API теперь обновляет разрешения, бюджеты токенов или контекст во время задачи без сбоя кэша промптов.

Выберите Gemini 3.5 Flash, если…

Ваш конвейер принимает видео, аудио или PDF.
Вам важен объём вывода, где $9 против $25 за миллион токенов меняют расчёт.
Вам нужен лучший показатель многоинструментальной координации: Flash лидирует в MCP Atlas с 83,6%, опережая даже Opus 4.8 с 82,2%.
Вы строите на инфраструктуре Google через Antigravity или Vertex AI и хотите одного вендора.
Важен тонкий контроль затрат, где четыре уровня мышления Flash превосходят единую настройку усилия в Opus 4.8.

Что дальше для Flash и флагманов

Этот Flash существенно дороже предыдущих релизов Flash, и Google за это досталось. Разрыв в интеллекте между уровнями Flash и Opus всё ещё велик, что подрывает аргумент в пользу оплаты почти флагманской цены за модель уровня Flash. Куда интереснее гонка за небольшой моделью, которая действительно хороша в программировании и агентной работе, оставаясь такой же дешёвой, как Composer 2.5 от Cursor (Composer 2.5).

Быстрый режим Anthropic — за тем стоит следить в контексте агентного кодинга, но цена его сдерживает. При $10/$50 его сложно рекомендовать разработчикам, запускающим длинные циклы, и успех зависит от того, пересмотрит ли Anthropic цену.

Anthropic продолжает фокусироваться на программировании, поэтому вряд ли скоро последует за Google во ввод видео и аудио. Это даёт Google шанс — но только если он сможет выпустить модель Flash или флагман, который обойдёт Opus в агентных задачах. Пока этого не произошло.

Итоги

Если качество выполнения и риск галлюцинаций имеют реальную цену — например, в финансах или медицине, — выбирайте Opus 4.8. Если вы оптимизируете пропускную способность, стоимость или мультимодальный ввод, лучше подойдёт Gemini 3.5 Flash.

Моё мнение: эти две модели на самом деле не конкурируют за одну и ту же работу, и большинство команд поймут, на чьей они стороне, уже в первом предложении описания своей нагрузки. Более сложный вопрос — сможет ли Google закрыть разрыв в возможностях, не пожертвовав ценовым преимуществом, ради которого Flash и стоит использовать. Внутри Google уже работает Gemini 3.5 Pro, и именно этот релиз, а не Flash, скорее всего, создаст реальное давление на Opus 4.8.

Если вы хотите прокачать навыки, делающие AI-ассистентов более надёжными в вашем рабочем процессе, начните с нашего курса AI-Assisted Coding for Developers. А если хотите создавать LLM-приложения с промптами, чейнами и агентами, курс Developing LLM Applications with LangChain — логичный следующий шаг.