Course
Агентные пайплайны определили первую половину 2026 года, особенно в программировании: модели, которые получают один промпт и доводят задачу до конца. Конкуренция теперь идёт сразу по трём осям: возможности, скорость и цена. Anthropic и Google сделали заметно разные ставки.
В этой статье сравниваются два недавних релиза: Google Gemini 3.5 Flash, анонсированный на Google I/O, и Claude Opus 4.8 от Anthropic, выпущенный 28 мая. Они не из одного класса. Один — быстрый и недорогой рабочий «тигр», другой — премиальный флагман. Этот разрыв и делает сравнение интересным: он заставляет спросить, когда за «сырую» мощность стоит переплачивать.
Здесь я сравню их по бенчмаркам, стоимости и скорости, а затем разберу, для каких задач какая модель подходит. Также смотрите наши подробные обзоры: Gemini 3.5 Flash и Claude Opus 4.8.
В двух словах
- Opus 4.8 — в целом более способная модель. Она лидирует в Artificial Analysis Intelligence Index (61,4), GDPval-AA (1 890 Elo) и Humanity's Last Exam.
- Gemini 3.5 Flash гораздо дешевле и быстрее: $1,50/$9 за миллион токенов против $5/$25 у Opus 4.8 и 192,2 выходных токена в секунду против 66,8.
- Gemini 3.5 Flash принимает мультимодальный ввод (видео, аудио, PDF), тогда как Opus 4.8 работает только с текстом и изображениями.
- Выбирайте Opus 4.8, когда качество выполнения и риск галлюцинаций имеют реальную цену. Выбирайте Gemini 3.5 Flash для массовых, мультимодальных и чувствительных к стоимости конвейеров.
Что такое Claude Opus 4.8?
Claude Opus 4.8 — флагманская модель Anthropic и преемник Opus 4.7, созданная для сложного рассуждения и агентного кодирования на длинных горизонтах. Сейчас она возглавляет Artificial Analysis Intelligence Index с 61,4 балла.
Она также лидирует в таблице GDPval-AA, которая оценивает модели на реальных задачах в разных профессиях, и в новом бенчмарке ITBench-AA, проверяющем, насколько хорошо агенты диагностируют корневую причину инцидентов Kubernetes по сохранённым снимкам инцидентов.
Ключевые особенности и возможности
Основные характеристики:
- контекстное окно на 1 млн токенов и до 128K выходных токенов
- адаптивное мышление как единственный поддерживаемый режим
- параметр усилия, который теперь по умолчанию высокий везде, включая Claude Code
Opus 4.8 также добавляет быстрый режим, пока в виде исследовательского превью, который выдаёт до 2,5 раза больше выходных токенов в секунду по цене $10/$50 за миллион входных/выходных токенов. Это вдвое дороже стандартного Opus 4.8, но треть от стоимости быстрого режима в Opus 4.7.
Messages API теперь принимает системные записи внутри массива сообщений, так что вы можете обновлять инструкции Claude по ходу задачи без перезапуска диалога. Можно передавать разрешения, бюджеты токенов или контекст среды, не ломая кэш промпта.
Минимальная длина кэшируемого промпта также снижена до 1 024 токенов, с 4 096 у Opus 4.7, так что теперь можно кэшировать более короткие промпты.
По сравнению с Opus 4.7, улучшения видны в ряде бенчмарков, по данным Artificial Analysis:
- Terminal-Bench Hard: +6,6 пункта
- τ²-Bench Telecom, имитирующий сценарии техподдержки: +5,8 пункта
- IFBench, оценивающий точность следования инструкциям: +3,6 пункта
Она также лидирует в Humanity's Last Exam, набрав 49,8% без инструментов и 57,9% с инструментами.
Плюсы и минусы
В агентной работе Opus 4.8 — самый сильный вариант в этом сравнении. Она занимает первое место в Artificial Analysis Agentic Index, который охватывает задачи вроде программирования.
Ложка дёгтя — стоимость. Цены не изменились со времён Opus 4.7: $5/$25 за миллион входных/выходных токенов, что крутовато для больших объёмов. Управления сэмплированием по-прежнему нет: temperature, top_p и top_k вызывают ошибку при попытке их задать.
Что такое Gemini 3.5 Flash?
Gemini 3.5 Flash — последняя модель Google, созданная для скорости при почти флагманском качестве; мы подробно разбираем её в нашем обзоре Gemini 3.5 Flash. Она набрала 76,2% на Terminal-Bench 2.1 и достигла 1 656 Elo на GDPval-AA.
Ключевые особенности и возможности
Flash принимает на вход текст, изображения, видео, аудио и PDF с полной поддержкой уровней «мышления». Базовый набор возможностей:
- примерно 1 млн входных токенов контекста (1 048 576 токенов) с лимитом на выход 65 536 токенов
- Batch API и кэширование промптов
- выполнение кода и вызов функций
- привязка к поиску и структурированные выходы
На бенчмарках модель достигает 83,6% на MCP Atlas для мног инструментной агентной координации и 84,2% на CharXiv Reasoning для мультимодального понимания. Она занимает 7-е место в Artificial Analysis Intelligence Index, что сильно для уровня Flash, и 6-е — в Agentic Index, близко к Opus 4.7.
Gemini 3.5 Flash также нативно поддерживает мультиагентный фрейм Antigravity. Интерфейс Antigravity в этом релизе переработан и напоминает приложения OpenAI Codex и Cursor.
Плюсы и минусы
Ключевое предложение Flash — «интеллект на доллар»: 55 баллов в Artificial Analysis Intelligence Index при $1,50 за миллион входных токенов и $9 за миллион выходных — необычно высокий уровень возможностей за такую цену.
Второй козырь — нативный мультимодальный ввод, включая видео и аудио. Его четырёхуровневая система «мышления» (минимальный, низкий, средний, высокий) также даёт более тонкий контроль стоимости и производительности, чем единая настройка усилия у Opus 4.8.
Но особенно выделяется использование инструментов агентом. Flash набирает 83,6% на MCP Atlas — лучший результат по мног инструментной координации в этом сравнении и даже выше, чем у Opus 4.8 с 82,2%. Модель уровня Flash, обгоняющая новый флагман Anthropic на этом бенчмарке, — результат, который обычно не укладывается в «уровневую» логику.
Есть две оговорки. В прогоне Intelligence Index Flash сгенерировал 73 млн токенов против среднего 35 млн — он многословен, и эта многословность увеличивает счёт за выход. Время до первого токена — 18,88 секунды, что для класса многовато: сопоставимые модели укладываются примерно в две секунды.
Чтобы понять, как Flash соотносится с флагманом OpenAI, мы сравнили их в статье Gemini 3.5 Flash vs. GPT-5.5.
Claude Opus 4.8 vs Gemini 3.5 Flash: сравнение лицом к лицу
Краткая сводка перед покатегорийным разбором.
| Свойство | Claude Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|
| Релиз | 28 мая 2026 | 19 мая 2026 |
| Контекстное окно | 1 млн токенов | 1 млн токенов |
| Макс. выход токенов | 128K | 65 536 |
| Intelligence Index (AA) | 61,4 | 55 |
| GDPval-AA Elo | 1 890 | 1 656 |
| Скорость вывода | 66,8 ток./с | 192,2 ток./с |
| Модальности ввода | Текст, изображение | Текст, изображение, видео, аудио, PDF |
| Цена за ввод | $5 / 1 млн токенов | $1,50 / 1 млн токенов |
| Цена за вывод | $25 / 1 млн токенов | $9 / 1 млн токенов |
| Режимы «мышления» | Только адаптивный | Минимальный / низкий / средний / высокий |
Агентная работа и программирование
Opus 4.8 — более сильный агент, но Flash ближе, чем предполагает его уровень. Opus 4.8 лидирует в GDPval-AA с 1 890 Elo против 1 656 у Flash, то есть лучше справляется с интеллектуальным трудом.
MCP Atlas — сюрприз. Flash набирает 83,6% на этом бенчмарке мног инструментной координации, немного опережая 82,2% у Opus 4.8. То, что модель уровня Flash обходит новый флагман Anthropic по использованию инструментов, действительно неожиданно и является самым веским аргументом в пользу Flash в этом сравнении.
SWE-bench Pro — наоборот. Этот бенчмарк проверяет, как модели решают реальные тикеты по разработке ПО, и Opus 4.8 набирает 69,2% — второй результат после внутреннего Mythos Preview от Anthropic. Flash показывает 55,0%, отставая от Opus в ожидаемых рамках «уровней», но при этом заметно сам по себе: он обходит Gemini 3.1 Pro с 54,2%, так что этот релиз Flash догнал прошлое поколение уровня Pro.
На Terminal-Bench Hard Opus 4.8 набирает 58,3% против 40,9% у Flash, так что он лучше подходит для терминальной разработки, администрирования систем и задач обработки данных. Flash уместен, когда вы запускаете параллельные циклы кодирования, а скорость и стоимость важнее предельной точности.
Рассуждение и научные задачи
В академических рассуждениях Opus 4.8 явно впереди. Она набирает 57,9% на Humanity's Last Exam против 40,25% у Flash, что делает её предпочтительной для математики, наук и гуманитарных дисциплин.
Поддержка мультимодального ввода
Здесь чистая победа за Flash. Opus 4.8 читает текст и изображения; Flash также читает видео, аудио и PDF. Если ваш конвейер работает с любым из этих форматов, из этих двух вариантов справится только Flash.
Скорость и задержка
Flash примерно втрое быстрее по скорости вывода. По данным Artificial Analysis, это 192,2 выходных токена в секунду против 66,8 у Opus 4.8.
Стоимость и эффективность по токенам
Главный разрыв — в выходных токенах: $25 за миллион у Opus 4.8 против $9 у Flash, то есть Opus примерно в 2,8 раза дороже. В больших конвейерах эта разница быстро накапливается.
Контекстное окно и объём вывода
У обеих — 1 млн входных токенов, так что различие — в выходе. Opus 4.8 пишет до 128K токенов за один проход против 65 536 у Flash — почти вдвое больше. Для генерации длинного кода, документов или агентных циклов с большими одноразовыми выводами этот запас важен.
Какую модель выбрать?
Всё упирается в то, платите ли вы за возможности или за пропускную способность. Я бы делил так.
Выберите Claude Opus 4.8, если…
- Качество завершения задач имеет прямые последствия. Её 1 890 Elo на GDPval-AA и более низкий уровень галлюцинаций, чем у моделей Google и OpenAI на AA-Omniscience, делают её более безопасным выбором для высокоточного интеллектуального труда.
- Вам нужны 128K выходных токенов для большой одноразовой генерации — почти вдвое больше, чем 65 536 у Flash.
- Вы уже строите решения в экосистеме Anthropic через Claude Code или API, и переключаться затратно.
- Ваши агентные циклы достаточно длинны, чтобы имели значение системные сообщения на середине разговора: Messages API теперь обновляет разрешения, бюджеты токенов или контекст по ходу задачи, не ломая кэш промпта.
Выберите Gemini 3.5 Flash, если…
- Ваш конвейер потребляет видео, аудио или PDF.
- Вам нужен объём вывода, где $9 против $25 за миллион токенов меняют экономику.
- Вам важен сильнейший результат по мног инструментной координации: Flash лидирует на MCP Atlas с 83,6%, опережая даже Opus 4.8 с 82,2%.
- Вы строите на инфраструктуре Google через Antigravity или Vertex AI и хотите одного вендора.
- Нужен тонкий контроль затрат, где четыре уровня «мышления» Flash выигрывают у единой настройки усилия в Opus 4.8.
Что дальше для Flash и флагманов
Этот Flash заметно дороже прошлых релизов Flash, и Google за это критиковали. Разрыв в возможностях между уровнями Flash и Opus всё ещё велик, что подрывает аргумент платить почти флагманскую цену за модель уровня Flash. Куда интереснее гонка за небольшой моделью, которая действительно хорошо справляется с кодированием и агентной работой, оставаясь такой же дешёвой, как Composer 2.5 от Cursor — Composer 2.5.
Быстрый режим Anthropic — за тем стоит следить для агентного кодирования, но цену он сдерживает. По $10/$50 его трудно продавать разработчикам, запускающим длинные циклы, и принятие будет зависеть от того, пересмотрит ли Anthropic этот ценник.
Anthropic остаётся сфокусированной на кодировании, поэтому вряд ли она в ближайшее время пойдёт вслед за Google в видео- и аудиоввод. Это даёт Google окно возможностей, но только если удастся выпустить Flash или флагман, который обойдёт Opus в агентных задачах. Пока этого не случилось.
Итоги
Если качество выполнения задач и риск галлюцинаций имеют реальную цену — например, в финансах или медицине, — выбирайте Opus 4.8. Если вы оптимизируете пропускную способность, стоимость или мультимодальный ввод, лучше подойдёт Gemini 3.5 Flash.
Моё мнение: на самом деле они не конкурируют за одну и ту же работу, и большинство команд поймут, на какой стороне они, уже после одного предложения о своём ворклоуде. Более сложный вопрос — сможет ли Google закрыть разрыв в возможностях, не потеряв ценового преимущества, ради которого Flash вообще стоит использовать. Внутри Google уже работает Gemini 3.5 Pro, и именно этот релиз, а не Flash, скорее способен оказать реальное давление на Opus 4.8.
Если вы хотите развить навыки, которые сделают ассистентов ИИ надёжнее в вашем собственном процессе, начните с нашего курса AI-Assisted Coding for Developers. А если вы хотите создавать LLM-приложения с промптами, цепочками и агентами, курс Developing LLM Applications with LangChain — хороший следующий шаг.
Claude Opus 4.8 vs Gemini 3.5 Flash: вопросы и ответы
Является ли Claude Opus 4.8 в целом лучше, чем Gemini 3.5 Flash?
Если судить по общим бенчмаркам «интеллекта», да. Opus 4.8 набирает 61,4 в Artificial Analysis Intelligence Index против 55 у Flash. Но «лучше» зависит от сценария. Flash быстрее, дешевле и поддерживает видео-, аудио- и PDF-ввод, которых у Opus 4.8 нет.
Какие форматы ввода поддерживает Gemini 3.5 Flash?
Gemini 3.5 Flash поддерживает ввод текста, изображений, видео, аудио и PDF. Claude Opus 4.8 поддерживает только текст и изображения.
Как сравнивается ценообразование между моделями?
Claude Opus 4.8 стоит $5 за миллион входных токенов и $25 за миллион выходных токенов. Gemini 3.5 Flash — $1,50 за миллион входных и $9 за миллион выходных токенов. Цена при попадании в кэш — $0,50 за миллион для Opus 4.8 и $0,15 за миллион для Flash.
Что такое GDPval-AA и почему это важно применительно к Opus 4.8 и Gemini 3.5 Flash?
GDPval-AA — основной бенчмарк Artificial Analysis для оценки агентной производительности в реальных задачах интеллектуального труда, измеряемый в Elo. Opus 4.8 лидирует с 1 890 Elo против 1 656 у Flash. Он полезнее традиционных бенчмарков для оценки моделей в продакшн-агентных контекстах.
У какой модели больше окно вывода?
Claude Opus 4.8 поддерживает максимум 128K выходных токенов — вдвое больше, чем 65 536 у Gemini 3.5 Flash. Для рабочих процессов, где генерируются длинные документы, большие файлы кода или нужны крупные одноразовые выводы, предпочтительнее Opus 4.8.
Поддерживает ли Gemini 3.5 Flash «мышление»?
Да. У Flash четыре уровня «мышления»: минимальный, низкий, средний и высокий. По умолчанию — средний. Claude Opus 4.8 использует только адаптивное мышление, без поддержки расширенного бюджета «мышления».