Gemini 3.5 Flash и GPT-5.5: мультитул и кувалда

Одна модель создана для масштабных вызовов инструментов; другая «в лоб» решает самые сложные задачи рассуждения. Сравниваем Google Gemini 3.5 Flash и OpenAI GPT-5.5 по программированию, агентным процессам, мультимодальным задачам и ценам.

Обновлено 26 мая 2026 г. · 11 мин читать

Gemini 3.5 Flash вышла 19 мая 2026 года как сильный ответ на флагманские модели OpenAI и Anthropic, заявляя о передовом уровне качества при скорости Flash. GPT-5.5 от OpenAI появился ранее, в апреле 2026 года, позиционируясь как самая сильная на сегодня модель для агентного программирования у компании.

Обе модели явно созданы для агентной работы и превосходят предшественников в ключевых бенчмарках для задач с длинным горизонтом. Вопрос в том, какая из них действительно подходит вашему рабочему процессу и стоят ли компромиссы по скорости и стоимости вашего конкретного сценария.

В этой статье я сравню Gemini 3.5 Flash и GPT-5.5 по пяти направлениям: программирование и агентные рабочие процессы, рассуждение и знания, мультимодальные возможности, контекст и работа с длинным контекстом, а также цены. Также можете посмотреть отдельные материалы о Gemini 3.5 Flash и наш подробный разбор GPT-5.5 для деталей по каждой модели.

Что такое Gemini 3.5 Flash?

Gemini 3.5 Flash — последняя модель Google в семействе Gemini 3.5, представленная на Google I/O 2026. Она входит в линейку Flash, то есть оптимизирована по скорости и стоимости, но главный тезис Google — что теперь она обеспечивает производительность на уровне крупных флагманских моделей в агентных и кодовых бенчмарках (первые результаты это подтверждают).

Модель спроектирована для работы с каркасом Google Antigravity — фреймворком для развертывания параллельных субагентов.

Доступна через Gemini API, Google AI Studio, Android Studio, Gemini Enterprise Agent Platform, а также как модель по умолчанию в приложении Gemini и в режиме AI в Поиске по всему миру. Gemini 3.5 Pro уже используется внутри Google и ожидается к выпуску в следующем месяце.

Подробнее о запуске и практическом смысле бенчмарков читайте в нашем гайде по Gemini 3.5 Flash. Мы также осветили более широкие анонсы I/O, включая Gemini Omni — новый мультимодальный генеративный медиамодель родного формата от Google, круглосуточного AI-агента Gemini Spark и новые управляемые агенты в API.

Что такое GPT-5.5?

GPT-5.5 — релиз модели OpenAI апреля 2026 года, описанный как самая сильная на сегодня модель для агентного программирования у компании. OpenAI также выпустила вариант GPT-5.5 Pro для задач, где нужна более высокая точность; он доступен пользователям Pro, Business и Enterprise.

Как мы отмечали в сравнении GPT-5.5 и Claude Opus 4.7, переплата за GPT-5.5 Pro (в 6 раз дороже) оправдана только для процессов со сложной математикой и/или веб-поиском, где критична высокая точность.

Модель соразработана для и разворачивается на системах NVIDIA GB200 и GB300 NVL72; по словам OpenAI, она обеспечивает такую же задержку на токен, как GPT-5.4, при более высоком уровне интеллекта.

Доступна в ChatGPT и Codex для пользователей Plus, Pro, Business и Enterprise, с доступом к API по $5 за 1 млн входных токенов и $30 за 1 млн выходных токенов.

Gemini 3.5 Flash и GPT-5.5: сравнение лицом к лицу

Краткое резюме позиций каждой модели перед подробностями.

Характеристика	Gemini 3.5 Flash	GPT-5.5
Terminal-Bench (агентное программирование)	76,2%	78,2%
SWE-Bench Pro	55,1%	58,6%
MCP Atlas (использование инструментов)	83,6%	75,3%
OSWorld-Verified (использование компьютера)	78,4%	78,7%
CharXiv Reasoning (мультимодальность)	84,2%	84,1%
Finance Agent v2	57,9%	51,8%
ARC-AGI-2	72,1%	84,6%
Humanity's Last Exam	40,2%	41,4%
Скорость вывода	В 4 раза быстрее других передовых моделей (заявление Google)	Соответствует задержке GPT-5.4
Окно контекста	1 млн токенов	1 млн токенов
Цена API за вход	~$1,50 / 1 млн токенов	$5,00 / 1 млн токенов
Цена API за выход	~$9,00 / 1 млн токенов	$30,00 / 1 млн токенов
Многоагентный фреймворк	Antigravity harness	Codex

Программирование и агентные рабочие процессы

Именно в программировании обе модели конкурируют наиболее явно, и тут с небольшим отрывом лидирует GPT-5.5. И по агентному терминальному коду (Terminal-Bench 2.1: 78,2% против 76,2%), и по классической разработке ПО (SWE-Bench Pro: 58,6% против 55,1%) у GPT-5.5 преимущество в несколько процентных пунктов над Gemini 3.5 Flash.

Где Gemini 3.5 Flash выходит вперед — это использование инструментов. Она набирает 83,6% на MCP Atlas, заметно обгоняя 75,3% у GPT-5.5. MCP Atlas проверяет многошаговые вызовы инструментов и соблюдение схемы в сложных агентных пайплайнах — именно под такие задачи и создан каркас Antigravity.

Бенчмарк	Gemini 3.5 Flash	GPT-5.5	Примечания
Terminal-Bench	76,2%	78,2%	Незначительное лидерство GPT-5.5
SWE-Bench Pro	55,1%	58,6%	По данным вендоров; лидер — Claude Opus 4.7 с 64,3%
MCP Atlas	83,6%	75,3%	Лидирует Gemini; тестирует многошаговые вызовы инструментов

Честная оценка: GPT-5.5 — более сильный выбор для задач с упором на терминал, DevOps и автоматизацию shell. Gemini 3.5 Flash — лучший выбор для агентных пайплайнов с активным использованием инструментов, где центральна схема вызовов в стиле MCP. Для инженерии на уровне репозиториев на SWE-Bench Pro всё еще лидирует Claude Opus 4.7.

Рассуждение и задачи на знания

В абстрактном рассуждении различия проявляются сильнее всего: GPT-5.5 уверенно лидирует на ARC-AGI-2 (84,6% против 72,1% у Gemini 3.5 Flash). Это разрыв в 12,5 пункта в бенчмарке, проверяющем распознавание новых закономерностей и рассуждения, которые нельзя «выучить» из обучающих данных. В Humanity's Last Exam результаты близки: у GPT-5.5 — 41,4%, у Gemini 3.5 Flash — 40,2%.

Одна из сильных сторон GPT-5.5 — математика, что видно по заметному результату на FrontierMath Tier 4 — 35,4%. Ни одна доступная сейчас модель не соответствует этому показателю, хотя AI Co-Mathematician от Google обходит даже GPT-5.5 Pro с хорошим запасом (47,9% против 39,6%). Он доступен ограниченно, в исследовательском выпуске.

Повторяется и один неожиданный результат из нашего сравнения Gemini 3.5 Flash и Claude Opus 4.7: Gemini 3.5 Flash возглавляет таблицу Finance Agent v2 (57,9% против 51,8% у GPT-5.5 и 51,5% у Opus 4.7) по многошаговым финансовым рассуждениям, хотя из трех она самая «легковесная». Это указывает на модель, которая особенно сильна, когда агентам нужно надежно вызывать внешние инструменты в длинных последовательностях.

Мультимодальные возможности

Мультимодальность — область, где Gemini 3.5 Flash максимально конкурентна с GPT-5.5. В CharXiv Reasoning, который проверяет визуальные рассуждения по научным графикам, Gemini 3.5 Flash набирает 84,2% против 84,1% у GPT-5.5. По сути, паритет — и это показательно, учитывая ориентацию 3.5 Flash на скорость.

В бенчмарке OSWorld, тестирующем управление интерфейсом компьютера, обе модели и Claude Opus 4.7 практически на одном уровне — от 78,0% (Gemini Flash 3.5) до 78,4% (GPT-5.5). Однако у Gemini Flash 3.5 нет функции использования компьютера, так что результат отражает лишь внутреннюю исследовательскую оценку.

Если нужны агенты, способные автономно перемещаться по сайтам, выбирайте GPT-5.5 (или Opus 4.7).

Окно контекста и работа с длинным контекстом

Обе модели предлагают окно контекста в 1 млн токенов. Более интересный вопрос — как они его используют. В обзоре GPT-5.5 наиболее показательными стали данные по длинному контексту: GPT-5.4 «сыпалась» после примерно 128 тыс. токенов на тестах MRCR needle, тогда как GPT-5.5 держалась до 512 тыс. и дальше. На интервале 512 тыс.–1 млн контекста GPT-5.5 набирает 74,0% на MRCR v2 8-needle, против 36,6% у GPT-5.4.

Там, где можно сравнить напрямую, — это 128 тыс. токенов на том же бенчмарке. GPT-5.5 показывает 94,8% на MRCR v2 8-needle (среднее по 128K), тогда как Gemini 3.5 Flash — 77,3%. Разрыв существенный: GPT-5.5 заметно точнее извлекает и связывает разрозненные факты на таком объеме контекста.

На полном масштабе в 1 млн токенов картина менее ясна: опубликованные данные не совпадают напрямую. Gemini 3.5 Flash набирает 26,6% на MRCR v2 8-needle (точечная оценка 1M) — незначительное улучшение по сравнению с 26,3% у Gemini 3.1 Pro.

OpenAI не публиковала напрямую сопоставимый «точечный» показатель 1M для GPT-5.5, так что прямой вердикт на этом уровне невозможен. Тем не менее 74,0% GPT-5.5 на другом срезе MRCR для 512K–1M косвенно указывает, что он держится лучше.

Для бенчмарков Graphwalks, где проверяется рассуждение по графовым структурам в длинном контексте, GPT-5.5 набирает 45,4% на BFS при 1 млн токенов. Показатели Gemini 3.5 Flash на этом конкретном тесте не опубликованы.

Практический вывод: GPT-5.5 — более сильная модель для длинного контекста там, где можно это измерить.

Цены

Здесь различия особенно заметны. Gemini 3.5 Flash стоит примерно $1,50 за 1 млн входных токенов и $9,00 за 1 млн выходных токенов. GPT-5.5 — $5,00 за 1 млн входных и $30,00 за 1 млн выходных токенов, то есть более чем в три раза дороже, чем Gemini 3.5 Flash.

Google формулирует это так: 3.5 Flash обеспечивает уровень передовых моделей при менее чем половине их стоимости. Это утверждение подтверждается ценами GPT-5.5. Для высоконагруженных агентных сценариев, где модель вызывается сотни раз за один процесс, разница в стоимости быстро накапливается.

GPT-5.5 Pro еще дороже: $30 за 1 млн входных токенов и $180 за 1 млн выходных. Этот уровень рассчитан на самые сложные задачи рассуждения и доступен пользователям Pro, Business и Enterprise. Gemini 3.5 Pro, ожидаемая в следующем месяце, вероятно, превзойдет 3.5 Flash по возможностям и цене, хотя точные тарифы пока не объявлены.

Модель	Вход (за 1 млн токенов)	Выход (за 1 млн токенов)	Окно контекста
Gemini 3.5 Flash	~$1,50	~$9,00	1 млн токенов
GPT-5.5	$5,00	$30,00	1 млн токенов
GPT-5.5 Pro	$30,00	$180,00	1 млн токенов

Один нюанс: OpenAI утверждает, что GPT-5.5 использует значительно меньше токенов для завершения тех же задач Codex по сравнению с GPT-5.4. Поэтому рост цены за токен не означает пропорционального роста стоимости агентных рабочих процессов. Тем не менее даже с учетом повышения эффективности по токенам Gemini 3.5 Flash остается существенно дешевле на уровне API.

Когда выбирать Gemini 3.5 Flash, а когда GPT-5.5

Выбор в основном упирается в три фактора: чувствительность к стоимости, тип агентной работы и в какую экосистему вы уже интегрированы. Ниже — как я бы сформулировал выбор для типовых сценариев.

Сценарий	Рекомендация	Почему
Высоконагруженные агентные пайплайны с частыми вызовами инструментов	Gemini 3.5 Flash	Лидирует в MCP Atlas (83,6% против 75,3%) и стоит примерно в 3 раза дешевле за токен
Задачи с упором на терминал, DevOps и shell-автоматизацию	GPT-5.5	Лидер Terminal-Bench 2.0 с 82,7%; сильнее в сложных CLI-процессах
Анализ финансовых документов и процессы с интенсивным OCR	Gemini 3.5 Flash	Лидирует в Finance Agent v2 — 57,9% против 51,8% у GPT-5.5
Абстрактное рассуждение и сложные математические задачи	GPT-5.5	Лидер ARC-AGI-2 — 84,6% против 72,1%; сильнее на FrontierMath Tier 4
Понимание визуальных графиков и научных иллюстраций	Любая из двух (фактически паритет)	CharXiv Reasoning: 84,2% против 84,1%; выбирайте по другим факторам
Интеграция с Google Workspace и Android Studio	Gemini 3.5 Flash	Нативная интеграция с Docs, Sheets, Gmail, Android Studio через Antigravity
Работа с длинным контекстом за пределами 128 тыс. токенов	GPT-5.5	Опубликованные показатели MRCR показывают стабильность до 1 млн токенов; GPT-5.4 «сыпалась» после 128 тыс.
Масштабные продакшн-развертывания с высокой чувствительностью к цене	Gemini 3.5 Flash	~$1,50/$9,00 за 1 млн токенов против $5,00/$30,00 у GPT-5.5

Выбирайте Gemini 3.5 Flash, если…

Ваши агенты делают много вызовов инструментов в процессе. Показатель 83,6% на MCP Atlas — явный сигнал, что 3.5 Flash настроена на надежное использование инструментов в масштабе, а каркас Antigravity дает штатный фреймворк для параллельного запуска субагентов.
Стоимость — главный ограничитель. При цене примерно в треть от GPT-5.5, 3.5 Flash — очевидный выбор для высоконагруженных процессов с миллионами токенов в день.
Вы уже в экосистеме Google. Если команда пользуется Google Workspace, BigQuery или Android Studio, нативные интеграции с Gemini Enterprise Agent Platform заметно снижают трение.
В вашей работе много финансовых документов, счетов или сложных графиков. Результаты в Finance Agent v2 и CharXiv Reasoning указывают на модель, хорошо справляющуюся со структурированными визуальными и финансовыми данными.
Скорость важна для ваших пользователей. Google заявляет, что 3.5 Flash генерирует выходные токены в 4 раза быстрее других передовых моделей — реальное преимущество для потоковой отдачи в пользовательских приложениях.

Выбирайте GPT-5.5, если…

Ваша работа сильно завязана на терминал. Показатель 82,7% в Terminal-Bench 2.0 и интеграция с Codex делают GPT-5.5 лучшим выбором для автоматизации shell, рабочих процессов Docker/kubectl и сложной оркестрации CLI.
Нужно лучшее доступное абстрактное рассуждение. 84,6% на ARC-AGI-2 и 35,4% на FrontierMath Tier 4 выводят GPT-5.5 вперед в задачах, требующих нового рассуждения, а не шаблонного сопоставления.
Критична надежность на длинном контексте сверх 128 тыс. токенов. Опубликованные данные MRCR показывают, что GPT-5.5 держится до 1 млн токенов так, как GPT-5.4 не мог, — важное улучшение для исследовательских процессов с большим объемом документов.
Вы занимаетесь научными исследованиями или биоинформатикой. Результаты на GeneBench (25,0%) и BixBench (80,5%), плюс пример с доказательством числа Рэмзи, указывают, что GPT-5.5 действительно полезен как исследовательский со‑пилот для количественной биологии и математики.
Вы уже используете Codex или ChatGPT в рабочих процессах команды. Раскатка для Plus/Pro/Business/Enterprise означает, что у большинства команд уже есть доступ, а интеграция с Codex зрелая.

Итоги

Самая ясная формулировка сравнения: GPT-5.5 — сильнее в чистом рассуждении и агентном программировании с упором на терминал, а Gemini 3.5 Flash — лучший выбор для пайплайнов с интенсивным использованием инструментов, финансовых документов и любых внедрений, где на первом месте стоимость и скорость. Ни одна модель не доминирует повсеместно, а разрывы в бенчмарках достаточно малы, чтобы экосистема и цены определяли большинство реальных решений.

Больше всего в этом сравнении мне бросается в глаза результат MCP Atlas. Показатель Gemini 3.5 Flash — 83,6% против 75,3% у GPT-5.5 — в тесте многошаговых вызовов инструментов — это весомый сигнал. Агентные рабочие процессы выглядят главным трендом ИИ в 2026 году, так что этот разрыв может оказаться важнее, чем преимущество GPT-5.5 в Terminal-Bench.

Еще один момент — Gemini 3.5 Pro, которую Google уже использует внутри и ожидает выпустить в следующем месяце. Если 3.5 Pro даст такой же скачок относительно 3.5 Flash, как 3.1 Pro относительно 3 Flash, конкурентная картина снова изменится. Пока что 3.5 Flash — более экономичный выбор для большинства продакшн‑агентных нагрузок, а GPT-5.5 — выбор там, где глубина рассуждений и надежность в терминале не подлежат компромиссам.

Если хотите на практике разобраться с агентными концепциями ИИ и поработать с такими моделями, рекомендую наш трек навыков AI Agent Fundamentals.

Темы

Искусственный интеллект

Большие языковые модели

Лучшие курсы по ИИ

Course

Работа с OpenAI API

3 ч

147K

Начните путь в разработке приложений на базе ИИ с OpenAI API. Узнайте о функциональности, лежащей в основе популярных ИИ-приложений, таких как ChatGPT.

Подробнее

Начать курс

Course