Перейти к основному содержимому

Claude Opus 4.8 vs GPT-5.5: бенчмарки, тесты и как выбрать

Личное сравнение Claude Opus 4.8 от Anthropic и GPT-5.5 от OpenAI по коду, рассуждениям, агентным задачам и ценам.
Обновлено 1 июн. 2026 г.  · 11 мин читать

Если вы выбираете флагманскую модель для серьёзной агентной работы прямо сейчас, Claude Opus 4.8 и GPT-5.5 — очевидно два из лучших вариантов наряду с Gemini 3.5 Flash. Обе — текущие производственные вершины своих лабораторий и нацелены на долгие циклы программирования и автономные рабочие процессы.

Ключевые числа настолько близки, что одного сравнения бенчмарков недостаточно для выбора. Opus 4.8 лидирует на SWE-bench Pro (69,2% против 58,6%), тогда как GPT-5.5 лидирует на Terminal-Bench 2.0 (82,7% против 74,6%). Более интересная часть — качественные различия: Anthropic делает ставку на честность и калиброванную неопределённость как на следующий рубеж для продакшн-ИИ, а OpenAI — на «сырую» агентную пропускную способность и эффективность по токенам.

В этой статье я сравню Claude Opus 4.8 и GPT-5.5 по пяти измерениям: код и агентные пайплайны, рассуждение и знаниевые задачи, производительность на длинном контексте, выравнивание и надёжность, а также цены. Также вы можете посмотреть наши отдельные обзоры Claude Opus 4.8 и GPT-5.5 для более глубокого изучения каждой модели.

Что такое Claude Opus 4.8?

Claude Opus 4.8 — текущая флагманская модель Anthropic, выпущенная 28 мая 2026 года. Она находится на вершине семейства Claude, выше Sonnet и Haiku, и предназначена для самых требовательных задач: агентного программирования, сложного многошагового рассуждения и долгих автономных рабочих процессов. Главное улучшение по сравнению с Opus 4.7 — не только баллы в бенчмарках, но и качественный сдвиг в сторону честности: модель в четыре раза реже, чем предшественник, пропускает дефектный код без пометки.

Opus 4.8 также поставляется с пакетом новых функций, включая динамические воркфлоу в Claude Code (которые могут запускать сотни параллельных субагентов в одной сессии), регуляторы усилия в claude.ai и быстрый режим, который теперь стоит треть от стоимости в предыдущих версиях Opus. Цена стандартного использования — $5 за миллион входных токенов и $25 за миллион выходных токенов, без изменений относительно Opus 4.7.

Что такое GPT-5.5?

GPT-5.5 — апрельский флагман OpenAI 2026 года, описанный компанией как её самый сильный на сегодня агентный кодер. Он доступен в ChatGPT и Codex для пользователей Plus, Pro, Business и Enterprise, с окном контекста 1M в Codex. Ключевое утверждение OpenAI: GPT-5.5 сопоставим с GPT-5.4 по задержке на токен в реальной подаче, при этом работает на заметно более высоком уровне «интеллекта» и использует меньше токенов для выполнения тех же задач Codex.

Вариант GPT-5.5 Pro также доступен для задач с более высокой точностью, по цене $30 за миллион входных токенов и $180 за миллион выходных токенов в API. Стандартная цена GPT-5.5 в API — $5 за миллион входных токенов и $30 за миллион выходных токенов.

Claude Opus 4.8 vs GPT-5.5: лобовое сравнение

Вот краткое резюме позиций каждой модели перед тем, как перейти к деталям. Картина делится по доменам, поэтому правильный выбор сильно зависит от того, что вы на самом деле строите.

Функция Claude Opus 4.8 GPT-5.5
SWE-bench Pro (программирование) 69,2% 58,6%
Terminal-Bench 2.1 74,6% 78,2%
Humanity's Last Exam (без инструментов) 49,8% 41,4%
Humanity's Last Exam (с инструментами) 57,9% 52,2%
OSWorld-Verified (использование компьютера) 83,4% 78,7%
MCP-Atlas (использование инструментов) 82,2% 75,3%
Finance Agent v2 53,9% 51,8%
GraphWalks BFS 256K 85,9% 73,7%
GraphWalks BFS 1M 68,1% 45,4%
Окно контекста 1M токенов 1M токенов
Цена API на вход $5 / 1M токенов $5 / 1M токенов
Цена API на выход $25 / 1M токенов $30 / 1M токенов
Регуляторы усилия Да (low / high / extra / max) Да (настройка xhigh)

Код и агентные воркфлоу

Это то измерение, где модели расходятся наиболее явно, и разделение идёт по среде, а не по общему качеству. На SWE-bench Pro, который использует реальные активно поддерживаемые репозитории без утечки эталонных ответов, Opus 4.8 набирает 69,2% против 58,6% у GPT-5.5. Это разрыв в 10,6 пункта в пользу Opus 4.8 для задач инженерии на уровне репозитория.

Картина меняется на Terminal-Bench 2.0, где GPT-5.5 набирает 78,2% против 74,6% у Opus 4.8. Terminal-Bench тестирует сложные командные рабочие процессы, требующие планирования, итераций и координации инструментов, поэтому если ваша работа сильно завязана на shell или DevOps, у GPT-5.5 есть преимущество. Деталь из системной карты Anthropic: при минимальном усилии Opus 4.8 уже соответствует пиковому показателю Opus 4.7 при максимальном усилии на SWE-bench Pro, что говорит о большом запасе по регуляторам усилия.

Бенчмарк Claude Opus 4.8 GPT-5.5 Примечания
SWE-bench Pro 69,2% 58,6% По данным вендора; Opus 4.8 лидирует примерно на 10 п. п.
Terminal-Bench 2.0 74,6% 78,2% Лидирует GPT-5.5; разные конфигурации стенда

Картина по коду делится чётко: Opus 4.8 — для инженерии на уровне репозитория, где важны понимание структуры кодовой базы, GPT-5.5 — для терминал-зависимых воркфлоу и shell-автоматизации. Если вы используете Claude Code с динамическими воркфлоу, Opus 4.8 теперь может оркестрировать сотни параллельных субагентов в одной сессии — это другой класс возможностей, чем то, что фиксируют «сырые» бенчмарки обеих моделей.

Рассуждение и знаниевые задачи

На Humanity's Last Exam, бенчмарке действительно сложных задач уровня магистратуры по естественным наукам, математике и гуманитарным дисциплинам, Opus 4.8 лидирует и с инструментами, и без них. Без инструментов: 49,8% у Opus 4.8 против 41,4% у GPT-5.5. С инструментами: 57,9% против 52,2%. Это стабильный разрыв в 7–8 пунктов в пользу Opus 4.8 по междисциплинарному рассуждению.

Особенно заметна история с математикой. На USA Mathematical Olympiad Opus 4.8 набрал 96,7% в нынешнем году, причём соревнование прошло после отсечки обучающих данных модели, что исключает загрязнение. Opus 4.7 набрал 69,3% на тех же задачах. Это скачок на 27 пунктов в доказательной математике за одно поколение модели. GPT-5.5 набирает 51,7% на FrontierMath Tier 1–3 и 35,4% на Tier 4 — это сильные результаты, но сравнение по USAMO для GPT-5.5 в исследовательских заметках недоступно.

Anthropic не публиковала показатель GPQA Diamond для Opus 4.8 отдельно, вероятно, потому что он уже сильно «насыщен», и результаты менее релевантны по сравнению с другими бенчмарками.

Примечательно, что обе модели уступают Gemini 3.5 Flash (57,9%) в финансовых задачах, согласно бенчмарку Finance Agent v2 (53,9% и 51,8% соответственно).

Использование инструментов и взаимодействие с компьютером

Opus 4.8 лидирует на обоих ключевых бенчмарках использования инструментов и компьютера. На OSWorld-Verified, который проверяет способность модели выполнять задачи, управляя живым рабочим столом мышью и клавиатурой, Opus 4.8 набирает 83,4% против 78,7% у GPT-5.5. На MCP-Atlas, измеряющем многошаговое использование инструментов через реальные API, Opus 4.8 достигает 82,2% против 75,3% у GPT-5.5.

Разрыв в OSWorld показателен, потому что Opus 4.7 и GPT-5.5 фактически шли вровень на этом бенчмарке (78,0% против 78,7%). Opus 4.8 вырвался вперёд примерно на пять пунктов — это существенное улучшение для команд, строящих браузерных агентов или автоматизацию рабочего стола. Ранние тестеры сообщали, что Opus 4.8 набрал 84% на Online-Mind2Web, бенчмарке веб-агентов, что является повышением относительно и Opus 4.7, и GPT-5.5.

Оговорка по агентной производительности: системная карта Anthropic отметила регресс в стойкости к внедрению подсказок. Без защит единственная попытка атаки была успешной у Opus 4.8 примерно в 7% случаев против 2,3% у Opus 4.7. Задействованные меры возвращают показатель к 2%, но если вы строите агентные пайплайны, обрабатывающие недоверенный ввод, это важно знать до переключения.

Производительность на длинном контексте

Здесь у Opus 4.8 самое очевидное преимущество. На GraphWalks, который стресс-тестирует рассуждение на длинном контексте, встраивая большой ориентированный граф в окно контекста и предлагая модели его обходить, Opus 4.8 набирает 85,9% на подмножестве BFS 256K против 73,7% у GPT-5.5. На полном подмножестве 1M токенов разрыв увеличивается: 68,1% у Opus 4.8 против 45,4% у GPT-5.5.

Как мы отмечали в нашем обзоре GPT-5.5, GPT-5.4 фактически «сыпался» за пределами 128K токенов, и GPT-5.5 это исправил. Но Opus 4.8 всё ещё заметно впереди на уровне 1M. Для задач с обилием документов, плотной финансовой отчётности или любых задач, требующих рассуждения на очень большом контексте, Opus 4.8 — значительно более сильный выбор.

Бенчмарк Claude Opus 4.8 GPT-5.5 Примечания
GraphWalks BFS 256K 85,9% 73,7% Opus 4.8 лидирует примерно на 12 п. п.
GraphWalks BFS 1M 68,1% 45,4% Opus 4.8 лидирует примерно на 23 п. п.; результаты на 1M не воспроизводимы через публичный API для обеих моделей

Выравнивание, честность и надёжность

Это то измерение, на котором Anthropic наиболее явно конкурирует с Opus 4.8, и результаты действительно интересны. В тесте, где модель должна суммировать сессию кодинга, в которую тайно были внесены сбои, Opus 4.8 замалчивает эти сбои лишь в 3,7% случаев. Это также первая модель Claude, получившая ноль в тесте, где нужно поймать ошибочные данные до того, как сообщить результат.

Команда по выравниванию Anthropic также обнаружила, что у Opus 4.8 частота несоответствующего поведения существенно ниже, чем у Opus 4.7, и сопоставима с Claude Mythos Preview — самой способной и наиболее тщательно выровненной моделью Anthropic. Есть оговорка: во время обучения Opus 4.8 порой, похоже, рассуждал о том, как его будут оценивать, а не о том, как выполнить задачу. Anthropic утверждает, что поведенческое влияние умеренное, но это может иметь значение в высокорисковых агентных развёртываниях.

OpenAI не опубликовала сопоставимые метрики выравнивания для GPT-5.5 в доступных исследовательских материалах, поэтому прямое сравнение по этому измерению невозможно. Можно сказать, что Anthropic делает приоритетом честность и калиброванную неопределённость, хотя последние результаты неоднозначны.

Цены

На стандартном уровне API модели близки, но не идентичны. Обе берут $5 за миллион входных токенов. На выходе Opus 4.8 стоит $25 за миллион токенов против $30 у GPT-5.5 — разница в 17%, которая быстро накапливается при «тяжёлом» выводе.

У Opus 4.8 также есть быстрый режим, который работает в 2,5 раза быстрее, по цене $10 за миллион входных токенов и $50 за миллион выходных. Anthropic снизила цену быстрого режима до трети от прежнего уровня для Opus, что делает его более практичным для чувствительных к задержке сценариев. GPT-5.5 Pro, для задач с повышенной точностью, стоит $30 за миллион входных токенов и $180 за миллион выходных — это существенная наценка по сравнению со стандартным GPT-5.5.

Практическое замечание для пользователей Opus в claude.ai: каждое сообщение включает всю историю разговора на текущий момент, а Opus — самый «токеноёмкий» в семействе Claude, примерно в 5 раз дороже за токен, чем Sonnet. Для высоконагруженного продакшн-использования это стоит учесть в архитектурных решениях до того, как выбрать Opus вместо более дешёвого уровня.

Когда выбирать Claude Opus 4.8 vs GPT-5.5

Вопрос не в том, какая модель «лучше» в целом. Важно, какая подходит под конкретную форму вашей работы. Я бы сформулировал так.

Сценарий Рекомендация Почему
Инженерия на уровне репозитория Claude Opus 4.8 Лидирует на SWE-bench Pro на 10,6 пункта (69,2% против 58,6%)
DevOps и shell-автоматизация с упором на терминал GPT-5.5 Лидирует на Terminal-Bench 2.0 на 8 пунктов (82,7% против 74,6%)
Документоёмкие воркфлоу с очень длинным контекстом Claude Opus 4.8 Лидирует на GraphWalks BFS 1M на 23 пункта (68,1% против 45,4%)
Междисциплинарное рассуждение уровня магистратуры Claude Opus 4.8 Лидирует на Humanity's Last Exam с инструментами и без (49,8% против 41,4% без инструментов)
Браузерные агенты и автоматизация рабочего стола Claude Opus 4.8 Лидирует на OSWorld-Verified (83,4% против 78,7%) и MCP-Atlas (82,2% против 75,3%)
Высокая точность при вторичной роли стоимости GPT-5.5 Pro Pro-уровень доступен для более сложных задач; у Opus 4.8 нет эквивалента Pro
Выводоёмкие продакшн-нагрузки с ограниченным бюджетом Claude Opus 4.8 $25 против $30 за миллион выходных токенов; быстрый режим теперь в 3 раза дешевле прежнего Opus
Агентные пайплайны, требующие честной самооценки Claude Opus 4.8 В 4 раза реже пропускает дефектный код без замечания; первая модель Claude с нулём на тесте обнаружения дефектных данных

Выберите Claude Opus 4.8, если…

  • Ваша работа — инженерия на уровне репозитория. Разрыв на 10 пунктов в SWE-bench Pro — реальный сигнал, а наши проверки кода подтвердили, что Opus 4.8 ловит тонкие баги без специальных наводящих вопросов.
  • Вы строите агентные пайплайны для длинных документов или больших кодовых баз. Разрыв GraphWalks 1M (68,1% против 45,4%) — крупнейшая разница между моделями в любом бенчмарке.
  • Нужна модель, которая помечает собственную неопределённость. Улучшения в честности Opus 4.8 особенно важны для автономных запусков, где вы не можете контролировать каждый шаг.
  • Вы запускаете браузерных агентов или автоматизацию рабочего стола. Opus 4.8 опережает GPT-5.5 на OSWorld-Verified примерно на пять пунктов, а ранние тесты сообщали о 84% на Online-Mind2Web.
  • Стоимость выходных токенов важна в масштабе. При $25 за миллион выходных токенов против $30 у GPT-5.5 разница быстро накапливается на больших объёмах.

Выберите GPT-5.5, если…

  • Ваша работа завязана на терминал. GPT-5.5 лидирует на Terminal-Bench 2.0 на восемь пунктов (82,7% против 74,6%), и этот разрыв согласуется с тем, что мы видели в наших тестах GPT-5.5.
  • Вам нужен Pro-уровень для самых сложных задач. GPT-5.5 Pro доступен по $30 за миллион входных токенов и $180 за миллион выходных для задач с повышенной точностью. У Opus 4.8 нет эквивалентного уровня.
  • Вы глубоко интегрированы в экосистему OpenAI. GPT-5.5 интегрируется с Codex, ChatGPT и более широкой экосистемой OpenAI, у которой большее сообщество и больше примеров интеграций, чем у экосистемы Anthropic.
  • Вы выполняете научно-исследовательские воркфлоу. GPT-5.5 показал сильные результаты на GeneBench (25,0%) и BixBench (80,5%), а OpenAI позиционирует его как «со-учёного» для биомедицинских исследований.

Итоговые мысли

Opus 4.8 — более сильная модель для большинства задач, которые важны для дата-сайентистов и ML-инженеров: инженерии на уровне репозитория, рассуждения на длинном контексте, многошагового использования инструментов и агентных воркфлоу, которые должны работать без присмотра. Улучшения в честности — то, что кажется мне самым интересным, потому что модель, которая сообщает, когда «застряла», полезнее в продакшене, чем та, что уверенно докладывает об успехе. Удержится ли это на практике — ещё предстоит увидеть, но направление выглядит многообещающим.

GPT-5.5 — правильный выбор для терминал-ориентированной работы и для команд, уже инвестированных в экосистему OpenAI. Разрыв на Terminal-Bench реален, а GPT-5.5 Pro даёт вариант с более высокой точностью, которого у Opus 4.8 сейчас нет в виде уровневой версии.

За чем стоит следить: Anthropic неоднократно упоминала Claude Mythos Preview в анонсе Opus 4.8, называя его своей лучшей выровненной моделью и отмечая, что он уже ограниченно используется для задач кибербезопасности. Возможно, Opus 4.8 — не потолок надолго. Если вы хотите быстро освоить основы ИИ и разобраться, как работать с этими моделями на практике, рекомендую начать с трекa навыков AI Fundamentals на DataCamp.

Темы

Лучшие курсы по ИИ

Course

Working with the OpenAI API

3 ч
132.8K
Start your journey developing AI-powered applications with the OpenAI API. Learn about the functionality that underpins popular AI applications like ChatGPT.
ПодробнееRight Arrow
Начать курс
Смотрите большеRight Arrow