Course
Если вы выбираете флагманскую модель для серьёзной агентной работы прямо сейчас, Claude Opus 4.8 и GPT-5.5 — очевидно два из лучших вариантов наряду с Gemini 3.5 Flash. Обе — текущие производственные вершины своих лабораторий и нацелены на долгие циклы программирования и автономные рабочие процессы.
Ключевые числа настолько близки, что одного сравнения бенчмарков недостаточно для выбора. Opus 4.8 лидирует на SWE-bench Pro (69,2% против 58,6%), тогда как GPT-5.5 лидирует на Terminal-Bench 2.0 (82,7% против 74,6%). Более интересная часть — качественные различия: Anthropic делает ставку на честность и калиброванную неопределённость как на следующий рубеж для продакшн-ИИ, а OpenAI — на «сырую» агентную пропускную способность и эффективность по токенам.
В этой статье я сравню Claude Opus 4.8 и GPT-5.5 по пяти измерениям: код и агентные пайплайны, рассуждение и знаниевые задачи, производительность на длинном контексте, выравнивание и надёжность, а также цены. Также вы можете посмотреть наши отдельные обзоры Claude Opus 4.8 и GPT-5.5 для более глубокого изучения каждой модели.
Что такое Claude Opus 4.8?
Claude Opus 4.8 — текущая флагманская модель Anthropic, выпущенная 28 мая 2026 года. Она находится на вершине семейства Claude, выше Sonnet и Haiku, и предназначена для самых требовательных задач: агентного программирования, сложного многошагового рассуждения и долгих автономных рабочих процессов. Главное улучшение по сравнению с Opus 4.7 — не только баллы в бенчмарках, но и качественный сдвиг в сторону честности: модель в четыре раза реже, чем предшественник, пропускает дефектный код без пометки.
Opus 4.8 также поставляется с пакетом новых функций, включая динамические воркфлоу в Claude Code (которые могут запускать сотни параллельных субагентов в одной сессии), регуляторы усилия в claude.ai и быстрый режим, который теперь стоит треть от стоимости в предыдущих версиях Opus. Цена стандартного использования — $5 за миллион входных токенов и $25 за миллион выходных токенов, без изменений относительно Opus 4.7.
Что такое GPT-5.5?
GPT-5.5 — апрельский флагман OpenAI 2026 года, описанный компанией как её самый сильный на сегодня агентный кодер. Он доступен в ChatGPT и Codex для пользователей Plus, Pro, Business и Enterprise, с окном контекста 1M в Codex. Ключевое утверждение OpenAI: GPT-5.5 сопоставим с GPT-5.4 по задержке на токен в реальной подаче, при этом работает на заметно более высоком уровне «интеллекта» и использует меньше токенов для выполнения тех же задач Codex.
Вариант GPT-5.5 Pro также доступен для задач с более высокой точностью, по цене $30 за миллион входных токенов и $180 за миллион выходных токенов в API. Стандартная цена GPT-5.5 в API — $5 за миллион входных токенов и $30 за миллион выходных токенов.
Claude Opus 4.8 vs GPT-5.5: лобовое сравнение
Вот краткое резюме позиций каждой модели перед тем, как перейти к деталям. Картина делится по доменам, поэтому правильный выбор сильно зависит от того, что вы на самом деле строите.
| Функция | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|
| SWE-bench Pro (программирование) | 69,2% | 58,6% |
| Terminal-Bench 2.1 | 74,6% | 78,2% |
| Humanity's Last Exam (без инструментов) | 49,8% | 41,4% |
| Humanity's Last Exam (с инструментами) | 57,9% | 52,2% |
| OSWorld-Verified (использование компьютера) | 83,4% | 78,7% |
| MCP-Atlas (использование инструментов) | 82,2% | 75,3% |
| Finance Agent v2 | 53,9% | 51,8% |
| GraphWalks BFS 256K | 85,9% | 73,7% |
| GraphWalks BFS 1M | 68,1% | 45,4% |
| Окно контекста | 1M токенов | 1M токенов |
| Цена API на вход | $5 / 1M токенов | $5 / 1M токенов |
| Цена API на выход | $25 / 1M токенов | $30 / 1M токенов |
| Регуляторы усилия | Да (low / high / extra / max) | Да (настройка xhigh) |
Код и агентные воркфлоу
Это то измерение, где модели расходятся наиболее явно, и разделение идёт по среде, а не по общему качеству. На SWE-bench Pro, который использует реальные активно поддерживаемые репозитории без утечки эталонных ответов, Opus 4.8 набирает 69,2% против 58,6% у GPT-5.5. Это разрыв в 10,6 пункта в пользу Opus 4.8 для задач инженерии на уровне репозитория.
Картина меняется на Terminal-Bench 2.0, где GPT-5.5 набирает 78,2% против 74,6% у Opus 4.8. Terminal-Bench тестирует сложные командные рабочие процессы, требующие планирования, итераций и координации инструментов, поэтому если ваша работа сильно завязана на shell или DevOps, у GPT-5.5 есть преимущество. Деталь из системной карты Anthropic: при минимальном усилии Opus 4.8 уже соответствует пиковому показателю Opus 4.7 при максимальном усилии на SWE-bench Pro, что говорит о большом запасе по регуляторам усилия.
| Бенчмарк | Claude Opus 4.8 | GPT-5.5 | Примечания |
|---|---|---|---|
| SWE-bench Pro | 69,2% | 58,6% | По данным вендора; Opus 4.8 лидирует примерно на 10 п. п. |
| Terminal-Bench 2.0 | 74,6% | 78,2% | Лидирует GPT-5.5; разные конфигурации стенда |
Картина по коду делится чётко: Opus 4.8 — для инженерии на уровне репозитория, где важны понимание структуры кодовой базы, GPT-5.5 — для терминал-зависимых воркфлоу и shell-автоматизации. Если вы используете Claude Code с динамическими воркфлоу, Opus 4.8 теперь может оркестрировать сотни параллельных субагентов в одной сессии — это другой класс возможностей, чем то, что фиксируют «сырые» бенчмарки обеих моделей.
Рассуждение и знаниевые задачи
На Humanity's Last Exam, бенчмарке действительно сложных задач уровня магистратуры по естественным наукам, математике и гуманитарным дисциплинам, Opus 4.8 лидирует и с инструментами, и без них. Без инструментов: 49,8% у Opus 4.8 против 41,4% у GPT-5.5. С инструментами: 57,9% против 52,2%. Это стабильный разрыв в 7–8 пунктов в пользу Opus 4.8 по междисциплинарному рассуждению.
Особенно заметна история с математикой. На USA Mathematical Olympiad Opus 4.8 набрал 96,7% в нынешнем году, причём соревнование прошло после отсечки обучающих данных модели, что исключает загрязнение. Opus 4.7 набрал 69,3% на тех же задачах. Это скачок на 27 пунктов в доказательной математике за одно поколение модели. GPT-5.5 набирает 51,7% на FrontierMath Tier 1–3 и 35,4% на Tier 4 — это сильные результаты, но сравнение по USAMO для GPT-5.5 в исследовательских заметках недоступно.
Anthropic не публиковала показатель GPQA Diamond для Opus 4.8 отдельно, вероятно, потому что он уже сильно «насыщен», и результаты менее релевантны по сравнению с другими бенчмарками.
Примечательно, что обе модели уступают Gemini 3.5 Flash (57,9%) в финансовых задачах, согласно бенчмарку Finance Agent v2 (53,9% и 51,8% соответственно).
Использование инструментов и взаимодействие с компьютером
Opus 4.8 лидирует на обоих ключевых бенчмарках использования инструментов и компьютера. На OSWorld-Verified, который проверяет способность модели выполнять задачи, управляя живым рабочим столом мышью и клавиатурой, Opus 4.8 набирает 83,4% против 78,7% у GPT-5.5. На MCP-Atlas, измеряющем многошаговое использование инструментов через реальные API, Opus 4.8 достигает 82,2% против 75,3% у GPT-5.5.
Разрыв в OSWorld показателен, потому что Opus 4.7 и GPT-5.5 фактически шли вровень на этом бенчмарке (78,0% против 78,7%). Opus 4.8 вырвался вперёд примерно на пять пунктов — это существенное улучшение для команд, строящих браузерных агентов или автоматизацию рабочего стола. Ранние тестеры сообщали, что Opus 4.8 набрал 84% на Online-Mind2Web, бенчмарке веб-агентов, что является повышением относительно и Opus 4.7, и GPT-5.5.
Оговорка по агентной производительности: системная карта Anthropic отметила регресс в стойкости к внедрению подсказок. Без защит единственная попытка атаки была успешной у Opus 4.8 примерно в 7% случаев против 2,3% у Opus 4.7. Задействованные меры возвращают показатель к 2%, но если вы строите агентные пайплайны, обрабатывающие недоверенный ввод, это важно знать до переключения.
Производительность на длинном контексте
Здесь у Opus 4.8 самое очевидное преимущество. На GraphWalks, который стресс-тестирует рассуждение на длинном контексте, встраивая большой ориентированный граф в окно контекста и предлагая модели его обходить, Opus 4.8 набирает 85,9% на подмножестве BFS 256K против 73,7% у GPT-5.5. На полном подмножестве 1M токенов разрыв увеличивается: 68,1% у Opus 4.8 против 45,4% у GPT-5.5.
Как мы отмечали в нашем обзоре GPT-5.5, GPT-5.4 фактически «сыпался» за пределами 128K токенов, и GPT-5.5 это исправил. Но Opus 4.8 всё ещё заметно впереди на уровне 1M. Для задач с обилием документов, плотной финансовой отчётности или любых задач, требующих рассуждения на очень большом контексте, Opus 4.8 — значительно более сильный выбор.
| Бенчмарк | Claude Opus 4.8 | GPT-5.5 | Примечания |
|---|---|---|---|
| GraphWalks BFS 256K | 85,9% | 73,7% | Opus 4.8 лидирует примерно на 12 п. п. |
| GraphWalks BFS 1M | 68,1% | 45,4% | Opus 4.8 лидирует примерно на 23 п. п.; результаты на 1M не воспроизводимы через публичный API для обеих моделей |
Выравнивание, честность и надёжность
Это то измерение, на котором Anthropic наиболее явно конкурирует с Opus 4.8, и результаты действительно интересны. В тесте, где модель должна суммировать сессию кодинга, в которую тайно были внесены сбои, Opus 4.8 замалчивает эти сбои лишь в 3,7% случаев. Это также первая модель Claude, получившая ноль в тесте, где нужно поймать ошибочные данные до того, как сообщить результат.
Команда по выравниванию Anthropic также обнаружила, что у Opus 4.8 частота несоответствующего поведения существенно ниже, чем у Opus 4.7, и сопоставима с Claude Mythos Preview — самой способной и наиболее тщательно выровненной моделью Anthropic. Есть оговорка: во время обучения Opus 4.8 порой, похоже, рассуждал о том, как его будут оценивать, а не о том, как выполнить задачу. Anthropic утверждает, что поведенческое влияние умеренное, но это может иметь значение в высокорисковых агентных развёртываниях.
OpenAI не опубликовала сопоставимые метрики выравнивания для GPT-5.5 в доступных исследовательских материалах, поэтому прямое сравнение по этому измерению невозможно. Можно сказать, что Anthropic делает приоритетом честность и калиброванную неопределённость, хотя последние результаты неоднозначны.
Цены
На стандартном уровне API модели близки, но не идентичны. Обе берут $5 за миллион входных токенов. На выходе Opus 4.8 стоит $25 за миллион токенов против $30 у GPT-5.5 — разница в 17%, которая быстро накапливается при «тяжёлом» выводе.
У Opus 4.8 также есть быстрый режим, который работает в 2,5 раза быстрее, по цене $10 за миллион входных токенов и $50 за миллион выходных. Anthropic снизила цену быстрого режима до трети от прежнего уровня для Opus, что делает его более практичным для чувствительных к задержке сценариев. GPT-5.5 Pro, для задач с повышенной точностью, стоит $30 за миллион входных токенов и $180 за миллион выходных — это существенная наценка по сравнению со стандартным GPT-5.5.
Практическое замечание для пользователей Opus в claude.ai: каждое сообщение включает всю историю разговора на текущий момент, а Opus — самый «токеноёмкий» в семействе Claude, примерно в 5 раз дороже за токен, чем Sonnet. Для высоконагруженного продакшн-использования это стоит учесть в архитектурных решениях до того, как выбрать Opus вместо более дешёвого уровня.
Когда выбирать Claude Opus 4.8 vs GPT-5.5
Вопрос не в том, какая модель «лучше» в целом. Важно, какая подходит под конкретную форму вашей работы. Я бы сформулировал так.
| Сценарий | Рекомендация | Почему |
|---|---|---|
| Инженерия на уровне репозитория | Claude Opus 4.8 | Лидирует на SWE-bench Pro на 10,6 пункта (69,2% против 58,6%) |
| DevOps и shell-автоматизация с упором на терминал | GPT-5.5 | Лидирует на Terminal-Bench 2.0 на 8 пунктов (82,7% против 74,6%) |
| Документоёмкие воркфлоу с очень длинным контекстом | Claude Opus 4.8 | Лидирует на GraphWalks BFS 1M на 23 пункта (68,1% против 45,4%) |
| Междисциплинарное рассуждение уровня магистратуры | Claude Opus 4.8 | Лидирует на Humanity's Last Exam с инструментами и без (49,8% против 41,4% без инструментов) |
| Браузерные агенты и автоматизация рабочего стола | Claude Opus 4.8 | Лидирует на OSWorld-Verified (83,4% против 78,7%) и MCP-Atlas (82,2% против 75,3%) |
| Высокая точность при вторичной роли стоимости | GPT-5.5 Pro | Pro-уровень доступен для более сложных задач; у Opus 4.8 нет эквивалента Pro |
| Выводоёмкие продакшн-нагрузки с ограниченным бюджетом | Claude Opus 4.8 | $25 против $30 за миллион выходных токенов; быстрый режим теперь в 3 раза дешевле прежнего Opus |
| Агентные пайплайны, требующие честной самооценки | Claude Opus 4.8 | В 4 раза реже пропускает дефектный код без замечания; первая модель Claude с нулём на тесте обнаружения дефектных данных |
Выберите Claude Opus 4.8, если…
- Ваша работа — инженерия на уровне репозитория. Разрыв на 10 пунктов в SWE-bench Pro — реальный сигнал, а наши проверки кода подтвердили, что Opus 4.8 ловит тонкие баги без специальных наводящих вопросов.
- Вы строите агентные пайплайны для длинных документов или больших кодовых баз. Разрыв GraphWalks 1M (68,1% против 45,4%) — крупнейшая разница между моделями в любом бенчмарке.
- Нужна модель, которая помечает собственную неопределённость. Улучшения в честности Opus 4.8 особенно важны для автономных запусков, где вы не можете контролировать каждый шаг.
- Вы запускаете браузерных агентов или автоматизацию рабочего стола. Opus 4.8 опережает GPT-5.5 на OSWorld-Verified примерно на пять пунктов, а ранние тесты сообщали о 84% на Online-Mind2Web.
- Стоимость выходных токенов важна в масштабе. При $25 за миллион выходных токенов против $30 у GPT-5.5 разница быстро накапливается на больших объёмах.
Выберите GPT-5.5, если…
- Ваша работа завязана на терминал. GPT-5.5 лидирует на Terminal-Bench 2.0 на восемь пунктов (82,7% против 74,6%), и этот разрыв согласуется с тем, что мы видели в наших тестах GPT-5.5.
- Вам нужен Pro-уровень для самых сложных задач. GPT-5.5 Pro доступен по $30 за миллион входных токенов и $180 за миллион выходных для задач с повышенной точностью. У Opus 4.8 нет эквивалентного уровня.
- Вы глубоко интегрированы в экосистему OpenAI. GPT-5.5 интегрируется с Codex, ChatGPT и более широкой экосистемой OpenAI, у которой большее сообщество и больше примеров интеграций, чем у экосистемы Anthropic.
- Вы выполняете научно-исследовательские воркфлоу. GPT-5.5 показал сильные результаты на GeneBench (25,0%) и BixBench (80,5%), а OpenAI позиционирует его как «со-учёного» для биомедицинских исследований.
Итоговые мысли
Opus 4.8 — более сильная модель для большинства задач, которые важны для дата-сайентистов и ML-инженеров: инженерии на уровне репозитория, рассуждения на длинном контексте, многошагового использования инструментов и агентных воркфлоу, которые должны работать без присмотра. Улучшения в честности — то, что кажется мне самым интересным, потому что модель, которая сообщает, когда «застряла», полезнее в продакшене, чем та, что уверенно докладывает об успехе. Удержится ли это на практике — ещё предстоит увидеть, но направление выглядит многообещающим.
GPT-5.5 — правильный выбор для терминал-ориентированной работы и для команд, уже инвестированных в экосистему OpenAI. Разрыв на Terminal-Bench реален, а GPT-5.5 Pro даёт вариант с более высокой точностью, которого у Opus 4.8 сейчас нет в виде уровневой версии.
За чем стоит следить: Anthropic неоднократно упоминала Claude Mythos Preview в анонсе Opus 4.8, называя его своей лучшей выровненной моделью и отмечая, что он уже ограниченно используется для задач кибербезопасности. Возможно, Opus 4.8 — не потолок надолго. Если вы хотите быстро освоить основы ИИ и разобраться, как работать с этими моделями на практике, рекомендую начать с трекa навыков AI Fundamentals на DataCamp.