Перейти к основному содержимому

Claude Opus 4.7 и GPT-5.4: какую передовую модель выбрать?

Мы сравниваем Claude Opus 4.7 и GPT-5.4 для кодинга, агентных процессов и задач с длинным контекстом, анализируя бенчмарки, цены и работу с инструментами, чтобы помочь вам выбрать модель.
Обновлено 24 апр. 2026 г.  · 11 мин читать

GPT-5.4 вышел 5 марта 2026 года как флагман OpenAI для профессиональной работы, объединив кодирование и рассуждение в одной универсальной модели. Шестью неделями позже, 16 апреля, Anthropic выпустила Claude Opus 4.7, сделав ставку на иное: модель, которая автономно справляется с долгосрочной инженерией и сохраняет связность в сессиях, где большинство агентов «рассыпается».

Хороший момент сравнить их напрямую, хотя важная оговорка: материал вышел в день запуска Opus 4.7, поэтому приведённые ниже показатели во многом основаны на данных вендоров. Воспринимайте их как отправную точку, а не окончательный вердикт.

Обновление: OpenAI выпустила преемника GPT-5.4. Всё о нём читайте в нашем руководстве по GPT-5.5.

Сравнение Opus 4.7 и GPT-5.4 лицом к лицу

Краткая выжимка перед тем, как углубиться в детали. Больше всего нюансов скрыто в ценах — им посвящена отдельная секция.

Side-by-side specifications table comparing Claude Opus 4.7 and GPT-5.4 across context window, pricing, effort levels, vision, and key capabilities.

Ключевые характеристики обеих моделей. Изображение автора.

Gemini 3.1 Pro — реальная альтернатива, если вам прежде всего нужно массово обрабатывать документы или проводить длинные юридические анализы; у него ниже стоимость за токен при окне контекста 2M. В этой статье мы остаёмся в фокусе сравнения Anthropic и OpenAI.

То, как вендоры позиционируют свои модели, многое говорит о предполагаемых сценариях использования.

Позиционирование модели и предполагаемое использование

OpenAI подаёт GPT-5.4 как единую универсальную модель. Она впитала возможности кодирования, ранее представленные в GPT-5.3-Codex, так что разработчикам больше не нужно маршрутизировать запросы на разные эндпойнты по типам задач. Одна модель, один эндпойнт — любая задача.

У Anthropic позиционирование Opus 4.7 уже: модель, оптимизированная для «кодирования, агентов, использования компьютера и корпоративных процессов», с автономией на длинном горизонте как главным отличием. Вы делегируете сложную инженерную работу и рассчитываете, что модель сама найдёт и исправит ошибки, прежде чем отчитаться. Важно: Opus 4.7 — самая мощная общедоступная модель Anthropic, но не топовая; над ней находится Claude Mythos Preview, ограниченная задачами защитной кибербезопасности.

Эта разница проявляется на экстремумах: в очень длительных сессиях кодинга или в пайплайнах, где сцепляются десятки инструментов.

Кодинг и агентные рабочие процессы

На уровне репозиториев Opus 4.7 лидирует в бенчмарках, которые каждый вендор выбрал для публикации (полные цифры ниже). Он ввёл самопроверку результата: модель проверяет свою работу прежде чем ответить, а Genspark отдельно отметил устойчивость к зацикливанию: Opus 4.7 реже «застревает» на одной проблеме. Об этом начинаешь заботиться, только когда видишь, как агент 40 минут ходит по кругу ни о чём.

GPT-5.4 опережает на Terminal-Bench 2.0 примерно на шесть пунктов (75,1% против 69,4%), хотя Anthropic отмечает, что цифра GPT-5.4 получена на самодельном стенде. GPT-5.4 также представил корректировку плана «на лету» через Interactive Thinking: в ходе сложного рассуждения вы можете вмешаться до завершения генерации и перенаправить модель, если путь неверный. У Opus 4.7 аналога нет. Разрыв на SWE-bench реален: шесть пунктов на бенчмарке, выбранном вендором, — это полезный сигнал, но не приговор.

Окно контекста и работа с длинным контекстом

Обе модели поддерживают примерно 1M токенов; различается то, что происходит со счётом, когда вы этим окном пользуетесь. Opus 4.7 берёт единую ставку по всему окну, так что запрос на 900 тыс. токенов стоит столько же за токен, сколько и на 9 тыс. GPT-5.4 берёт $2,50 за миллион при входе до 272 тыс. токенов, но как только вы переходите этот порог, пересчитывается вся сессия. Точные цифры — в разделе про цены.

Есть и нюанс с токенизатором: Opus 4.7 может разбивать тот же текст на до 35% больше токенов, чем 4.6. Цена за токен не изменилась, но фактическая стоимость задачи может вырасти.

По реальной работе с длинным контекстом партнёрские тесты показали у Opus 4.7 наивысший, наравне с лидерами, балл согласованности по шести исследовательским модулям — 0,715. RAG-пайплайны, заполняющие окно до ~1M, стоит проверять на своей нагрузке, а не полагаться на вендорские бенчмарки.

Инструменты, мультимодальность и взаимодействие со средой

На бумаге интерфейсы инструментов похожи, на практике — разнятся. В OSWorld-Verified (использование настольного ПК) Opus 4.7 теперь лидирует — 78,0% против 75,0% у GPT-5.4, обе модели выше базового уровня экспертов-людей (72,4%). На браузерных исследованиях картина обратная: GPT-5.4 набирает 89,3% на BrowseComp (вариант Pro) против 79,3% у Opus 4.7. Один заголовок «использование компьютера» скрывает разницу «десктоп против браузера».

Главное мультимодальное обновление Opus 4.7 — разрешение изображений: до 2 576 пикселей по длинной стороне (примерно 3,75 Мп), более чем втрое выше, чем у предыдущих моделей Claude, с автоматической обработкой в повышенной чёткости без дополнительных параметров API. Партнёр по безопасности XBOW сообщил рост точности «зрения» с 54,5% у Opus 4.6 до 98,5% у 4.7 — самый резкий скачок в одном бенчмарке среди всех партнёрских оценок этого релиза.

Отличается и архитектура работы с инструментами. Система поиска инструментов GPT-5.4 подгружает определения по требованию, а не встраивает всё в промпт, снижая токенные накладные расходы в больших экосистемах. Opus 4.7 сначала рассуждает над задачей и лишь затем обращается к инструментам, в целом делая меньше вызовов; на высоких уровнях усилия использование инструментов растёт.

Управляемость, надёжность и стиль вывода

Opus 4.7 буквально следует инструкциям. Он не будет обобщать с одного пункта на другой и не станет додумывать невысказанные запросы, поэтому подсказки, написанные для 4.6, могут вести себя неожиданно; Anthropic рекомендует перенастройку. Плюс — надёжность в длинных агентных циклах: в Ramp отметили, что нужно существенно меньше пошаговых указаний в многоинструментальных процессах, а тесты Hexagon показали, что Opus 4.7 на низком уровне усилия примерно равен Opus 4.6 на среднем.

Anthropic также ввела xhigh как новый уровень усилия между high и max, и подняла в Claude Code уровень по умолчанию до xhigh для всех планов. В сочетании с новым токенизатором количество выходных токенов может быть выше, чем у 4.6, на поздних агентных шагах; Task Budgets (публичная бета) позволяют ограничить расходы агента в сессии. Управляемость GPT-5.4 строится вокруг Interactive Thinking, как уже говорилось в разделе про кодинг; в гиде по промптам OpenAI отмечает, что модель хорошо работает при явно заданных контрактных форматах вывода.

Замечание из собственной оценки безопасности Anthropic: Opus 4.7 стал честнее и лучше противостоит внедрению чужих подсказок по сравнению с 4.6, но немного ухудшился в сопротивлении чрезмерно детализированным советам по снижению вреда для контролируемых веществ. Общая оценка Anthropic: «в целом хорошо согласованная и заслуживающая доверия модель, хотя поведение не идеально».

Opus 4.7 против GPT-5.4 в бенчмарках

К бенчмаркам стоит относиться внимательно, но доверять им лишь до определённой степени. Оба вендора выбрали тесты, где они сильнее, а Vals.ai и Artificial Analysis на момент написания ещё не проиндексировали Opus 4.7. Протестируйте свои задачи, прежде чем делать выводы по любым из этих результатов.

Кодовые бенчмарки

Таблица ниже охватывает наиболее релевантные показатели по кодингу из материалов релиза каждого вендора.

Бенчмарк

Claude Opus 4.7

GPT-5.4

Примечания

SWE-bench Pro

64,3%

57,7%

По данным вендоров; разные конфигурации стендов

SWE-bench Verified

87,6%

Не опубликовано

OpenAI не публиковала официальный результат по этому варианту

CursorBench

~70%

Не опубликовано

Cursor — партнёр Anthropic; не независимый тест

Terminal-Bench 2.0

69,4%

75,1%

Anthropic отмечает, что результат GPT-5.4 получен на самодельном стенде; при этом GPT-5.4 уступает GPT-5.3-Codex (77,3%)

GPQA Diamond

94,2%

94,4% (Pro)

Фактически ничья; на этом уровне метрика почти насыщена

Horizontal bar chart comparing Claude Opus 4.7 and GPT-5.4 on SWE-bench Pro and SWE-bench Verified coding benchmarks, showing Opus 4.7 leads on both.

Кодовые бенчмарки явно в пользу Opus 4.7. Изображение автора.

У SWE-bench несколько вариантов, и оба вендора подчеркнули тот, где у них лучшие результаты. Anthropic применяла проверки на запоминание датасета и сообщает, что преимущество Opus 4.7 сохраняется после исключения помеченных задач. Контекст: открыто-весовая модель Z.ai GLM-5.1 ненадолго возглавляла SWE-bench Pro с 58,4% в начале апреля 2026 года, прежде чем появился результат 64,3% у Opus 4.7, так что любые заявления о «стейте-оф-зе-арт» здесь живут недолго.

Бенчмарки агентов и «использования компьютера»

С релизом Opus 4.7 Anthropic опубликовала сравнительные показатели для обеих моделей на большинстве агентных бенчмарков. Картина неоднозначная, а не односторонняя.

Бенчмарк

Claude Opus 4.7

GPT-5.4

Примечания

OSWorld-Verified

78,0%

75,0%

Использование настольного ПК; обе модели выше базового уровня экспертов-людей 72,4%

BrowseComp

79,3%

89,3% (Pro)

Веб-исследования с многошаговым рассуждением; лидер — GPT-5.4

MCP-Atlas

77,3%

68,1%

Масштабное использование инструментов через множество подключённых сервисов

WebArena-Verified

Не опубликовано

67,3%

Автономная навигация по вебу

Toolathlon

Не опубликовано

54,6%

Многошаговая оркестрация инструментов; рост с 46,3% у GPT-5.2

Finance Agent v1.1

64,4%

61,5% (Pro)

Финансовый агент для длинного контекста

GDPval-AA

1753 Elo

1674 Elo

Профессиональная интеллектуальная работа; Opus 4.7 ведёт с отрывом 79 Elo

BigLaw Bench

90,9% на высоком уровне усилия

Не опубликовано

Задачи с юридическими документами; оценка партнёра Harvey

Картина делится по средам: Opus 4.7 выигрывает на десктопе, в использовании инструментов и «знаниевой» работе; GPT-5.4 — в браузерных исследованиях. Несколько цифр GPT-5.4 — из варианта Pro, так что стандартный уровень может быть ниже. Следующий шаг — независимые прогоны на общей методике.

Цены: Opus 4.7 и GPT-5.4

Базовые тарифы выглядят просто. Реальная картина затрат — нет.

Структура цен в API

Разницу проще всего понять на конкретных сценариях.

При запросе с 100 тыс. входных и 10 тыс. выходных токенов (задолго до порога 272 тыс. у GPT-5.4) GPT-5.4 стоит примерно $0,40 против $0,75 у Opus 4.7. Почти вдвое дешевле для короткого и среднего контекста.

При 500 тыс. входа и 20 тыс. выхода — выше порога GPT-5.4 — модели стоят примерно одинаково: $2,95 против $3,00. При 900 тыс. входа и 10 тыс. выхода различия почти нет.

Порог 272 тыс. — та деталь, которая многих застает врасплох: он применяется к всей сессии, а не только к токенам сверх отсечки. Пайплайн, который регулярно отправляет подсказки на 280 тыс. токенов, платит полный «длинноконтекстный» тариф за каждый запрос, а не только за лишние 8 тыс. Это пересчёт на уровне сессии, а не надбавка на крайние токены.

Chart showing how GPT-5.4 and Claude Opus 4.7 API costs compare at short-context (100K tokens), mid-context (500K tokens), and long-context (900K tokens) request sizes, with GPT-5.4's 272K pricing threshold clearly marked.

Стоимость GPT-5.4 растёт после 272 тыс. токенов. Изображение автора.

Как упоминалось в разделе про окно контекста, новый токенизатор может разбивать один и тот же ввод на до 35% больше токенов, чем у Opus 4.6. Цена за токен прежняя, но фактическая стоимость задачи растёт. Меряйте на реальном трафике: экстраполяция с базовых значений 4.6 даст заниженную оценку.

Обе платформы дают около 90% скидки на кэшированные входные токены: $0,50 за миллион у Opus 4.7, $0,25 за миллион у GPT-5.4 до 272 тыс. Batch API добавляет ещё примерно 50% скидки для не срочных задач. Для асинхронных нагрузок это главный рычаг экономии на любой платформе.

Есть и «скрытые» стоимости инструментов. Anthropic берёт $10 за 1 000 веб-поисков плюс стандартные токены за извлечённый контент. OpenAI отдельно тарифицирует хранение и запросы в файловом поиске. В инструментально тяжёлых пайплайнах это накапливается.

Стоимость для разных типов нагрузок

Для короткого контекста и большого объёма (вызовы API до 100 тыс. токенов, пакетная классификация, быстрая итерация) GPT-5.4 дешевле. Разрыв по входу может доходить до 2 раз.

После 272 тыс. токенов преимущество меняется. Плоская ставка Opus 4.7 удобнее в бюджетировании и почти сравнивается с GPT-5.4 по общей стоимости.

Обе платформы взимают небольшую надбавку за локализацию данных (около 10% с каждой стороны). На этом уровне это решение про комплаенс, а не про цену. Для агентных сессий Claude Code главным рычагом контроля токенов остаются Task Budgets (см. раздел про управляемость).

Opus 4.7 лучше, чем GPT-5.4?

Универсального ответа нет, и любая статья, утверждающая обратное, что-то продаёт.

Выберите Claude Opus 4.7, если ваша основная работа — длительная разработка ПО, где важна самопроверка; ваш агент управляет десктопными приложениями; ваши подсказки регулярно превышают 272 тыс. токенов; ваш процесс читает плотные скриншоты или технические диаграммы; или вы уже используете Claude Code, Cursor, Replit или Devin.

Выберите GPT-5.4, если ваш агент выполняет интенсивные браузерные исследования, ваши нагрузки остаются ниже 272 тыс. токенов и цена важна; вам нужен отложенный импорт инструментов в большой экосистеме; или ваша команда уже на OpenAI Responses API.

Рассмотрите тестирование обеих, если работа делится между автономными веб-исследованиями и длинными сессиями кодинга. Браузерные и терминальные сильные стороны GPT-5.4 подходят агентным веб-процессам; устойчивость к зацикливанию и плоские цены Opus 4.7 лучше для глубоких инженерных сессий и документоёмких пайплайнов.

Two-column decision guide showing use cases suited to Claude Opus 4.7 on the left and use cases suited to GPT-5.4 on the right.

Как выбрать модель под ваш процесс. Изображение автора.

Одна общая рекомендация для обоих вариантов: скидки Batch API могут влиять на экономику сильнее, чем выбор модели, для асинхронных задач. А пока независимые бенчмарки для Opus 4.7 догоняют, пилот на реальном срезе вашей работы ценнее любой сравнительной статьи, включая эту.

Итоги

Разница между Claude Opus 4.7 и GPT-5.4 — не столько «кто умнее», сколько «под какую форму работы вы их применяете».

Anthropic сделала ставку на автономию: модель, удерживающую связность на длинных инженерных прогонах и проверяющую собственный вывод. OpenAI — на широту: более широкий набор инструментов и более низкие тарифы для подавляющего большинства подсказок до 272 тыс. токенов.

Цены — то, где команды чаще всего ошибаются в оценке, и, как уже говорилось, пересчёт на отметке 272 тыс. в сессии — конкретная ловушка. На месячные расходы сильнее базовой ставки обычно влияют кэширование и скидки Batch API на обеих платформах.

Разрывы в бенчмарках — однозначные цифры, но чаще в пределах единиц процентов, и обе компании выпускают новые модели каждые несколько недель. Выберите то, что подходит вашему стеку сейчас, и пересмотрите через месяц.

Если хотите глубже разобраться с практикой, наш курс Software Development with Cursor охватывает ИИ-поддерживаемые рабочие процессы кодинга на практике.

FAQs

Доступна ли Claude Opus 4.7 вне API Anthropic?

Да. Opus 4.7 доступна в Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry под идентификатором модели claude-opus-4-7. Региональная доступность и цены на кэшированные токены могут отличаться между облаками, поэтому проверьте страницу провайдера, если для развёртывания важна локация данных.

Нужно ли обновлять код API при миграции с Opus 4.6 на Opus 4.7?

Да, три несовместимых изменения. Установка temperature, top_p или top_k в значения, отличные от умолчаний, теперь возвращает ошибку 400. Старый параметр budget_tokens не поддерживается; замените его включением адаптивного режима thinking. И новый токенизатор генерирует больше токенов на запрос, так что любой жёсткий потолок max_tokens , который был «впритык» на 4.6, может обрезать вывод на 4.7. Перенастройте и промпты: 4.7 буквальнее следует инструкциям, чем 4.6.

Какая модель лучше для кодинга?

Opus 4.7 лидирует на SWE-bench Pro (64,3% против 57,7%) и SWE-bench Verified (87,6%; OpenAI здесь результат не публиковала). GPT-5.4 лидирует на Terminal-Bench 2.0 с 75,1% против 69,4%, хотя Anthropic отмечает, что это число получено на самодельном стенде. Opus 4.7 — для инженерии на уровне репозитория, GPT-5.4 — для терминал-ориентированных процессов. Независимые оценки на общей методике пока в ожидании.

Как изменение токенизатора Opus 4.7 влияет на стоимость?

Диапазон — от 1,0 до 1,35x, это не фиксированные 35%, так что влияние зависит от типа контента. Менее очевидный фактор: 4.7 также «думает» больше на высоких уровнях усилия на поздних агентных шагах, поэтому токены накапливаются в рамках сессии. Практический ограничитель — Task Budgets.

Лучше ли GPT-5.4 использует инструменты, чем Claude Opus 4.7?

По-разному. У GPT-5.4 шире встроенная поверхность инструментов (веб-поиск, файловый поиск, интерпретатор кода, использование компьютера) с подгрузкой по требованию. Opus 4.7 делает меньше вызовов инструментов и больше рассуждает заранее. Notion сообщила, что Opus 4.7 — первая модель, прошедшая их тесты на неявные потребности, и она дала в три раза меньше ошибок инструментов, чем 4.6. На MCP-Atlas (масштабное использование инструментов) Opus 4.7 лидирует 77,3% против 68,1%, так что широкая поверхность не означает автоматически лучшую оркестрацию.

Темы

Учитесь с DataCamp

Course

Generative AI Concepts

2 ч
101.8K
Discover how to begin responsibly leveraging generative AI. Learn how generative AI models are developed and how they will impact society moving forward.
ПодробнееRight Arrow
Начать курс
Смотрите большеRight Arrow