Claude Opus 4.7 и GPT-5.4: какую передовую модель выбрать?

Мы сравниваем Claude Opus 4.7 и GPT-5.4 для кодинга, агентных процессов и задач с длинным контекстом, анализируя бенчмарки, цены и работу с инструментами, чтобы помочь вам выбрать модель.

Обновлено 24 апр. 2026 г. · 11 мин читать

GPT-5.4 вышел 5 марта 2026 года как флагман OpenAI для профессиональной работы, объединив кодирование и рассуждение в одной универсальной модели. Шестью неделями позже, 16 апреля, Anthropic выпустила Claude Opus 4.7, сделав ставку на иное: модель, которая автономно справляется с долгосрочной инженерией и сохраняет связность в сессиях, где большинство агентов «рассыпается».

Хороший момент сравнить их напрямую, хотя важная оговорка: материал вышел в день запуска Opus 4.7, поэтому приведённые ниже показатели во многом основаны на данных вендоров. Воспринимайте их как отправную точку, а не окончательный вердикт.

Обновление: OpenAI выпустила преемника GPT-5.4. Всё о нём читайте в нашем руководстве по GPT-5.5.

Сравнение Opus 4.7 и GPT-5.4 лицом к лицу

Краткая выжимка перед тем, как углубиться в детали. Больше всего нюансов скрыто в ценах — им посвящена отдельная секция.

Ключевые характеристики обеих моделей. Изображение автора.

Gemini 3.1 Pro — реальная альтернатива, если вам прежде всего нужно массово обрабатывать документы или проводить длинные юридические анализы; у него ниже стоимость за токен при окне контекста 2M. В этой статье мы остаёмся в фокусе сравнения Anthropic и OpenAI.

То, как вендоры позиционируют свои модели, многое говорит о предполагаемых сценариях использования.

Позиционирование модели и предполагаемое использование

OpenAI подаёт GPT-5.4 как единую универсальную модель. Она впитала возможности кодирования, ранее представленные в GPT-5.3-Codex, так что разработчикам больше не нужно маршрутизировать запросы на разные эндпойнты по типам задач. Одна модель, один эндпойнт — любая задача.

У Anthropic позиционирование Opus 4.7 уже: модель, оптимизированная для «кодирования, агентов, использования компьютера и корпоративных процессов», с автономией на длинном горизонте как главным отличием. Вы делегируете сложную инженерную работу и рассчитываете, что модель сама найдёт и исправит ошибки, прежде чем отчитаться. Важно: Opus 4.7 — самая мощная общедоступная модель Anthropic, но не топовая; над ней находится Claude Mythos Preview, ограниченная задачами защитной кибербезопасности.

Эта разница проявляется на экстремумах: в очень длительных сессиях кодинга или в пайплайнах, где сцепляются десятки инструментов.

Кодинг и агентные рабочие процессы

На уровне репозиториев Opus 4.7 лидирует в бенчмарках, которые каждый вендор выбрал для публикации (полные цифры ниже). Он ввёл самопроверку результата: модель проверяет свою работу прежде чем ответить, а Genspark отдельно отметил устойчивость к зацикливанию: Opus 4.7 реже «застревает» на одной проблеме. Об этом начинаешь заботиться, только когда видишь, как агент 40 минут ходит по кругу ни о чём.

GPT-5.4 опережает на Terminal-Bench 2.0 примерно на шесть пунктов (75,1% против 69,4%), хотя Anthropic отмечает, что цифра GPT-5.4 получена на самодельном стенде. GPT-5.4 также представил корректировку плана «на лету» через Interactive Thinking: в ходе сложного рассуждения вы можете вмешаться до завершения генерации и перенаправить модель, если путь неверный. У Opus 4.7 аналога нет. Разрыв на SWE-bench реален: шесть пунктов на бенчмарке, выбранном вендором, — это полезный сигнал, но не приговор.

Окно контекста и работа с длинным контекстом

Обе модели поддерживают примерно 1M токенов; различается то, что происходит со счётом, когда вы этим окном пользуетесь. Opus 4.7 берёт единую ставку по всему окну, так что запрос на 900 тыс. токенов стоит столько же за токен, сколько и на 9 тыс. GPT-5.4 берёт $2,50 за миллион при входе до 272 тыс. токенов, но как только вы переходите этот порог, пересчитывается вся сессия. Точные цифры — в разделе про цены.

Есть и нюанс с токенизатором: Opus 4.7 может разбивать тот же текст на до 35% больше токенов, чем 4.6. Цена за токен не изменилась, но фактическая стоимость задачи может вырасти.

По реальной работе с длинным контекстом партнёрские тесты показали у Opus 4.7 наивысший, наравне с лидерами, балл согласованности по шести исследовательским модулям — 0,715. RAG-пайплайны, заполняющие окно до ~1M, стоит проверять на своей нагрузке, а не полагаться на вендорские бенчмарки.

Инструменты, мультимодальность и взаимодействие со средой

На бумаге интерфейсы инструментов похожи, на практике — разнятся. В OSWorld-Verified (использование настольного ПК) Opus 4.7 теперь лидирует — 78,0% против 75,0% у GPT-5.4, обе модели выше базового уровня экспертов-людей (72,4%). На браузерных исследованиях картина обратная: GPT-5.4 набирает 89,3% на BrowseComp (вариант Pro) против 79,3% у Opus 4.7. Один заголовок «использование компьютера» скрывает разницу «десктоп против браузера».

Главное мультимодальное обновление Opus 4.7 — разрешение изображений: до 2 576 пикселей по длинной стороне (примерно 3,75 Мп), более чем втрое выше, чем у предыдущих моделей Claude, с автоматической обработкой в повышенной чёткости без дополнительных параметров API. Партнёр по безопасности XBOW сообщил рост точности «зрения» с 54,5% у Opus 4.6 до 98,5% у 4.7 — самый резкий скачок в одном бенчмарке среди всех партнёрских оценок этого релиза.

Отличается и архитектура работы с инструментами. Система поиска инструментов GPT-5.4 подгружает определения по требованию, а не встраивает всё в промпт, снижая токенные накладные расходы в больших экосистемах. Opus 4.7 сначала рассуждает над задачей и лишь затем обращается к инструментам, в целом делая меньше вызовов; на высоких уровнях усилия использование инструментов растёт.

Управляемость, надёжность и стиль вывода

Opus 4.7 буквально следует инструкциям. Он не будет обобщать с одного пункта на другой и не станет додумывать невысказанные запросы, поэтому подсказки, написанные для 4.6, могут вести себя неожиданно; Anthropic рекомендует перенастройку. Плюс — надёжность в длинных агентных циклах: в Ramp отметили, что нужно существенно меньше пошаговых указаний в многоинструментальных процессах, а тесты Hexagon показали, что Opus 4.7 на низком уровне усилия примерно равен Opus 4.6 на среднем.

Anthropic также ввела xhigh как новый уровень усилия между high и max, и подняла в Claude Code уровень по умолчанию до xhigh для всех планов. В сочетании с новым токенизатором количество выходных токенов может быть выше, чем у 4.6, на поздних агентных шагах; Task Budgets (публичная бета) позволяют ограничить расходы агента в сессии. Управляемость GPT-5.4 строится вокруг Interactive Thinking, как уже говорилось в разделе про кодинг; в гиде по промптам OpenAI отмечает, что модель хорошо работает при явно заданных контрактных форматах вывода.

Замечание из собственной оценки безопасности Anthropic: Opus 4.7 стал честнее и лучше противостоит внедрению чужих подсказок по сравнению с 4.6, но немного ухудшился в сопротивлении чрезмерно детализированным советам по снижению вреда для контролируемых веществ. Общая оценка Anthropic: «в целом хорошо согласованная и заслуживающая доверия модель, хотя поведение не идеально».

Opus 4.7 против GPT-5.4 в бенчмарках

К бенчмаркам стоит относиться внимательно, но доверять им лишь до определённой степени. Оба вендора выбрали тесты, где они сильнее, а Vals.ai и Artificial Analysis на момент написания ещё не проиндексировали Opus 4.7. Протестируйте свои задачи, прежде чем делать выводы по любым из этих результатов.

Кодовые бенчмарки

Таблица ниже охватывает наиболее релевантные показатели по кодингу из материалов релиза каждого вендора.

Бенчмарк	Claude Opus 4.7	GPT-5.4	Примечания
SWE-bench Pro	64,3%	57,7%	По данным вендоров; разные конфигурации стендов
SWE-bench Verified	87,6%	Не опубликовано	OpenAI не публиковала официальный результат по этому варианту
CursorBench	~70%	Не опубликовано	Cursor — партнёр Anthropic; не независимый тест
Terminal-Bench 2.0	69,4%	75,1%	Anthropic отмечает, что результат GPT-5.4 получен на самодельном стенде; при этом GPT-5.4 уступает GPT-5.3-Codex (77,3%)
GPQA Diamond	94,2%	94,4% (Pro)	Фактически ничья; на этом уровне метрика почти насыщена

Кодовые бенчмарки явно в пользу Opus 4.7. Изображение автора.

У SWE-bench несколько вариантов, и оба вендора подчеркнули тот, где у них лучшие результаты. Anthropic применяла проверки на запоминание датасета и сообщает, что преимущество Opus 4.7 сохраняется после исключения помеченных задач. Контекст: открыто-весовая модель Z.ai GLM-5.1 ненадолго возглавляла SWE-bench Pro с 58,4% в начале апреля 2026 года, прежде чем появился результат 64,3% у Opus 4.7, так что любые заявления о «стейте-оф-зе-арт» здесь живут недолго.

Бенчмарки агентов и «использования компьютера»

С релизом Opus 4.7 Anthropic опубликовала сравнительные показатели для обеих моделей на большинстве агентных бенчмарков. Картина неоднозначная, а не односторонняя.

Бенчмарк	Claude Opus 4.7	GPT-5.4	Примечания
OSWorld-Verified	78,0%	75,0%	Использование настольного ПК; обе модели выше базового уровня экспертов-людей 72,4%
BrowseComp	79,3%	89,3% (Pro)	Веб-исследования с многошаговым рассуждением; лидер — GPT-5.4
MCP-Atlas	77,3%	68,1%	Масштабное использование инструментов через множество подключённых сервисов
WebArena-Verified	Не опубликовано	67,3%	Автономная навигация по вебу
Toolathlon	Не опубликовано	54,6%	Многошаговая оркестрация инструментов; рост с 46,3% у GPT-5.2
Finance Agent v1.1	64,4%	61,5% (Pro)	Финансовый агент для длинного контекста
GDPval-AA	1753 Elo	1674 Elo	Профессиональная интеллектуальная работа; Opus 4.7 ведёт с отрывом 79 Elo
BigLaw Bench	90,9% на высоком уровне усилия	Не опубликовано	Задачи с юридическими документами; оценка партнёра Harvey

Картина делится по средам: Opus 4.7 выигрывает на десктопе, в использовании инструментов и «знаниевой» работе; GPT-5.4 — в браузерных исследованиях. Несколько цифр GPT-5.4 — из варианта Pro, так что стандартный уровень может быть ниже. Следующий шаг — независимые прогоны на общей методике.

Цены: Opus 4.7 и GPT-5.4

Базовые тарифы выглядят просто. Реальная картина затрат — нет.

Структура цен в API

Разницу проще всего понять на конкретных сценариях.

При запросе с 100 тыс. входных и 10 тыс. выходных токенов (задолго до порога 272 тыс. у GPT-5.4) GPT-5.4 стоит примерно $0,40 против $0,75 у Opus 4.7. Почти вдвое дешевле для короткого и среднего контекста.

При 500 тыс. входа и 20 тыс. выхода — выше порога GPT-5.4 — модели стоят примерно одинаково: $2,95 против $3,00. При 900 тыс. входа и 10 тыс. выхода различия почти нет.

Порог 272 тыс. — та деталь, которая многих застает врасплох: он применяется к всей сессии, а не только к токенам сверх отсечки. Пайплайн, который регулярно отправляет подсказки на 280 тыс. токенов, платит полный «длинноконтекстный» тариф за каждый запрос, а не только за лишние 8 тыс. Это пересчёт на уровне сессии, а не надбавка на крайние токены.

Стоимость GPT-5.4 растёт после 272 тыс. токенов. Изображение автора.

Как упоминалось в разделе про окно контекста, новый токенизатор может разбивать один и тот же ввод на до 35% больше токенов, чем у Opus 4.6. Цена за токен прежняя, но фактическая стоимость задачи растёт. Меряйте на реальном трафике: экстраполяция с базовых значений 4.6 даст заниженную оценку.

Обе платформы дают около 90% скидки на кэшированные входные токены: $0,50 за миллион у Opus 4.7, $0,25 за миллион у GPT-5.4 до 272 тыс. Batch API добавляет ещё примерно 50% скидки для не срочных задач. Для асинхронных нагрузок это главный рычаг экономии на любой платформе.

Есть и «скрытые» стоимости инструментов. Anthropic берёт $10 за 1 000 веб-поисков плюс стандартные токены за извлечённый контент. OpenAI отдельно тарифицирует хранение и запросы в файловом поиске. В инструментально тяжёлых пайплайнах это накапливается.

Стоимость для разных типов нагрузок

Для короткого контекста и большого объёма (вызовы API до 100 тыс. токенов, пакетная классификация, быстрая итерация) GPT-5.4 дешевле. Разрыв по входу может доходить до 2 раз.

После 272 тыс. токенов преимущество меняется. Плоская ставка Opus 4.7 удобнее в бюджетировании и почти сравнивается с GPT-5.4 по общей стоимости.

Обе платформы взимают небольшую надбавку за локализацию данных (около 10% с каждой стороны). На этом уровне это решение про комплаенс, а не про цену. Для агентных сессий Claude Code главным рычагом контроля токенов остаются Task Budgets (см. раздел про управляемость).

Opus 4.7 лучше, чем GPT-5.4?

Универсального ответа нет, и любая статья, утверждающая обратное, что-то продаёт.

Выберите Claude Opus 4.7, если ваша основная работа — длительная разработка ПО, где важна самопроверка; ваш агент управляет десктопными приложениями; ваши подсказки регулярно превышают 272 тыс. токенов; ваш процесс читает плотные скриншоты или технические диаграммы; или вы уже используете Claude Code, Cursor, Replit или Devin.

Выберите GPT-5.4, если ваш агент выполняет интенсивные браузерные исследования, ваши нагрузки остаются ниже 272 тыс. токенов и цена важна; вам нужен отложенный импорт инструментов в большой экосистеме; или ваша команда уже на OpenAI Responses API.

Рассмотрите тестирование обеих, если работа делится между автономными веб-исследованиями и длинными сессиями кодинга. Браузерные и терминальные сильные стороны GPT-5.4 подходят агентным веб-процессам; устойчивость к зацикливанию и плоские цены Opus 4.7 лучше для глубоких инженерных сессий и документоёмких пайплайнов.

Как выбрать модель под ваш процесс. Изображение автора.

Одна общая рекомендация для обоих вариантов: скидки Batch API могут влиять на экономику сильнее, чем выбор модели, для асинхронных задач. А пока независимые бенчмарки для Opus 4.7 догоняют, пилот на реальном срезе вашей работы ценнее любой сравнительной статьи, включая эту.

Итоги

Разница между Claude Opus 4.7 и GPT-5.4 — не столько «кто умнее», сколько «под какую форму работы вы их применяете».

Anthropic сделала ставку на автономию: модель, удерживающую связность на длинных инженерных прогонах и проверяющую собственный вывод. OpenAI — на широту: более широкий набор инструментов и более низкие тарифы для подавляющего большинства подсказок до 272 тыс. токенов.

Цены — то, где команды чаще всего ошибаются в оценке, и, как уже говорилось, пересчёт на отметке 272 тыс. в сессии — конкретная ловушка. На месячные расходы сильнее базовой ставки обычно влияют кэширование и скидки Batch API на обеих платформах.

Разрывы в бенчмарках — однозначные цифры, но чаще в пределах единиц процентов, и обе компании выпускают новые модели каждые несколько недель. Выберите то, что подходит вашему стеку сейчас, и пересмотрите через месяц.

Если хотите глубже разобраться с практикой, наш курс Software Development with Cursor охватывает ИИ-поддерживаемые рабочие процессы кодинга на практике.

Доступна ли Claude Opus 4.7 вне API Anthropic?

Нужно ли обновлять код API при миграции с Opus 4.6 на Opus 4.7?

Да, три несовместимых изменения. Установка temperature, top_p или top_k в значения, отличные от умолчаний, теперь возвращает ошибку 400. Старый параметр budget_tokens не поддерживается; замените его включением адаптивного режима thinking. И новый токенизатор генерирует больше токенов на запрос, так что любой жёсткий потолок max_tokens , который был «впритык» на 4.6, может обрезать вывод на 4.7. Перенастройте и промпты: 4.7 буквальнее следует инструкциям, чем 4.6.

Какая модель лучше для кодинга?

Opus 4.7 лидирует на SWE-bench Pro (64,3% против 57,7%) и SWE-bench Verified (87,6%; OpenAI здесь результат не публиковала). GPT-5.4 лидирует на Terminal-Bench 2.0 с 75,1% против 69,4%, хотя Anthropic отмечает, что это число получено на самодельном стенде. Opus 4.7 — для инженерии на уровне репозитория, GPT-5.4 — для терминал-ориентированных процессов. Независимые оценки на общей методике пока в ожидании.

Как изменение токенизатора Opus 4.7 влияет на стоимость?

Диапазон — от 1,0 до 1,35x, это не фиксированные 35%, так что влияние зависит от типа контента. Менее очевидный фактор: 4.7 также «думает» больше на высоких уровнях усилия на поздних агентных шагах, поэтому токены накапливаются в рамках сессии. Практический ограничитель — Task Budgets.

Лучше ли GPT-5.4 использует инструменты, чем Claude Opus 4.7?

По-разному. У GPT-5.4 шире встроенная поверхность инструментов (веб-поиск, файловый поиск, интерпретатор кода, использование компьютера) с подгрузкой по требованию. Opus 4.7 делает меньше вызовов инструментов и больше рассуждает заранее. Notion сообщила, что Opus 4.7 — первая модель, прошедшая их тесты на неявные потребности, и она дала в три раза меньше ошибок инструментов, чем 4.6. На MCP-Atlas (масштабное использование инструментов) Opus 4.7 лидирует 77,3% против 68,1%, так что широкая поверхность не означает автоматически лучшую оркестрацию.

Темы

Искусственный интеллект

Учитесь с DataCamp

Course

Концепции генеративного ИИ

2 ч

109.6K

Узнайте, как начать ответственно использовать генеративный ИИ. Узнайте, как создаются модели generative AI и как они будут влиять на общество в будущем.

Подробнее

Начать курс

Course