Curso
GPT-5.4 se lanzó el 5 de marzo de 2026 como la apuesta insignia de OpenAI para el trabajo profesional, unificando código y razonamiento en un único modelo de uso general. Seis semanas después, el 16 de abril, Anthropic presentó Claude Opus 4.7, construido sobre una apuesta distinta: un modelo que gestiona ingeniería de largo recorrido de forma autónoma y mantiene la coherencia en las sesiones donde la mayoría de agentes se deshacen.
Es un buen momento para compararlos directamente, con un aviso: este artículo salió el mismo día que Opus 4.7, así que los números cara a cara son en su mayoría reportados por los propios fabricantes. Tómalos como punto de partida, no como veredicto.
Actualización: OpenAI ha publicado el modelo sucesor de GPT-5.4. Descúbrelo todo en nuestra guía de GPT-5.5.
Comparativa directa: Opus 4.7 vs. GPT-5.4
Aquí tienes un resumen rápido antes de entrar en detalle. El precio es donde está la mayor parte de la miga, y lo cubrimos en su propia sección.

Especificaciones clave de ambos modelos comparadas. Imagen del autor.
Gemini 3.1 Pro es una alternativa real si tu necesidad principal es el procesamiento masivo de documentos o análisis jurídicos extensos; funciona a menor coste por token con una ventana de contexto de 2M. En este artículo nos centramos en la comparativa Anthropic vs. OpenAI.
Cómo enmarca cada fabricante su modelo dice mucho de para qué espera que lo uses.
Posicionamiento del modelo y usos previstos
OpenAI posiciona GPT-5.4 como un modelo unificado de propósito general. Absorbe las capacidades de programación que antes vivían en GPT-5.3-Codex, así que los desarrolladores ya no tienen que enrutar peticiones a distintos endpoints según la tarea. Un modelo, un endpoint, sea cual sea la tarea.
La propuesta de Anthropic para Opus 4.7 es más específica: un modelo optimizado para "coding, agents, computer use y flujos de trabajo empresariales", con autonomía de largo recorrido como rasgo diferencial. Le delegas trabajo de ingeniería complejo y confías en que detecte sus propios errores antes de devolverte el resultado. Conviene señalar que Opus 4.7 es el modelo disponible de forma general más capaz de Anthropic, pero no el tope de gama; Claude Mythos Preview está por encima, restringido a flujos de ciberseguridad defensiva.
Esa diferencia se nota en los extremos: sesiones de programación muy largas o pipelines que encadenan decenas de herramientas.
Programación y flujos agenticos
En programación a nivel de repositorio, Opus 4.7 lidera en los benchmarks que cada proveedor decidió reportar (números completos más abajo). Introduce verificación del propio output, es decir, el modelo comprueba su trabajo antes de responder, y Genspark destacó su resistencia a bucles: Opus 4.7 es menos propenso a atascarse repitiendo el mismo problema. Es el tipo de cosa que solo valoras cuando un agente se queda 40 minutos dando vueltas para nada.
GPT-5.4 lidera Terminal-Bench 2.0 por unos seis puntos (75,1% frente a 69,4%), aunque Anthropic señala que el dato de GPT-5.4 proviene de su propio harness. GPT-5.4 también introdujo ajuste del plan a mitad de respuesta con Interactive Thinking: durante razonamiento complejo, puedes intervenir antes de que acabe de generar y redirigirlo si va por mal camino. Opus 4.7 no tiene equivalente. La brecha en SWE-bench es real, eso sí: seis puntos en un benchmark elegido por el proveedor es una señal útil, no una sentencia.
Ventana de contexto y trabajo de largo contexto
Ambos modelos admiten en torno a 1M de tokens; lo que cambia es qué pasa con tu factura cuando usas ese contexto. Opus 4.7 cobra una tarifa plana en toda la ventana, así que una petición de 900K tokens cuesta lo mismo por token que una de 9K. GPT-5.4 cobra 2,50 $ por millón por debajo de 272K tokens de entrada, pero si superas ese umbral, se reprocesa el precio de toda la sesión. Veremos los números exactos en la sección de precios.
Hay además un matiz del tokenizador: Opus 4.7 puede mapear el mismo texto hasta un 35% más de tokens que 4.6. El precio por token no cambia, pero el coste efectivo por tarea puede subir.
En rendimiento real a largo contexto, las pruebas con partners situaron a Opus 4.7 empatado con la mayor puntuación de consistencia en seis módulos de investigación con 0,715. Los pipelines de RAG que se acercan al límite de 1M conviene probarlos con tu propia carga antes de fiarte de los benchmarks del proveedor.
Uso de herramientas, multimodalidad e interacción con el entorno
Sobre el papel, las superficies de herramientas se parecen; en la práctica, difieren más. En OSWorld-Verified (uso de ordenador de escritorio), Opus 4.7 lidera con 78,0% frente al 75,0% de GPT-5.4, ambos por encima de la referencia de experto humano (72,4%). La foto cambia en investigación web vía navegador: GPT-5.4 alcanza 89,3% en BrowseComp (variante Pro) frente al 79,3% de Opus 4.7. Un único titular de "uso de ordenador" oculta la diferencia escritorio vs. navegador.
La gran mejora multimodal de Opus 4.7 es la resolución en visión: imágenes de hasta 2.576 píxeles en el lado largo, unos 3,75 megapíxeles, más del triple que en modelos anteriores de Claude, procesadas con mayor fidelidad automáticamente y sin parámetro de API. XBOW, partner de pruebas de seguridad, reportó que la agudeza visual saltó del 54,5% en Opus 4.6 al 98,5% en 4.7, el mayor avance en un solo benchmark entre todas las evaluaciones de partners de este lanzamiento.
También difieren en arquitectura de herramientas. El sistema de búsqueda de herramientas de GPT-5.4 carga definiciones bajo demanda en lugar de incrustarlas todas en el prompt, reduciendo el overhead de tokens en ecosistemas con muchas herramientas. Opus 4.7 razona el problema antes de recurrir a herramientas, usando menos llamadas en total; el uso de herramientas aumenta a niveles de esfuerzo más altos.
Direccionalidad, fiabilidad y estilo de salida
Opus 4.7 sigue las instrucciones al pie de la letra. No generaliza de un elemento a otro ni infiere peticiones que no le has hecho, por lo que prompts escritos para 4.6 pueden comportarse de forma inesperada; Anthropic recomienda retocar. La ventaja es la fiabilidad en bucles agenticos largos: el equipo de ingeniería de Ramp observó que hacía falta mucha menos guía paso a paso en flujos con varias herramientas, y las pruebas de Hexagon hallaron que Opus 4.7 a bajo esfuerzo rinde similar a Opus 4.6 a esfuerzo medio.
Anthropic también introdujo xhigh como nuevo nivel de esfuerzo entre high y max, y elevó el valor por defecto de Claude Code a xhigh en todos los planes. Junto con el nuevo tokenizador, los tokens de salida pueden crecer más que en 4.6 en turnos agenticos posteriores; Task Budgets (ahora en beta pública) te permiten acotar lo que gasta un agente en una sesión. La historia de la direccionalidad de GPT-5.4 gira en torno a Interactive Thinking, como comenté en la sección de programación, y la guía de prompts de OpenAI señala que el modelo rinde bien con contratos de salida explícitos.
Una nota de la propia evaluación de seguridad de Anthropic: Opus 4.7 mejoró en honestidad y resistencia a inyecciones de prompt frente a 4.6, pero retrocedió ligeramente en resistirse a consejos demasiado detallados de reducción de daños sobre sustancias controladas. Evaluación global de Anthropic: "en gran medida bien alineado y fiable, aunque no del todo ideal en su comportamiento".
Opus 4.7 vs. GPT-5.4 en benchmarks
Los benchmarks hay que mirarlos con lupa y fiarse solo hasta cierto punto. Ambos eligieron las pruebas que más les favorecen, y Vals.ai y Artificial Analysis aún no habían indexado Opus 4.7 cuando se escribió esto. Prueba con tus tareas antes de sacar conclusiones.
Benchmarks de programación
La tabla siguiente recoge las evidencias más relevantes de código de los materiales de lanzamiento de cada proveedor.
|
Benchmark |
Claude Opus 4.7 |
GPT-5.4 |
Notas |
|
SWE-bench Pro |
64,3% |
57,7% |
Reportado por el proveedor; distintas configuraciones de harness |
|
SWE-bench Verified |
87,6% |
No publicado |
OpenAI no ha publicado una puntuación oficial en esta variante |
|
CursorBench |
~70% |
No publicado |
Cursor es partner de Anthropic; no es independiente |
|
Terminal-Bench 2.0 |
69,4% |
75,1% |
Anthropic señala que el dato de GPT-5.4 proviene de su propio harness; GPT-5.4 también retrocedió respecto a GPT-5.3-Codex (77,3%) |
|
GPQA Diamond |
94,2% |
94,4% (Pro) |
Práctico empate; casi saturado a este nivel |

Los benchmarks de código favorecen con claridad a Opus 4.7. Imagen del autor.
SWE-bench tiene varias variantes y ambos destacaron la que mejor les va. Anthropic aplicó filtros de memorización y reporta que el margen de Opus 4.7 se mantiene tras excluir problemas señalados. Contexto útil: el modelo open-weight de Z.ai GLM-5.1 llegó a liderar SWE-bench Pro con 58,4% a inicios de abril de 2026 antes de que apareciera el 64,3% de Opus 4.7, así que cualquier "estado del arte" aquí dura poco.
Benchmarks de agentes y uso de ordenador
Con el lanzamiento de Opus 4.7, Anthropic publicó números comparativos de ambos modelos en la mayoría de benchmarks agenticos. La foto es mixta, no de un solo lado.
|
Benchmark |
Claude Opus 4.7 |
GPT-5.4 |
Notas |
|
OSWorld-Verified |
78,0% |
75,0% |
Uso de ordenador de escritorio; ambos por encima del experto humano (72,4%) |
|
BrowseComp |
79,3% |
89,3% (Pro) |
Investigación web con razonamiento multi-hop; GPT-5.4 lidera |
|
MCP-Atlas |
77,3% |
68,1% |
Uso de herramientas a escala con muchos servicios conectados |
|
WebArena-Verified |
No publicado |
67,3% |
Tareas autónomas de navegación web |
|
Toolathlon |
No publicado |
54,6% |
Orquestación multi-herramienta; sube desde 46,3% en GPT-5.2 |
|
Finance Agent v1.1 |
64,4% |
61,5% (Pro) |
Agente de investigación financiera de largo contexto |
|
GDPval-AA |
1753 Elo |
1674 Elo |
Trabajo profesional del conocimiento; Opus 4.7 lidera por 79 puntos Elo |
|
BigLaw Bench |
90,9% con esfuerzo alto |
No publicado |
Tareas jurídicas con documentos; evaluación de partner Harvey |
La foto se divide por entorno: Opus 4.7 gana en escritorio, uso de herramientas y trabajo del conocimiento; GPT-5.4 gana en investigación vía navegador. Varias cifras de GPT-5.4 proceden de la variante Pro, así que el tier estándar puede puntuar más bajo. El siguiente paso son ejecuciones independientes sobre un mismo andamiaje.
Precios: Opus 4.7 vs. GPT-5.4
Las tarifas titulares parecen sencillas. La realidad del coste no lo es.
Estructura de precios de API
La diferencia de precio se entiende mejor con unos escenarios concretos.
Con una petición de 100K tokens de entrada y 10K de salida (muy por debajo del umbral de 272K de GPT-5.4), GPT-5.4 sale por unos 0,40 $ frente a 0,75 $ de Opus 4.7. Casi la mitad para trabajos de contexto corto a medio.
Con 500K de entrada y 20K de salida, superado el umbral de GPT-5.4, ambos modelos cuestan casi lo mismo: 2,95 $ frente a 3,00 $. Con 900K de entrada y 10K de salida, son prácticamente idénticos.
El umbral de repricing de 272K es lo que pilla a mucha gente: aplica a la sesión completa, no solo a los tokens por encima del corte. Un pipeline que envía habitualmente prompts de 280K paga la tarifa de largo contexto en cada petición, no solo por los 8K extra. Es un repricing a nivel de sesión, no un recargo marginal.

Los costes de GPT-5.4 suben a partir de 272K tokens. Imagen del autor.
Como comenté en la sección de contexto, el nuevo tokenizador puede mapear la misma entrada hasta un 35% más de tokens que en Opus 4.6. El precio por token no cambia, pero el coste real por tarea puede subir. Mide con tráfico real; extrapolar desde bases 4.6 te dará un número a la baja.
Ambas plataformas ofrecen cerca de un 90% de descuento en tokens de entrada cacheados: 0,50 $ por millón en Opus 4.7, 0,25 $ por millón en GPT-5.4 por debajo de 272K. Las Batch APIs añaden otro ~50% de descuento para trabajo no urgente. Para cargas asíncronas, esos descuentos son la palanca más potente en ambas plataformas.
También hay costes por herramienta que suelen pasarse por alto. Anthropic cobra 10 $ por cada 1.000 búsquedas web, más los tokens estándar por el contenido recuperado. OpenAI cobra aparte por almacenamiento y consultas de file search. En pipelines con muchas herramientas, estas partidas suman.
Coste por tipo de trabajo
Para trabajos de contexto corto y alto volumen (llamadas de API por debajo de 100K tokens, clasificación por lotes, iteración rápida), GPT-5.4 es más barato. La brecha en coste de entrada puede acercarse al 2x.
A partir de 272K tokens, la ventaja se invierte. La tarifa plana de Opus 4.7 facilita presupuestar y prácticamente iguala a GPT-5.4 en coste total.
Ambas plataformas aplican un pequeño recargo por residencia de datos (en torno al 10% en ambos casos). A ese nivel, es una decisión de cumplimiento, no de precio. Para sesiones agenticas de Claude Code, los Task Budgets (mencionados en direccionalidad) son la palanca principal del gasto en tokens.
¿Es Claude Opus 4.7 mejor que GPT-5.4?
No hay una respuesta universal, y cualquier artículo que te diga lo contrario te quiere vender algo.
Elige Claude Opus 4.7 si tu trabajo principal es ingeniería de software de largo recorrido donde importa la auto-verificación, tu agente maneja aplicaciones de escritorio, tus prompts superan a menudo los 272K tokens, tu flujo lee capturas densas o diagramas técnicos, o ya usas Claude Code, Cursor, Replit o Devin.
Elige GPT-5.4 si tu agente hace investigación web intensiva en navegador, tus cargas se mantienen por debajo de 272K tokens y el coste importa, quieres carga diferida de herramientas en un ecosistema amplio, o tu equipo ya usa OpenAI Responses API.
Plantéate probar ambos si tu trabajo se reparte entre investigación web autónoma y programación de largo aliento. Las fortalezas de navegador y terminal de GPT-5.4 encajan con flujos agenticos web; la resistencia a bucles y la tarifa plana de Opus 4.7 funcionan mejor para sesiones de ingeniería profunda y pipelines cargados de documentos.

Elige el modelo adecuado para tu flujo de trabajo. Imagen del autor.
Hay algo que aplica a ambas opciones: los descuentos de Batch API pueden pesar más que la elección de modelo en cargas asíncronas. Y como los benchmarks independientes de Opus 4.7 aún se están actualizando, un piloto con una muestra real de tu trabajo vale más que cualquier comparativa, incluida esta.
Conclusión
La diferencia entre Claude Opus 4.7 y GPT-5.4 va menos de cuál es más listo y más de la forma que tiene tu trabajo.
Anthropic apostó por la autonomía: un modelo pensado para mantener la coherencia en tandas largas de ingeniería y comprobar su propia salida. OpenAI apostó por la amplitud: más superficie de herramientas y tarifas más baratas para la mayoría de prompts que se quedan por debajo de 272K tokens.
El precio es donde más equipos se llevan sorpresas y, como vimos, el cambio de tarifa a 272K por sesión es la trampa concreta. Lo que más mueve el gasto mensual por encima de la tarifa base suelen ser el caché y los descuentos de Batch API en ambas plataformas.
Las brechas en benchmarks son de un solo dígito y ambos lanzan modelos nuevos cada pocas semanas. Elige el que encaje con tu stack real y vuelve a revisar en un mes.
Si quieres profundizar en cómo poner estos modelos a trabajar, nuestro curso Software Development with Cursor cubre flujos de trabajo de programación asistida por IA en la práctica.
Soy ingeniero de datos y creador de comunidades. Trabajo con canalizaciones de datos, nube y herramientas de IA, al tiempo que escribo tutoriales prácticos y de gran impacto para DataCamp y programadores emergentes.
FAQs
¿Está disponible Claude Opus 4.7 fuera de la API de Anthropic?
Sí. Opus 4.7 está disponible en Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry con el ID de modelo claude-opus-4-7. La disponibilidad por región y los precios de tokens en caché pueden variar entre nubes, así que consulta la página del proveedor si la residencia de datos es importante para tu despliegue.
¿Debo actualizar mi código de API al migrar de Opus 4.6 a Opus 4.7?
Sí, hay tres cambios incompatibles. Establecer temperature, top_p o top_k en valores no predeterminados ahora devuelve un error 400. El antiguo parámetro budget_tokens falla; sustitúyelo colocando thinking en modo adaptive. Y el nuevo tokenizador genera más tokens por solicitud, así que cualquier tope duro de max_tokens que ya iba justo en 4.6 puede cortar la salida en 4.7. Ajusta también tus prompts: 4.7 sigue las instrucciones más literalmente que 4.6.
¿Qué modelo es mejor para programar?
Opus 4.7 lidera en SWE-bench Pro (64,3% frente a 57,7%) y SWE-bench Verified (87,6%; OpenAI no ha publicado puntuación aquí). GPT-5.4 lidera en Terminal-Bench 2.0 con 75,1% frente a 69,4%, aunque Anthropic indica que ese dato proviene de su propio harness. Opus 4.7 para ingeniería a nivel de repositorio; GPT-5.4 para flujos centrados en terminal. Aún faltan evaluaciones independientes en un andamiaje común.
¿Cómo afecta el cambio de tokenizador de Opus 4.7 a los costes?
El rango es de 1,0 a 1,35x, no un 35% fijo, así que el impacto depende del tipo de contenido. El factor menos obvio: 4.7 también "piensa" más en niveles de esfuerzo altos en turnos agenticos posteriores, por lo que los tokens se acumulan a lo largo de la sesión. Task Budgets es el tope práctico.
¿GPT-5.4 es mejor usando herramientas que Claude Opus 4.7?
De formas distintas. GPT-5.4 tiene una superficie de herramientas integrada más amplia (búsqueda web, búsqueda de archivos, intérprete de código, uso de ordenador) con carga bajo demanda. Opus 4.7 usa menos llamadas a herramientas y razona primero. Notion informó que Opus 4.7 fue el primer modelo en superar sus pruebas de "necesidad implícita" y produjo un tercio de los errores de herramientas de 4.6. En MCP-Atlas (uso de herramientas a escala), Opus 4.7 lidera 77,3% frente a 68,1%, así que una superficie más amplia no implica automáticamente mejor orquestación.



