Curso
Tras el impresionante Gemini 3 de Google, Anthropic ha anunciado recientemente Claude Opus 4.5, alabándolo como «el mejor modelo del mundo para la codificación, los agentes y el uso de ordenadores».
A pesar de los impresionantes resultados obtenidos por Gemini 3, quedó por detrás de Claude Sonnet 4.5 en la prueba SWE, que evalúa las habilidades de ingeniería de software. Con Claude Opus 4.5, Anthropic supera su propia puntuación en el banco SWE y otras pruebas.
Claude Opus 4.5 supone el tercer gran lanzamiento de Anthropic en solo dos meses. Después de Sonnet 4.5 y Haiku 4.5. Y ahora que Anthropic tiene una valoración superior a los 350 000 millones de dólares, sabemos que disponen de los recursos necesarios para seguir avanzando a este ritmo.
En este artículo, exploraré todas las novedades de Claude Opus 4.5, analizando los puntos de referencia, las nuevas funciones y probando sus capacidades de forma práctica.
¿Qué es Claude Opus 4.5?
Claude Opus 4.5 es el último modelo de lenguaje grande de Anthropic. Tras Opus 4, es el modelo más avanzado de Anthropic, centrado en la codificación, el razonamiento y las tareas de larga duración. El modelo obtiene una puntuación del 80,9 % en el banco SWE y del 59,3 % en el banco Terminal.
Claude Opus 4.5 ya está disponible en las aplicaciones de Anthropic, la API y las principales plataformas de nube.
¿Qué novedades presenta Claude Opus 4.5?
Del anuncio, estas cosas me llamaron la atención:
- Codificación agencial: Opus 4.5 es lo último en tecnología según SWE-bench Verified, superando a Gemini 3 Pro de Google y GPT-5.1 de OpenAI. Anthropic también probó el modelo en un difícil examen para llevar a casa que se les hace a los futuros ingenieros de rendimiento. Obtuvo una puntuación más alta que cualquier candidato humano hasta la fecha.
- Uso del ordenador: Anthropic afirma que Opus 4.5 es «el mejor modelo del mundo para el uso de ordenadores», lo que significa que puede interactuar con interfaces de software, hacer clic en botones, rellenar formularios y navegar por sitios web como lo haría un humano.
- Tareas cotidianas: Según Anthropic, el modelo es «significativamente mejor» a la hora de trabajar con hojas de cálculo y diapositivas y realizar investigaciones en profundidad.
Junto con el lanzamiento del modelo, Anthropic anunció varias actualizaciones del producto, que comentaré con más detalle a continuación. Entre ellos se incluyen Claude para Chrome, la extensión del navegador que permite a Claude actuar en todas las pestañas, y Claude para Excel.
Probando Claude Opus 4.5
Un artículo no estaría completo sin someter al nuevo modelo a una o dos pruebas. Veamos cómo las nuevas mejoras gestionan una serie de tareas:
Probando Opus 4.5 con una pregunta de economía
En primer lugar, quería ver cómo Opus 4.5 abordaba un problema clásico de optimización económica. Estoy imaginando un modelo de demanda log-lineal que predice la cantidad vendida a partir del precio. Es el tipo de cosa que se ve en un curso de econometría, pero también es realmente útil. Si conoces tu curva de demanda y tus costes, puedes calcular el precio que maximiza los beneficios.

Opus 4.5 me dio la respuesta correcta, sin pensarlo mucho, y todo sucedió de una sola vez.
Esto me impresionó porque casi cualquier empresa que venda algo tendrá una idea de la cantidad vendida y el precio, pero no todas las empresas tendrán los recursos para esbozar respuestas a problemas básicos de optimización.
Pero aquí, con una indicación bien diseñada, puedes encontrar tu respuesta fácilmente. Por supuesto, seguiría siendo responsabilidad del analista decidir si las restricciones se habían modelado correctamente en su totalidad.
Esto es lo que también me gustó: Opus 4.5 mostró su trabajo. No solo me dio un número. Recorrió la derivada, el factoraje y el álgebra. Si hubiera cometido un error, habría podido detectar dónde.
Probando Opus 4.5 con una pregunta sobre estadísticas
A continuación, quería probar Opus 4.5 con una pregunta sobre estadística. Creé un conjunto de datos en el que yield era una función de temperature con ruido añadido.
library(tidyverse)
set.seed(1024)
# Generate data
n <- 100
df <- data.frame(
temperature = seq(0, 100, length.out = n)
) %>%
mutate(yield = 0.5 * temperature + 10 + rnorm(n, 0, 5))
A continuación, le envié esta sugerencia a Claude.

Claude me devolvió lo siguiente, que utilicé para crear un histograma, que se muestra a continuación.
# Fit model
fit <- lm(yield ~ temperature, data = df)
fitted_vals <- fitted(fit)
resids <- residuals(fit)
original_slope <- coef(fit)[2]
# Residual bootstrap
set.seed(123)
n_boot <- 1000
boot_slopes <- numeric(n_boot)
for (i in 1:n_boot) {
new_y <- fitted_vals + sample(resids, replace = TRUE)
boot_fit <- lm(new_y ~ df$temperature)
boot_slopes[i] <- coef(boot_fit)[2]
}
# Confidence intervals
ci_lower <- quantile(boot_slopes, 0.025)
ci_upper <- quantile(boot_slopes, 0.975)
# Plot
ggplot(data.frame(slope = boot_slopes), aes(x = slope)) +
geom_histogram(bins = 40, fill = "gray70", color = "white") +
geom_vline(xintercept = original_slope, color = "red", linewidth = 1) +
geom_vline(xintercept = ci_lower, color = "steelblue", linetype = "dashed", linewidth = 1) +
geom_vline(xintercept = ci_upper, color = "steelblue", linetype = "dashed", linewidth = 1) +
labs(
title = "Bootstrap Estimate: Effect of Temperature on Yield",
subtitle = paste0("Estimate: ", round(original_slope, 3),
" | 95% CI: [", round(ci_lower, 3), ", ", round(ci_upper, 3), "]"),
x = "Slope (yield per °C)",
y = "Count"
) +
theme_minimal()

Tengo que decir que me gusta este resultado. Opus 4.5 encontró un intervalo de confianza para la pendiente, que es lo que realmente estaba buscando.
Utilizaba un método bootstrap, que es una buena técnica para encontrar intervalos de confianza cuando heteroscedasticidad. También utilizó más específicamente un bootstrap en los residuos, en lugar de otro método bootstrap que vuelve a muestrear pares (X,Y), lo que habría supuesto un error en el término X.
Todo esto es un punto más sutil, pero probablemente importante para las personas que realizan este tipo de trabajo: Un bootstrap residual sería más adecuado cuando X es fijo por diseño, como especifiqué en mi indicación, y cuando, por lo tanto, se desea una inferencia condicional a esos valores X exactos, como en un estudio científico. Lo que quiero decir es que Opus 4.5 prestó atención a los matices de la indicación.
Probando Opus 4.5 con una pregunta de matemáticas
A continuación, quería ver si podía hacer que Opus 4.5 fallara de alguna manera.

En este caso, el modelo estaba muy por delante de mí. Opus 4.5 entendió que mi pregunta era circular: estaba definiendo X por Y y viceversa, por lo que no podíamos obtener una estimación significativa de la pendiente de una línea de regresión, dado lo que estábamos trabajando.

Probando Opus 4.5 para la optimización de SQL
Por último, pensé que sería divertido probar Opus 4.5 con una pregunta sobre SQL. Te envié una consulta SQL viable, pero muy ineficiente.
-- Find customers who placed orders above their average order value in 2024
SELECT
c.customer_id,
c.customer_name,
o.order_id,
o.order_date,
o.order_total
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
WHERE o.order_date >= '2024-01-01'
AND o.order_date < '2025-01-01'
AND o.order_total > (
SELECT AVG(o2.order_total)
FROM orders o2
WHERE o2.customer_id = c.customer_id
)
AND c.customer_id IN (
SELECT DISTINCT o3.customer_id
FROM orders o3
WHERE o3.order_date >= '2024-01-01'
)
AND EXISTS (
SELECT 1
FROM customer_preferences cp
WHERE cp.customer_id = c.customer_id
AND cp.email_opt_in = 1
)
ORDER BY (
SELECT COUNT(*)
FROM orders o4
WHERE o4.customer_id = c.customer_id
) DESC;
Le pedí a Opus 4.5 que mejorara la consulta. Me dio una respuesta en aproximadamente un segundo.

-- Find customers who placed orders above their average order value in 2024
WITH customer_avg AS (
SELECT
customer_id,
AVG(order_total) AS avg_order_total,
COUNT(*) AS order_count
FROM orders
GROUP BY customer_id
)
SELECT
c.customer_id,
c.customer_name,
o.order_id,
o.order_date,
o.order_total
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
JOIN customer_avg ca ON c.customer_id = ca.customer_id
JOIN customer_preferences cp ON c.customer_id = cp.customer_id
WHERE o.order_date >= '2024-01-01'
AND o.order_date < '2025-01-01'
AND o.order_total > ca.avg_order_total
AND cp.email_opt_in = 1
ORDER BY ca.order_count DESC;
Entre otras cosas, Opus 4.5 sustituyó la subconsulta correlativa para AVG por una CTE. (La consulta original recalculaba AVG(order_total) para cada fila evaluada, pero ahora la CTE calcula el promedio de cada cliente por adelantado). Opus 4.5 también eliminó la cláusula redundante « IN (SELECT DISTINCT ...) », que realizaba un trabajo adicional innecesario. Y convirtió la subconsulta « EXISTS » en « JOIN », lo cual es mejor.
Claude Opus 4.5 Agentes y capacidades de los agentes
Hubo otros aspectos destacados de esta última versión de Anthropic. Veamos con más detalle:
Características de la plataforma para programadores
Anthropic ha añadido varios nuevos componentes básicos para programadores. El más notable es elparámetro de esfuerzo « » (), que te permite controlar cuánto piensa el modelo antes de responder. Ajústalo a un nivel bajo para tareas rápidas y ligeras; ajústalo a un nivel más alto cuando necesites que el modelo mastique algo.
Según Anthropic, con un esfuerzo medio, Opus 4.5 iguala la mejor puntuación SWE-bench de Sonnet 4.5, pero utilizando un 76 % menos de tokens de salida. Con un esfuerzo elevado, supera a Sonnet en más de un 4 %, y sigue utilizando casi la mitad de tokens.
También se ha mejorado la gestión del contexto y la memoria. Para los agentes de larga duración, Claude ahora puede resumir automáticamente el contexto anterior para que no se encuentre con obstáculos a mitad de la tarea. Esto se combina con la compactación de contexto, que mantiene a los agentes en funcionamiento durante más tiempo con menos intervenciones.
Por último, Opus 4.5 parece ser bastante bueno en la coordinación de múltiples agentes, lo que significa que podría gestionar un equipo de subagentes.
Claude Opus 4.5 Investigación profunda
Aparentemente, el rendimiento de Opus 4.5 en una evaluación de investigación profunda aumentó aproximadamente un 15 %.
He puesto a prueba tu capacidad de investigación en profundidad. Te pedí que me dieras un informe sobre las palabras del inglés antiguo que aún se utilizan hoy en día, pero que no son de uso común, y sobre cómo han cambiado este tipo de palabras a lo largo del tiempo. El informe estuvo listo en siete minutos:
La verdad es que me impresionó bastante la calidad del informe en cuanto a lo interesante que era, la calidad de la redacción, la organización y la profundidad de la investigación.
No era un documento totalmente árido, repleto de palabras arcaicas u obsoletas. Reconozco que algunas secciones podrían haberse diferenciado mejor. La parte central del informe era un poco más aburrida que el resto. Pero, y aquí está el quid de la cuestión, estaba muy bien documentado. Solo hay que ver estas citas:
Además, aprendí una nueva palabra muy bonita: apricity, que significa el calor del sol en invierno.
Código Claude
Anthropic ha lanzado dos actualizaciones para Claude Code.
Lo que ahora se denomina «Modo Plan» elabora planes más precisos antes de ejecutarlos. En la práctica, esto significa que Claude hace preguntas aclaratorias por adelantado y, a continuación, genera un archivo editable plan.md que puedes revisar y modificar antes de que comience a funcionar. La idea es evitar que cometas un error inicial.
La integración de aplicaciones de escritorio es otra gran ventaja. Claude Code ya está disponible en la aplicación de escritorio, lo que significa que puedes ejecutar varias sesiones locales y remotas en paralelo. Por utilizar el ejemplo de Anthropic: un agente corrige errores, otro investiga problemas en GitHub y un tercero actualiza la documentación.
Agentes de aplicaciones para consumidores
Algunas funciones de agencia han llegado a las aplicaciones para consumidores de Claude:
Claude para Chrome permite a Claude gestionar tareas en las pestañas de tu navegador. Ahora está disponible para todos los usuarios de Max. Piensa en él como un agente de navegación que puede navegar, hacer clic, rellenar formularios y extraer información de múltiples sitios web.
Claude para Excel lleva la automatización de hojas de cálculo a Claude. Esto ya se había anunciado anteriormente, pero Anthropic ha ampliado el acceso a la versión beta a todos los usuarios de Max, Team y Enterprise, por lo que cada vez es más real.
La gestión de conversaciones largas soluciona lo que era una limitación molesta. Anteriormente, las conversaciones largas alcanzaban un límite de contexto y simplemente se detenían, en cuyo caso tenías que iniciar una nueva conversación. Ahora Claude resume automáticamente las partes anteriores de la conversación en segundo plano, lo que libera espacio para que no te encuentres con un obstáculo.
Resultados de la prueba de rendimiento Claude Opus 4.5
Opus 4.5, al igual que los modelos Claude anteriores, se probó con los parámetros de referencia habituales en codificación agencial, uso de herramientas, uso de ordenadores y resolución de problemas. Estos son los grandes resultados de Opus 4.5.

Opus 4.5 obtiene la máxima puntuación en muchas de las pruebas más importantes. Cualquier cosa que implique realizar tareas prácticas, como escribir código que supere pruebas (SWE-bench), utilizar herramientas en flujos de trabajo de varios pasos (τ2-bench, MCP Atlas) y manejar un ordenador (OSWorld). Opus 4.5 lidera, a menudo por mucho.
La brecha en el uso de herramientas a escala es realmente muy grande: 62,3 % frente a 43,8 % para el siguiente mejor, ¡que también es Claude! Sin embargo, esto demuestra cuánto está invirtiendo Anthropic en mejorar su rendimiento, especialmente en tareas de agencia. Aunque su modelo anterior puede que actualmente sea líder en algunas categorías, eso no frena su progreso.
Parece que Gemini 3 Pro tiene ventaja en algunas de las pruebas de referencia que requieren un gran conocimiento, como el razonamiento de nivel de posgrado (GPQA Diamond) y las preguntas y respuestas multilingües (MMMLU). Probablemente, estos parámetros de referencia premian la amplitud de los datos de entrenamiento y el razonamiento cuidadoso por encima de los datos memorizados y, por supuesto, Google cuenta con muchos recursos.
Avances en seguridad y alineación
Las mejoras de Anthropic no solo se refieren a la programación, la investigación y el uso de ordenadores. Se hace mucho hincapié en la seguridad, afirmando que este modelo es el más seguro y el «más sólidamente alineado» que han lanzado hasta ahora.
Esta afirmación se ve respaldada por una reducción en lo que denominan «puntuación de comportamiento preocupante», que es inferior a la de los otros modelos 4.5, así como a la de GPT-5.1 y Gemini 3 Pro. Anthropic también ha reforzado Opus 4.5 frente a los ataques de inyección de comandos, que pueden engañar al modelo y provocar un comportamiento perjudicial.
Claude 4.5 Opus: precios y disponibilidad
Claude Opus 4.5 ya está disponible en toda la gama de productos de Anthropic, incluida la aplicación Claude, la API y las tres principales nubes. Los programadores pueden acceder directamente a través del ID del modelo claude-opus-4-5-20251101.
Los precios también han bajado notablemente. Con un precio de 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida en , Opus 4.5 hace que las capacidades de primer nivel de Anthropic sean mucho más accesibles.
Para los usuarios empresariales, el cambio en los precios podría ser especialmente significativo. La combinación de un coste reducido, un mayor acceso a la API y una mayor disponibilidad entre los proveedores de nube posiciona a Opus 4.5 como una opción competitiva.
Conclusión
Claude Opus 4.5 es la declaración más clara hasta la fecha de Anthropic sobre dónde se sitúa en la carrera por la IA. Mientras Google impulsa la comprensión multimodal y los modelos en el dispositivo, Anthropic apuesta fuertemente por las acciones: codificación agencial, uso de herramientas e interacción con ordenadores.
Los resultados de referencia lo dicen todo: Opus 4.5 alcanza las puntuaciones más altas jamás registradas en pruebas de rendimiento de ingeniería de software y gestiona la depuración de múltiples sistemas sin necesidad de mucha orientación.
Mis pruebas confirman lo que sugieren los puntos de referencia: Opus 4.5 es muy eficaz en trabajos de varios pasos. Ya fuera ejecutando simulaciones bootstrap o sintetizando investigaciones de distintos artículos, el modelo abordaba los problemas como lo haría un pensador: de forma adaptativa y con un razonamiento claro. Creo que si deseas mejorar tus flujos de trabajo, esto es lo que importa.
Si deseas obtener más información sobre los modelos Claude, te recomiendo que eches un vistazo al curso Introducción a los modelos Claude.
Preguntas frecuentes sobre Claude Opus 4.5
¿En qué se diferencia Claude Opus 4.5 de Sonnet 4.5 y Haiku 4.5?
Opus 4.5 es el modelo más potente, diseñado para tareas complejas de razonamiento, codificación y ejecución prolongada. Sonnet 4.5 equilibra rendimiento y coste, mientras que Haiku 4.5 está optimizado para ofrecer velocidad y eficiencia.
¿Dónde puedes acceder a Claude Opus 4.5?
Está disponible a través de las aplicaciones web y móviles de Claude, la API de Claude y todas las principales plataformas de nube, lo que facilita su integración en diferentes flujos de trabajo.
¿Anthropic aumentó las capacidades contextuales o de memoria de Claude?
Sí. Opus 4.5 introduce una gestión del contexto más sólida, un manejo de conversaciones más prolongado y una síntesis mejorada para respaldar el razonamiento ampliado y las tareas de varios pasos.
¿Qué normas de seguridad cumple Opus 4.5?
Cumple con el nivel de seguridad más alto de Anthropic, con importantes mejoras en la alineación, puntuaciones reducidas en «comportamiento preocupante» y mayor resistencia a los ataques de inyección rápida.
¿Qué tipos de casos de uso se benefician más de Opus 4.5?
Opus 4.5 es ideal para razonamientos complejos y de múltiples pasos, como la depuración, la investigación y la coordinación de múltiples agentes. Para tareas más sencillas o rápidas, Sonnet o Haiku pueden resultar más rentables.


Escritora y editora de contenidos en el ámbito de la tecnología educativa. Comprometido con la exploración de tendencias de datos y entusiasmado con el aprendizaje de la ciencia de datos.


