Claude 4: Pruebas, características, acceso, pruebas comparativas y más

Infórmate sobre Claude Sonnet 4 y Claude Opus 4, sus características, casos de uso, puntos de referencia y resultados de las pruebas.

Actualizado 23 may 2025 · 8 min leer

Anthropic acaba de lanzar Claude 4, que viene en dos versiones: Claude 4 Soneto y Claude 4 Opus.

Claude Sonnet 4 es un modelo generalista ideal para la mayoría de los casos de uso de la IA y especialmente bueno en codificación. Creo que es uno de los mejores modelos que puedes utilizar gratuitamente.

Claude Opus 4 está diseñado para tareas de razonamiento intensivo, como la búsqueda agéntica y los flujos de trabajo de código de larga duración. Anthropic llama a Opus 4 "el mejor modelo de codificación del mundo", pero esa afirmación me parece un poco vacía.

Sí, actualmente es el mejor en el benchmark SWE-bench Verified. Pero con una ventana de contexto de sólo 200.000, no me imagino que pueda manejar limpiamente bases de código muy grandes. Y seamos sinceros: siempre sale otro modelo más potente cada mes más o menos. Reclamar la corona durante unas semanas no tiene mucho sentido.

Dicho esto, Claude 4 sigue siendo un lanzamiento muy fuerte. Te guiaré a través de los detalles más importantes -características, casos de uso, puntos de referencia-y también realizaré algunas pruebas por mi cuenta.

Mantenemos a nuestros lectores al día de lo último en IA enviándoles The Median, nuestro boletín gratuito de los viernes que desglosa las noticias clave de la semana. Suscríbete y mantente alerta en sólo unos minutos a la semana:

Claude Soneto 4

Claude Sonnet 4 es el modelo más pequeño de la familia Claude 4. Está diseñado para un uso general y funciona bien en la mayoría de las tareas habituales de la IA: codificación, escritura, respuesta a preguntas y análisis de datos. También está disponible para usuarios gratuitos, lo que lo hace inusualmente accesible para un modelo de esta calidad.

El modelo admite una ventana contextual de 200K, lo que le permite manejar peticiones grandes y mantener la continuidad en interacciones largas. Eso es útil para casos de uso como analizar documentos largos, revisar bases de código o generar respuestas de varias partes con una estructura coherente. Sin embargo, Sonnet 4 puede tener problemas con grandes bases de código. A modo de comparación, Gemini 2.5 Flash tiene una ventana de contexto de 1M de fichas.

En comparación con Claude Sonnet 3.7esta versión es más rápida, sigue mejor las instrucciones y es más fiable en flujos de trabajo con mucho código. Admite hasta 64K tokens de salida, lo que ayuda con salidas algo más largas, como planes estructurados, respuestas de varias partes o compleciones de código de gran tamaño.

Los primeros informes muestran menos errores de navegación y un mejor rendimiento en las tareas de desarrollo de aplicaciones. No es tan potente como Opus 4 cuando se trata de razonamientos complejos o planificación de tareas a largo plazo, pero para la mayoría de los flujos de trabajo es más que suficiente.

Claude Opus 4

Claude Opus 4 es el modelo estrella de la serie Claude 4. Está diseñado para tareas que requieren un razonamiento más profundo, memoria a largo plazo y resultados más estructurados, como la búsqueda automática, la refactorización de código a gran escala, la resolución de problemas en varios pasos y los flujos de trabajo de investigación ampliados.

Al igual que Sonnet 4, admite una ventana de contexto de 200K, por lo que esto puede ser una desventaja si quieres utilizarlo con una base de código grande. Para comparar, Gemini 2.5 Pro (el modelo estrella de Google) tiene una ventana de contexto de 1M de fichas.

También es capaz de funcionar en modo "pensamiento ampliado", en el que pasa de respuestas rápidas a un razonamiento más lento y pausado. Este modo le permite realizar el uso de herramientas, seguir la memoria a través de los pasos y generar resúmenes de su propio proceso de pensamiento cuando sea necesario.

Anthropic lo ha posicionado como un modelo de gama alta para programadores, investigadores y equipos que crean agentes de IA. Es líder en SWE-bench Verified y Terminal-bench, y los primeros usuarios informan de un gran rendimiento en agentes de codificación, flujos de trabajo de búsqueda y tareas de varias horas como la refactorización de proyectos de código abierto o la simulación de planificación a largo plazo.

A diferencia de Sonnet, Opus 4 sólo está disponible en los planes de pago. Es más caro de ejecutar, y probablemente excesivo para el uso de un simple chatbot. Pero para las aplicaciones que necesitan un razonamiento coherente en muchas partes móviles, es la opción más capaz.

Prueba Claude 4

Cuando pruebo un nuevo modelo, suelo utilizar las mismas tareas, así puedo ver cómo se compara con otros modelos que he probado antes. Esto no pretende ser una evaluación exhaustiva. El objetivo es sólo hacerte una idea de cómo se comportan estos modelos dentro de la interfaz del chat.

Intentemos la Claude 4 en dos áreas: matemáticas y codificación.

Matemáticas

Me gusta empezar con un cálculo sencillo que a menudo confunde a los modelos lingüísticos. No se trata de comprobar la aritmética básica, para eso podría utilizar una calculadora. Se trata de ver cómo aborda el modelo un problema un poco peliagudo, y si puede recurrir al uso de herramientas o mostrar su razonamiento con claridad cuando sea necesario.

Veamos qué tal lo ha llevado Claude Sonnet 4:

Como puedes ver, se equivocó en el primer intento. Pero cuando le pedí que utilizara una herramienta -una calculadora- respondió escribiendo un script de una línea en JavaScript y resolvió el problema correctamente.

Claude Opus 4 contestó correctamente en el primer intento.

A continuación, quería ver lo bien que Claude Sonnet 4 resuelve un problema más complejo: utilizar todas las cifras del 0 al 9 exactamente una vez para formar tres números x, y, z tal que x + y = z.

Tras unos cinco minutos de intentos aleatorios de fuerza bruta, recibí un mensaje que decía que se había alcanzado el límite de salida y que debía hacer clic en "Continuar" para reanudar. Lo hice, y Claude volvió a intentarlo, pero entonces llegó al límite una vez más. Lo que aprecié, sin embargo, es que no se inventara una respuesta. Simplemente se negaba a contestar si no encontraba ninguna. En mi opinión, eso es una gran victoria: es más problemático alucinar una solución.

Después probé con Claude Opus 4 en la misma tarea. La respuesta llegó casi al instante, y era correcta: 246 + 789 = 1035. ¡¡Opus 4 es impresionante!!

Codificación

Para la tarea de codificación, decidí ir directamente a Claude Opus 4. Este tipo de generación creativa se siente más adecuada a sus capacidades. No lo estoy probando en grandes bases de código, sino en una tarea de codificación relativamente trivial.

Le pedí que hiciera un juego rápido en p5.js usando este prompt que usé para Géminis 2.5 Pro y o4-mini:

Prompt: Hazme un juego endless runner cautivador. Instrucciones clave en la pantalla. Escena p5.js, sin HTML. Me gustan los dinosaurios pixelados y los fondos interesantes.

Normalmente, copiaría y pegaría el código en un editor p5.js en línea para probarlo. Pero una de las buenas características de Claude 4 es Artifacts, que me permite ver y ejecutar la salida del código directamente dentro del chat.

Veamos el resultado:

Ningún modelo anterior de los que he probado consiguió la pantalla de inicio correctamente en el primer intento; la mayoría de ellos saltaron directamente al modo de juego. Claude Opus 4 realmente mostraba una pantalla de inicio adecuada con instrucciones, lo que fue una agradable sorpresa.

Sin embargo, había un fallo visual: el dinosaurio pixelado dejaba un rastro confuso al moverse por la pantalla. Los píxeles no se limpiaban correctamente entre fotogramas, lo que arruinaba la jugabilidad. Lo señalé y pedí a Opus 4 que lo corrigiera.

¡Perfección! Nunca he conseguido una versión tan limpia y jugable de este juego con ningún otro modelo.

Claude 4 Puntos de referencia

Los modelos Claude 4 se probaron en una serie de pruebas estándar de codificación, razonamiento y tareas agenticas. Aunque estas puntuaciones no cuentan toda la historia de la calidad del modelo, siguen siendo útiles como punto de comparación. A continuación se muestran los resultados clave para Claude Soneto 4 y Claude Opus 4.

Fuente: Antrópico

Claude Soneto 4

Claude Sonnet 4 rinde sorprendentemente bien para un modelo que está disponible para usuarios gratuitos. En SWE-bench Verified, que pone a prueba tareas de codificación del mundo real, obtiene una puntuación del 72,7%, superando ligeramente a Opus 4 (72,5%) y significativamente por delante de Claude 3.7 Sonnet (62,3%). También supera al GPT-4.1 de OpenAI (54,6%) y al Gemini 2.5 Pro (63,2%).

En otros puntos de referencia:

TerminalBench (codificación basada en CLI): 35,5% - por delante de GPT-4.1 (30,3%) y Géminis (25,3%)
GPQA Diamante (razonamiento a nivel de postgrado): 75,4% - fuerte, aunque ligeramente por debajo de OpenAI o3 y Gemini
TAU-bench (uso de herramientas agénticas): 80,5% Minoristas / 60,0% Aerolíneas - comparable a Opus 4 y por delante de GPT-4.1 y o3
MMLU (control de calidad multilingüe): 86,5% - justo por detrás de Opus y o3, pero sigue siendo sólido
MMMU (razonamiento visual): 74,4% - la última puntuación en toda la gama de modelos
AIME (concurso de matemáticas): 70,5% - mejor que Sonnet 3.7, pero no lo suficientemente competitivo

Podría decirse que Sonnet 4 es uno de los modelos de nivel libre con mejor rendimiento actualmente disponibles y competitivo con los modelos que requieren pago o acceso comercial.

Claude Opus 4

Opus 4 es el modelo estrella de Anthropic, y rinde al máximo o casi al máximo en la mayoría de las pruebas de rendimiento. En SWE-bench Verified, obtiene una puntuación del 72,5%, y en configuraciones de alto cálculo, asciende al 79,4%, la más alta entre todos los modelos comparados.

También encabeza o se sitúa cerca de los primeros puestos en:

TerminalBench (codificación CLI agéntica): 43,2% (50,0% en modo de alta computación) - la puntuación más alta de la tabla
GPQA Diamante (razonamiento a nivel de postgrado): 79,6% (83,3%) - sólido, ligeramente por detrás de OpenAI o3 y Gemini 2.5 Pro
TAU-bench (uso de herramientas agénticas): 81,4% Comercio / 59,6% Aerolíneas - a la par con Sonnet 4 y 3,7
MMLU (control de calidad multilingüe): 88,8% - empatado con OpenAI o3
MMMU (razonamiento visual): 76,5% - por detrás de o3 y Gemini 2.5 Pro
AIME (concurso de matemáticas): 75,5% (90,0% de alta computación) - significativamente por encima de Claude Sonnet 4

Cómo acceder a la Claude 4

Claude 4 está disponible a través de múltiples canales, dependiendo de cómo quieras utilizarlo, ya sea en una charla informal, en el desarrollo a través de la API o en la integración en los flujos de trabajo de la empresa. Así es como funciona el acceso:

Acceso al chat

Puedes utilizar Claude 4 directamente a través de Claude.ai o las aplicaciones móviles (iOS y Android).

Claude Sonnet 4 está disponible para todos los usuarios, incluidos los del nivel gratuito. Esto lo convierte en uno de los modelos más capaces que puedes probar sin pagar.
Claude Opus 4 sólo está disponible para usuarios de pago de los planes Pro, Max, Team o Enterprise .

Acceso a la API

Para los programadores, se puede acceder a ambos modelos a través de la API Antrópicay también están disponibles en Amazon Bedrock y Google Cloud Vertex AI.

Precios API (a mayo de 2025):

Claude Opus 415 $ por millón de fichas de entrada, 75 $ por millón de fichas de salida
Soneto Claude 43$ por millón de tokens de entrada, 15$ por millón de tokens de salida

El procesamiento por lotes y el almacenamiento rápido en caché pueden reducir los costes hasta un 90% en algunos casos.

Conclusión

Claude Sonnet 4 ofrece un valor real como modelo rápido y capaz, de uso gratuito y con un buen rendimiento en tareas de codificación, razonamiento y asistente general. Para la mayoría de las necesidades cotidianas, es más que suficiente.

Opus 4, en cambio, está pensado para razonamientos más profundos y flujos de trabajo complejos. Los resultados de la codificación -especialmente en la generación creativa y la resolución de problemas- fueron de los mejores que he visto hasta ahora en cualquier modelo.

Author

Alex Olteanu

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

Aprende IA con estos cursos

programa

Fundamentos de la IA

10 h

Descubre los fundamentos de la IA, aprende a aprovecharla de forma eficaz en el trabajo y sumérgete en modelos como chatGPT para navegar por el dinámico panorama de la IA.

Ver detalles

Iniciar curso

programa

Desarrollo de aplicaciones de IA

21 h

Aprende a crear aplicaciones potenciadas por IA con las últimas herramientas para desarrolladores de IA, como la API OpenAI, Hugging Face y LangChain.

Ver detalles

Iniciar curso

Curso

Trabajar con DeepSeek en Python

3 h

1.2K

¡Descubre por qué se ha generado tanto revuelo en torno a DeepSeek! Crea aplicaciones utilizando los modelos R1 y V3 de DeepSeek.

Ver detalles

Iniciar curso

Relacionado

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.

Abid Ali Awan

9 min

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.

Ryan Ong

8 min

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.

Abid Ali Awan

9 min

Tutorial

Primeros pasos con Claude 3 y la API de Claude 3

Conozca los modelos Claude 3, las pruebas de rendimiento detalladas y cómo acceder a ellas. Además, descubra la nueva API Python de Claude 3 para generar texto, acceder a funciones de visión y streaming.

Abid Ali Awan

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.

Arunn Thevapalan

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Ver más Ver más

Claude Soneto 4

Claude Opus 4

Prueba Claude 4

Matemáticas

Codificación

Claude 4 Puntos de referencia

Claude Soneto 4

Claude Opus 4

Cómo acceder a la Claude 4

Acceso al chat

Acceso a la API

Conclusión

12 alternativas de código abierto a GPT-4

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

¿Qué es GPT-4 y por qué es importante?

Primeros pasos con Claude 3 y la API de Claude 3

Visión GPT-4: Guía completa para principiantes

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de la IA

Desarrollo de aplicaciones de IA

Trabajar con DeepSeek en Python

12 alternativas de código abierto a GPT-4

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

¿Qué es GPT-4 y por qué es importante?

Primeros pasos con Claude 3 y la API de Claude 3

Visión GPT-4: Guía completa para principiantes

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Fundamentos de la IA