Claude Sonnet 4.6: características, acceso, pruebas y benchmarks

Explora Claude Sonnet 4.6 de Anthropic: ventana de contexto de 1M de tokens, rendimiento cercano a Opus y avanzadas capacidades agentic para programación y finanzas.

Actualizado 17 abr 2026 · 10 min leer

Durante semanas se esperó la llegada de Claude Sonnet 5. En su lugar, Anthropic lanzó primero Claude Opus 4.6 y ahora sigue con una actualización de la familia de modelos Sonnet.

Claude Sonnet 4.6 trae conectores, skills y compactación de contexto para todos los usuarios, lidera el benchmark GDPval-AA y ofrece rendimiento de gama alta a un precio accesible.

Aunque el desarrollo parece haberse centrado en habilidades agentic, promete “una actualización completa de las habilidades del modelo” en prácticamente todos los ámbitos relevantes.

¿Cumple el modelo lo que promete? En este tutorial te mostraré las funciones clave del nuevo modelo de Anthropic y lo pondré a prueba.

No olvides consultar también nuestras guías sobre Muse Spark y Qwen3.5, los nuevos modelos insignia de Meta y Alibaba, respectivamente.

Introducción a los modelos Claude

Aprende a trabajar con Claude utilizando la API de Anthropic para resolver tareas del mundo real y crear aplicaciones basadas en inteligencia artificial.

Explora el curso

¿Qué es Claude Sonnet 4.6?

Claude Sonnet 4.6 es el último modelo de lenguaje grande (LLM) de Anthropic. Se centra especialmente en programación agentic, uso del ordenador y otras capacidades agentic, y es el modelo más ligero frente al modelo insignia publicado recientemente, Claude Opus 4.6.

Aunque la actualización suena incremental, está en línea con este último lanzamiento. Mi lectura del versionado es que Claude Sonnet 4.6 quizá no introduzca muchas funciones totalmente nuevas, sino que integre en la familia Sonnet características presentadas recientemente.

Además de abrir a todos los usuarios funciones que antes eran de pago, Claude Sonnet 4.6 rinde mucho mejor que su predecesor en todos los frentes, manteniendo el precio de la API de Claude Sonnet 4.5 (3 $/15 $ por millón de tokens de entrada/salida). Está disponible de inmediato tanto en la interfaz web de chat de Claude como vía API.

Funciones clave de Claude Sonnet 4.6

La apuesta de Anthropic con este lanzamiento parece ser ofrecer rendimiento de nivel Opus a precio de Sonnet. Aunque suena ambicioso, los resultados en benchmarks apuntan a que lo han logrado, como veremos más adelante.

Un ejemplo destacado son las habilidades de uso agentic del ordenador de Claude Sonnet 4.6, que logra un 72,5% en OSWorld-Verified. Como muestra el gráfico, los modelos Sonnet han avanzado muchísimo y más que duplicado esta puntuación en menos de un año.

Puntuaciones OSWorld-Verified de los modelos Claude Sonnet a lo largo del tiempo (Fuente: Anthropic)

Veamos algunas de las novedades más destacadas:

Inteligencia casi Opus para programar y razonar

Claude Sonnet 4.6 supone una mejora completa de habilidades en una amplia variedad de tareas, incluyendo:

Programación
Razonamiento de largo recorrido
Planificación de agentes
Trabajo basado en conocimiento
Diseño

Según la nota de lanzamiento, Anthropic observó que los beta testers preferían usar Sonnet 4.6 frente a Opus 4.5, que fue el modelo insignia de Anthropic hasta hace apenas dos semanas, en torno al 59% de las veces.

Argumentaron un mejor seguimiento de instrucciones, menos alucinaciones y una resolución de problemas multietapa más fiable como motivos de su preferencia.

Habilidades agentic de frontera con mayor seguridad

El modelo muestra capacidad a nivel humano en muchas tareas reales de software, como:

Navegar por hojas de cálculo complejas
Formularios web de varios pasos
Flujos de trabajo con varias pestañas

Esto se aprecia, por ejemplo, en la alta puntuación de OSWorld-Verified y en algunos benchmarks por dominios que comentaremos más adelante.

Otro foco del desarrollo ha sido la seguridad, especialmente relevante en el giro hacia la IA agentic. Anthropic afirma que Claude Sonnet 4.6 ha mejorado notablemente su resistencia a las prompt injections respecto a Sonnet 4.5 y está a la par con Opus 4.6 en este aspecto.

Planificación de largo horizonte

La afirmación más llamativa gira en torno a la ampliación de la ventana de contexto, que ahora abarca 1 millón de tokens. Esta ampliación permite a Sonnet 4.6 ingerir bases de código aún mayores, contratos extensos o amplios paquetes de investigación en una sola petición, y razonar eficazmente sobre ese contexto. Esta ventana ampliada sitúa a Sonnet 4.6 a la altura de Gemini 3 de Google.

Un ejemplo de planificación a largo plazo mejorada es Vending-Bench Arena, que evalúa la capacidad de un modelo para gestionar un negocio simulado a lo largo del tiempo, con un elemento de competición entre modelos. Al invertir mucho en infraestructura al principio y rentabilizarla más tarde, Sonnet 4.6 casi triplicó las ganancias medias de Sonnet 4.5 tras un año.

Puntuaciones de Vending-Bench de Claude Sonnet 4.6 vs Sonnet 4.5 (Fuente: Anthropic)

Mejoras avanzadas de flujo de trabajo

En la plataforma de Claude y su API, Sonnet 4.6 hace disponibles gratis algunas funciones que antes estaban restringidas a modelos Opus o a planes de pago.

Pensamiento adaptativo

Una función interesante introducida con Claude Opus 4.6 es el pensamiento adaptativo. Permite a Claude decidir automáticamente cuándo y cuánto razonar antes de responder. En la API, se activa con thinking: {type: “adaptive”}. En la interfaz web está integrado automáticamente en Sonnet 4.6 y Opus 4.6.

Connectors

Los conectores ofrecen integraciones basadas en MCP, lo que significa acceso directo a apps externas como Google Workspace y Slack. Así, Sonnet 4.6 puede obtener y accionar datos en tiempo real de estas herramientas dentro de los chats. Originalmente eran una función solo para planes de pago, pero al ser Sonnet 4.6 el nuevo modelo por defecto, también están disponibles para usuarios gratuitos.

Probando Claude Sonnet 4.6

Me parecía interesante ver cómo rinde Claude Sonnet 4.6 en las mismas tareas que usamos en nuestra guía de Claude Opus 4.6, para poder compararlos directamente. Las pruebas se diseñaron con tareas multietapa y para evaluar razonamiento matemático y de código.

Prueba 1: rompecabezas lógico de hex a decimal

La primera prueba apunta a las habilidades matemáticas:

Step 1: Find the 6th prime number. Let this be P. 
Step 2: Convert the square of P into hexadecimal. 
Step 3: Count the letters (A–F) and digits (0–9) in that hex string. Let these be A and B. 
Step 4: Multiply A × B. Let this be N. 
Step 5: Find the Nth prime number.

Calculemos nosotros mismos para comprobar si el resultado es correcto:

El sexto primo es 13.
13 al cuadrado es 169.
169 en hexadecimal es A9, que tiene 1 letra y 1 dígito.
1 × 1 es 1.
El primer número primo es el 2.

La idea de esta prueba es confundir al modelo con tareas que exigen lógicas de conteo y formatos numéricos distintos. Igual que Opus 4.6, Sonnet 4.6 supera cada paso y llega a la conclusión correcta:

Prueba 2: rotar una matriz

La siguiente prueba evalúa el razonamiento espacial, un punto débil habitual de muchos LLM:

Step 1: Create a 2×2 matrix M with top row [4, 2] and bottom row [1, 5]. 
Step 2: Rotate M 90 degrees clockwise. 
Step 3: Calculate the determinant of the rotated matrix. 
Step 4: Cube that determinant. 
Step 5: Subtract the 13th Fibonacci number from the result.

La respuesta correcta es -6.065:

La matriz inicial es [[4, 2], [1, 5]].
La matriz rotada es [[1, 4], [5, 2]].
El determinante es la diferencia de los productos diagonales, que aquí es -18.
Si elevamos -18 al cubo obtenemos -5.832.
-5.832 - 233 es -6.065.

Sonnet 4.6 no tiene problemas con la tarea. Capta el contexto espacial de la matriz y la rota correctamente, y trabajar con números negativos tampoco le supone dificultad:

Prueba 3: depuración de código

Por último, probemos la depuración de código, uno de los puntos fuertes atribuidos a Sonnet 4.6. La prueba está diseñada para comprobar cuánta conciencia de contexto tiene el modelo ante un bug concreto.

A developer wrote this Python function to compute a running average: 

def running_average(data, window=3): 
    result = [] 
    for i in range(len(data)): 
        start = max(0, i - window + 1) 
        chunk = data[start:i + 1] 
        result.append(round(sum(chunk) / window, 2)) 
    return result 
When called with running_average([10, 20, 30, 40, 50]), the first two values in the output seem wrong. Why? Please help me fix what is wrong!

El problema de este fragmento es que la función siempre divide por window (3), incluso antes de que haya 3 elementos en el chunk al inicio de la lista. La salida del código con bug es [3.33, 10.0, 20.0, 30.0, 40.0], pero los dos primeros valores deberían ser 10.0 y 15.0, ya que esos chunks contienen solo 1 y 2 elementos respectivamente y deberían dividirse por esos números. Por tanto, la corrección es dividir por len(chunk) en lugar de window.

Esta prueba es interesante porque ataca un punto débil típico de los LLM: a menudo ejecutan el bucle a la perfección pero dan por buena la salida. Ven los cálculos paso a paso sin error, pero no consideran lo que la función debería hacer. Solo si el modelo conecta el propósito de la función con su ejecución puede detectar el bug.

De nuevo, el modelo supera la prueba. Por supuesto, esto es solo una pequeña muestra de las pruebas que podrías hacer, pero al menos en estos ejemplos Sonnet 4.6 rinde a la par que Opus 4.6.

Benchmarks de Claude Sonnet 4.6

Con la alta frecuencia de nuevos modelos últimamente, ya estamos acostumbrados a mucho movimiento en los primeros puestos de cada leaderboard. Aun así, los primeros resultados de Claude Sonnet 4.6 en varios benchmarks de LLM impresionan, sobre todo teniendo en cuenta que no es el modelo insignia de Anthropic.

Puntuaciones de benchmarks de Claude Sonnet 4.6 y competidores (Fuente: Anthropic)

Como vemos en la tabla, Claude Sonnet 4.6 brilla en benchmarks agentic:

Uso agentic del ordenador: Con un 72,5% en OSWorld-Verified, se sitúa en segundo lugar, solo ligeramente por detrás de Claude Opus 4.6 (72,7%), superando con claridad al nuevo modelo insignia de OpenAI GPT-5.3 Codex (64,7%).
Programación agentic: Claude Sonnet 4.6 alcanza un 79,6% en SWE-bench verified. Los modelos recientes de Claude y competidores están bastante a la par, rondando el 80%.
Programación agentic en terminal: Mejora notable frente a Sonnet 4.5 (59,1% en lugar de 51% en Terminal-Bench 2.0), aunque algo por detrás de Opus 4.6 (65,4%) y con una diferencia mayor respecto a GPT-5.3 Codex (75,1%).

Destaca especialmente que Anthropic parece ir por delante en tareas agentic específicas por dominio:

Análisis financiero agentic: Aquí, Claude Sonnet 4.6 ocupa el primer puesto con un 63,3% en Finance Agent v1.1, superando incluso a Opus 4.6 (60,1%).
Tareas de oficina: Otro benchmark donde Sonnet 4.6 lidera con un Elo de 1633 en GDPval-AA, dejando a Opus 4.6 en segundo lugar (1606).

Cómo acceder a Claude Sonnet 4.6

Ya puedes usar Claude Sonnet 4.6 a través de varios canales. Así es como puedes acceder:

Acceso por chat

Sonnet 4.6 está disponible en la interfaz web de Claude.ai, en sus apps para iOS y Android, y en la app de escritorio para macOS con Claude Cowork.

En todas estas plataformas es el nuevo modelo por defecto, incluso en el plan gratuito. Esto significa que la creación de archivos, los conectores, las skills y la compactación de contexto están ahora disponibles para todos.

Acceso por API

Los desarrolladores pueden usar Claude Sonnet 4.6 a través de la API de Anthropic con el ID de modelo claude-sonnet-4-6. El precio se mantiene respecto a su predecesor: un millón de tokens de entrada cuesta 3 $ y un millón de salida, 15 $.

Para despliegues a escala empresarial, Sonnet 4.6 está disponible en múltiples plataformas cloud, como AWS Bedrock o Google Vertex AI, cada una con precios personalizados.

Herramientas de programación

Claude Sonnet 4.6 también impulsa ahora Claude Code, y es el modelo por defecto para cuentas Pro y Team, mientras que los planes superiores usan por defecto Opus 4.6. Si quieres ver ejemplos de lo que puedes construir, te recomiendo nuestros tutoriales sobre Claude Code hooks y cómo crear plugins para Claude Code.

Además, Sonnet 4.6 puede usarse con IDEs y otros asistentes de código, como Cursor o Roo Code.

Claude Sonnet 4.6 vs Opus 4.6

En muchos ámbitos, la diferencia entre Sonnet 4.6 y Opus 4.6 es tan pequeña que podríamos llamarlo un empate. Esto es especialmente cierto en tareas agentic como programación, uso del ordenador y uso de herramientas. Sonnet 4.6 incluso supera a Opus 4.6 en análisis financiero agentic, tareas de oficina y uso de herramientas a escala.

Como era de esperar, donde Opus 4.6 realmente brilla es en tareas que exigen razonamiento intenso o creatividad, como la resolución novedosa de problemas y el razonamiento multidisciplinar. En el ámbito agentic, Opus 4.6 es mejor en programación en terminal y búsqueda agentic.

Elegir el modelo Claude adecuado

Para la mayoría de tareas de programación y agentic, y para aquellas donde seguir instrucciones es clave, Claude Sonnet 4.6 es la mejor opción porque ofrece un rendimiento prácticamente idéntico a un coste mucho menor. Además, suele ser más rápido.

Los equipos que dependan de razonamiento experto o flujos multiagente deberían optar por Claude Opus 4.6. Especialmente para investigación, migraciones complejas o trabajo experto de alto impacto, Opus 4.6 destaca.

Reflexiones finales

Con Claude Sonnet 4.5, Anthropic sigue poniendo el foco en código, agentes y uso del ordenador. Además del gran salto de rendimiento frente a su predecesor, pone a disposición de todos funciones como conectores y pensamiento adaptativo, incluso en el plan gratuito.

Las primeras impresiones y resultados en benchmarks son muy buenos, y se siente como un cambio de juego porque ofrece rendimiento (casi) de Opus sin el precio elevado. Para muchos flujos de trabajo del día a día, cuesta incluso justificar el uso del modelo insignia. Dicho esto, para tareas que exigen razonamiento intenso, Claude Opus 4.6 sigue siendo la mejor opción.

Será interesante ver cuánto tiempo puede mantenerse Claude Sonnet 4.6 en lo alto de los rankings y cómo responden los competidores de Anthropic al lanzamiento.

Hemos hablado de tareas agentic a lo largo del artículo. Si quieres aprender más sobre cómo usar modelos como Claude Sonnet 4.6 en este tipo de flujos, te recomiendo nuestro itinerario de habilidades AI Agent Fundamentals.

¿Qué es Claude Sonnet 4.6?

¿Cuáles son las principales novedades de Claude Sonnet 4.6?

¿Cómo rinde Claude Sonnet 4.6 en programación y benchmarks?

¿Cómo puedo acceder a Claude Sonnet 4.6?

¿Cuándo debería usar Claude Sonnet 4.6 frente a Opus 4.6?

Author

Tom Farnschläder

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

Cursos de IA

programa

Fundamentos de agentes de IA

6 h

¡Descubre cómo los agentes de IA pueden transformar tu forma de trabajar y aportar valor a tu organización!

Ver detalles

Iniciar curso

Curso

Introducción a los modelos Claude

3 h

11.5K

Aprende a trabajar con Claude utilizando la API de Anthropic para resolver tareas del mundo real y crear aplicaciones basadas en IA.

Ver detalles

Iniciar curso

Curso

Introducción a los agentes de IA

1 h 30 min

114.6K

Aprende los fundamentos de los agentes de IA, sus componentes y usos reales, sin necesidad de programar.

Ver detalles

Iniciar curso

Relacionado

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.

Abid Ali Awan

9 min

blog

10 maneras de utilizar ChatGPT para las finanzas

Descubre cómo los modelos lingüísticos de IA como ChatGPT pueden revolucionar tus operaciones financieras, desde la generación de informes hasta la traducción de jerga financiera.

Matt Crabtree

13 min

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.

Ryan Ong

8 min

Tutorial

Primeros pasos con Claude 3 y la API de Claude 3

Conozca los modelos Claude 3, las pruebas de rendimiento detalladas y cómo acceder a ellas. Además, descubra la nueva API Python de Claude 3 para generar texto, acceder a funciones de visión y streaming.

Abid Ali Awan

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.

Arunn Thevapalan

Ver más Ver más

Introducción a los modelos Claude

¿Qué es Claude Sonnet 4.6?

Funciones clave de Claude Sonnet 4.6

Inteligencia casi Opus para programar y razonar

Habilidades agentic de frontera con mayor seguridad

Planificación de largo horizonte

Mejoras avanzadas de flujo de trabajo

Pensamiento adaptativo

Connectors

Probando Claude Sonnet 4.6

Prueba 1: rompecabezas lógico de hex a decimal

Prueba 2: rotar una matriz

Prueba 3: depuración de código

Benchmarks de Claude Sonnet 4.6

Cómo acceder a Claude Sonnet 4.6

Acceso por chat

Acceso por API

Herramientas de programación

Claude Sonnet 4.6 vs Opus 4.6

Elegir el modelo Claude adecuado

Reflexiones finales

Preguntas frecuentes sobre Claude Sonnet 4.6

¿Cómo rinde Claude Sonnet 4.6 en programación y benchmarks?

¿Cómo puedo acceder a Claude Sonnet 4.6?

¿Cuándo debería usar Claude Sonnet 4.6 frente a Opus 4.6?

12 alternativas de código abierto a GPT-4

10 maneras de utilizar ChatGPT para las finanzas

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Primeros pasos con Claude 3 y la API de Claude 3

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Visión GPT-4: Guía completa para principiantes

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de agentes de IA

Introducción a los modelos Claude

Introducción a los agentes de IA

12 alternativas de código abierto a GPT-4

10 maneras de utilizar ChatGPT para las finanzas

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Primeros pasos con Claude 3 y la API de Claude 3

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Visión GPT-4: Guía completa para principiantes

Fundamentos de agentes de IA