Saltar al contenido principal

Claude 3.7 Soneto: Características, acceso, pruebas y más

Infórmate sobre el enfoque híbrido de Claude 3.7 Sonnet, que combina el modo de razonamiento y el modo generalista, los puntos de referencia clave y cómo acceder a él a través de la web o la API.
Actualizado 25 feb 2025  · 8 min de lectura

Anthropic acaba de hacer su mayor anuncio en mucho tiempo con el lanzamiento de Claude 3.7 Sonnet. A pesar de que el número de versión sólo sugiere un progreso incremental, creemos que se trata de una mejora significativa con respecto a Claude 3.5 Sonnet.

En primer lugar, el Soneto Claude 3.7 introduce el Modo Pensar, que nos permite ver el proceso de pensamiento del modelo. Esto significa que Anthropic está entrando por fin en el terreno de los modelos de razonamiento, y basándonos en los puntos de referencia, es un digno competidor de o3-mini de OpenAI, DeepSeek-R1y Grok 3.

En segundo lugar, Claude 3.7 Sonnet puede cambiar entre el modo de razonamiento y el modo generalista con sólo pulsar un botón (hablaremos de esto más adelante). Aunque Anthropic afirmó tener "una filosofía diferente", este cambio refleja una tendencia creciente a unificar la experiencia del usuario en los LLM basados en el chat. Grok 3 ya funciona así, y Sam Altman anunció recientemente que ChatGPT seguirá una dirección similar.

Lo que nos parece decepcionante es que el Modo Pensar esté bloqueado tras un muro de pago. Dado que los modelos de razonamiento son cada vez más comunes, es difícil justificar esta decisión cuando ya puedes acceder a versiones gratuitas, aunque a veces limitadas, a través de Grok, DeepSeek, Qwen e incluso ChatGPT.

Descubramos lo esencial del Soneto Claude 3.7.

Perfeccionamiento en IA para principiantes

Aprende los fundamentos de la IA y ChatGPT desde cero.
Aprende IA gratis

¿Qué es el Soneto Claude 3.7?

Claude 3.7 Sonnet es el último modelo de IA de Anthropic, posicionado como un gran paso adelante en el razonamiento, la codificación y la resolución de problemas del mundo real. El mayor cambio es que ahora Claude 3.7 Sonnet admite el Modo Pensar, lo que nos permite ver el proceso de razonamiento paso a paso del modelo. Veamos cómo funciona:

Los modelos de razonamiento son cada vez más importantes y comunes, y podemos ver por qué. Si observas el siguiente gráfico, te darás cuenta de que el 37,2% de los usuarios confían en Claude para cuestiones de codificación y matemáticas, según el Índice Económico Antrópico. Esto me dice una cosa: los modelos de razonamiento sólido pueden aportar un valor empresarial real, sobre todo porque la adopción de la IA en entornos empresariales sigue siendo baja.

índice económico antrófico

Fuente: Índice Económico Antrófico

Al mismo tiempo, Claude 3.7 no es sólo un modelo de razonamiento, es un híbrido. Podemos cambiar entre el Modo Pensar (para tareas de razonamiento estructurado) y un modo de chat estándar para conversación general, escritura y resumen.

Claude 3.7 Soneto vs. Soneto Claude 3.5

Claude 3.7 Sonnet es una actualización mucho mayor de lo que sugiere el número de versión. Los datos de referencia confirman que supera a Claude 3.5 Sonnet en razonamiento, codificación y ejecución de tareas en el mundo real.

Rendimiento de la ingeniería del software

Claude 3.7 Sonnet muestra una clara ventaja en ingeniería de software, con una puntuación de precisión del 62,3% en SWE-bench Verified, un salto significativo desde el 49,0% de Claude 3.5 Sonnet. Cuando se utiliza un andamiaje personalizado (una indicación estructurada o un contexto adicional que ayuda a guiar la respuesta del modelo hacia una solución más precisa), esa precisión aumenta hasta el 70,3%, lo que lo convierte en el modelo con mejores resultados en esta categoría.

swe-bench verificó que mide el soneto claude 3.7

Fuente: Antrópico

Una mejora de casi el 13% en la precisión entre las versiones del modelo no es sólo un pequeño refinamiento. Sugiere que Claude 3.7 Sonnet se ha optimizado para una mejor comprensión y ejecución de las tareas relacionadas con la programación. Para los usuarios que confían en Claude para la ingeniería de software, la depuración o la automatización, la actualización supone una diferencia tangible.

Uso de herramientas antigénicas

El rendimiento en el uso de herramientas agenticas es otro aspecto en el que Claude 3.7 Sonnet supera a su predecesor. En tareas relacionadas con el comercio, alcanza un 81,2% de precisión, por encima del 71,5% de Claude 3.5 Sonnet. En las tareas relacionadas con las líneas aéreas, obtiene una puntuación del 58,4%, una mejora de casi diez puntos respecto a la versión anterior.

pruebas de uso de la herramienta agentic para el soneto claude 3.7

Fuente: Antrópico

Puntos de referencia generales

En todos los puntos de referencia, las mayores ganancias proceden del modo de pensamiento ampliado, que permite a Claude 3.7 rendir a un nivel mucho más alto en tareas de razonamiento complejas. Los usuarios que confían en la IA para flujos de trabajo estructurados, codificación o resolución de problemas verán una clara diferencia entre Claude 3.5 y Claude 3.7, especialmente cuando utilicen el pensamiento extendido.

claude 3.7 puntos de referencia generales

Fuente: Antrópico

La mayor parte de este progreso proviene del pensamiento ampliado de Claude, así que vamos a averiguar más sobre esto.

El pensamiento ampliado de Claude

Cuando está activado, el modo de pensamiento ampliado aumenta el número de pasos de razonamiento que Claude realiza antes de finalizar una respuesta. Los desarrolladores pueden afinar este proceso estableciendo un presupuesto de pensamiento, que define cuántas fichas puede utilizar el modelo mientras resuelve un problema. Como se muestra en el siguiente gráfico de rendimiento de AIME 2024, la precisión mejora a medida que se asignan más fichas, siguiendo una tendencia logarítmica.

rendimiento del soneto claude 3.7 en aime 2024 a medida que se utilizan más tokens

Fuente: Antrópico

Este enfoque refleja el esfuerzo cognitivo humano: para las tareas sencillas, basta con respuestas rápidas, pero para las complejas, un análisis más profundo conduce a mejores resultados. Ahora Claude puede decidir cuándo hacer una pausa, reevaluar y refinar su razonamiento en lugar de optar por respuestas inmediatas.

Uno de los aspectos más interesantes del modo de pensamiento ampliado es que el proceso de razonamiento de Claude es visible para el usuario. Sin embargo, esta característica plantea algunos retos. Aunque proporciona información sobre el razonamiento de la IA, el proceso de pensamiento que se muestra no siempre coincide perfectamente con la forma en que el modelo toma realmente las decisiones. El "problema de la fidelidad" -si los pensamientos autodeclarados de una IA representan con exactitud su mecánica interna- sigue siendo una cuestión de investigación abierta.

Claude 3.7 La capacidad de Sonnet para el razonamiento iterativo a largo plazo se pone a prueba en evaluaciones como OSWorld y el juego Pokémon Rojo. En Pokémon Rojo, por ejemplo, el Soneto Claude 3.7 consigue una progresión en el juego mucho mayor que las versiones anteriores, superando múltiples hitos mientras que los modelos anteriores se quedaban atascados al principio del juego.

claude 3.7 interpretación del soneto sobre jugar a pokemon

Fuente: Antrópico

Claude 3.7 Puntos de referencia del soneto

Ya hemos visto cómo se comporta Claude 3.7 Sonnet frente a su versión anterior, pero ¿cómo se compara con o3-mini de OpenAI, DeepSeek-R1 o Grok 3?

Si observamos los puntos de referencia actualizados, Claude 3.7 Sonnet se ha posicionado como uno de los modelos con mejor rendimiento, especialmente en tareas de razonamiento pesado, codificación y uso de herramientas agenticas.

Razonamiento y matemáticas

En razonamiento de nivel universitario (GPQA Diamond), Claude 3.7 Sonnet obtiene un 68,0% en modo estándar y un 84,8% en modo de pensamiento extendido, lo que lo convierte en uno de los modelos más fuertes de esta categoría. Supera a o1 de OpenAI (78,0%) y a DeepSeek-R1 (71,5%) por una cantidad significativa y a Grok 3 Beta (84,6%) sólo por un pequeño margen .

Punto de referencia

Claude 3.7 Soneto (Estándar)

Claude 3.7 Soneto (Pensamiento ampliado)

OpenAI o1

OpenAI o3-mini (alto)

DeepSeek R1

Grok 3 Beta

GPQA Diamante (Razonamiento de nivel universitario)

68.0%

84.8%

78.0%

79.7%

71.5%

84.6%

AIME 2024 (Concurso de matemáticas de secundaria)

23.3%

80.0%

83.3%

87.3%

79.8%

93.3%

Resolución de problemas matemáticos (MATH 500)

82.2%

96.2%

96.4%

97.9%

97.3%

-

La referencia AIME 2024, que evalúa los problemas de la competición matemática de secundaria, muestra una tendencia similar. Claude 3.7 Sonnet da un gran salto con respecto a las versiones anteriores, y obtiene una puntuación del 80,0% con el pensamiento ampliado activado. Aunque supera a DeepSeek-R1 (79,8%) por un pequeño margen, sigue estando por detrás de o3-mini de OpenAI (87,3%) y Grok 3 Beta (93,3%).

En la resolución de problemas matemáticos (MATH 500), Claude 3.7 Sonnet alcanza un 96,2%, igualando de cerca a o3-mini de OpenAI (97,9%) y DeepSeek R1 (97,3%).

Codificación y uso de herramientas agenticas

Claude 3.7 Sonnet obtiene sus mayores ganancias en los puntos de referencia de codificación. En SWE-bench Verified (que evalúa modelos de IA en tareas de ingeniería de software), Claude 3.7 Sonnet obtiene una puntuación del 62,3%, que aumenta al 70,3% con un andamiaje personalizado. Esto lo sitúa muy por delante del o1 de OpenAI (48,9%) y del o3-mini (49,3%), así como del DeepSeek R1 (49,2%), que se diseñó teniendo en cuenta la codificación. Esto confirma que Claude 3.7 es ahora uno de los mejores modelos de IA para tareas relacionadas con la programación.

Punto de referencia

Claude 3.7 Soneto (Estándar)

Claude 3.7 Soneto (Andamio personalizado)

OpenAI o1

OpenAI o3-mini (alto)

DeepSeek R1

SWE-bench Verificado (Codificación)

62.3%

70.3%

48.9%

49.3%

49.2%

TAU-bench Retail (Uso de herramientas)

81.2%

-

73.5%

-

-

TAU-bench Airline (Uso de herramientas)

58.4%

-

54.2%

-

-

Más allá de la codificación, Claude 3.7 Sonnet es líder en el uso de herramientas agénticas, lo que la convierte en una opción sólida para la automatización y la ejecución de flujos de trabajo. En TAU-bench (que pone a prueba la capacidad de la IA para interactuar con herramientas externas en entornos estructurados), Claude 3.7 obtiene una puntuación del 81,2% en tareas relacionadas con el comercio minorista, superando a OpenAI o1 (73,5%). En las tareas relacionadas con las líneas aéreas, Claude 3.7 alcanza el 58,4%, superando de nuevo a OpenAI o1 (54,2%).

Esto sugiere que Claude 3.7 se adapta bien a las aplicaciones empresariales y a los flujos de trabajo estructurados, lo que la convierte en una opción sólida para los usuarios empresariales que buscan integrar la IA en sus procesos operativos y de toma de decisiones.

Cómo acceder al Soneto Claude 3.7

Claude 3.7 Sonnet está disponible a través de múltiples canales, como la interfaz web de Anthropic, la integración de Claude en varias apps y el acceso a la API para desarrolladores. Aunque el modelo es una mejora significativa, su disponibilidad viene con algunas limitaciones, especialmente si quieres utilizar el Modo Pensar, que actualmente está bloqueado tras un nivel de pago.

Acceso a la web y a la app

Para los usuarios en general, se puede acceder al Soneto Claude 3.7 a través del sitio web oficial de Anthropic (claude.ai) y la aplicación Claude. Está disponible en el nivel gratuito, pero con restricciones:

  • Los usuarios gratuitos pueden acceder a Claude 3.7 Sonnet para tareas básicas como escribir, resumir y hacer preguntas y respuestas en general, pero el Modo Pensar está desactivado.
  • Los usuarios de Claude Pro (el plan de pago de 20 $/mes) obtienen acceso completo al Modo Pensar, junto con límites de mensajes más altos y acceso prioritario durante las horas de mayor uso.

Para activar el Modo Pensar, tienes que hacer clic en Extendido del menú desplegable del modelo:

cómo activar el modo pensar en el soneto claude 3.7

Claude 3.7 Acceso a la API de Sonnet

Los desarrolladores pueden integrar Claude 3.7 Sonnet en sus aplicaciones utilizando la API de Anthropic, accesible a través de el portal para desarrolladores de Anthropic. La API admite un modelo de precios de pago por uso basado en el uso de tokens.

Aquí tienes un resumen de las ofertas de API de Anthropic:

Función

Claude 3.7 Soneto

Soneto Claude 3.5

Claude 3.5 Haiku

Claude 3 Opus

Claude 3 Haiku

Descripción

Nuestro modelo más inteligente

Nuestro anterior modelo más inteligente

Nuestro modelo más rápido

Modelo potente para tareas complejas

El modelo más rápido y compacto para una capacidad de respuesta casi instantánea

Puntos fuertes

Máximo nivel de inteligencia y capacidad con pensamiento ampliado conmutable

Alto nivel de inteligencia y capacidad

Inteligencia a velocidades de vértigo

Inteligencia, fluidez y comprensión de alto nivel

Actuación selectiva rápida y precisa

Multilingüe

Visión

Pensamiento ampliado

No

No

No

No

Nombre del modelo API

claude-3-7-sonnet-20250219

Versión actualizada: claude-3-5-sonnet-20241022

Versión anterior: claude-3-5-sonnet-20240620

claude-3-5-haiku-20241022

claude-3-opus-20240229

claude-3-haiku-20240307

Latencia comparativa

Rápido

Rápido

Más rápido

Moderadamente rápido

Más rápido

Ventana contextual

200K

200K

200K

200K

200K

Potencia máxima

Normal: 8192 fichas

Pensamiento extendido:64000 fichas

8192 fichas

8192 fichas

4096 fichas

4096 fichas

Coste (Input / Output por MTok)

$3.00 / $15.00

$3.00 / $15.00

$0.80 / $4.00

$15.00 / $75.00

$0.25 / $1.25

Corte de los datos de entrenamiento

Oct 2024

Abr 2024

Julio de 2024

Ago 2023

Ago 2023

Fuente: Antrópico

Asegúrate de comprobar siempre los últimos precios de la API.

Conclusión

Anthropic acaba de hacer su mayor movimiento en mucho tiempo con Claude 3.7 Sonnet, un modelo que por fin lo introduce en el espacio de la IA de razonamiento. Basándonos en los puntos de referencia, podemos ver que es un competidor legítimo de o3-mini, DeepSeek-R1 y Grok 3 de OpenAI, con un gran rendimiento en codificación, resolución de problemas estructurados y uso de herramientas agenticas.

La posibilidad de cambiar entre los modos generalista y de razonamiento lo hace más versátil, pero encerrar el Modo Pensamiento tras un muro de pago parece un paso en falso, sobre todo con las alternativas gratuitas disponibles. Aun así, Claude 3.7 es un gran paso adelante.


Josef Waples's photo
Author
Josef Waples

Preguntas frecuentes

¿Qué es el Código Claude y cómo se compara con el Soneto Claude 3.7?

Claude Code es un modelo independiente optimizado para el desarrollo de software, distinto de Claude 3.7 Sonnet. Mientras que Claude 3.7 es un LLM de uso general con grandes capacidades de codificación, Claude Code está ajustado específicamente para tareas de programación, depuración y uso de herramientas agénticas.

¿Cómo gestiona el Claude 3.7 Sonnet un contexto más largo en comparación con los modelos anteriores?

Claude 3.7 Sonnet conserva una ventana de contexto de 200K tokens, pero el pensamiento ampliado le permite razonar más eficazmente sobre documentos largos. Mientras que otros modelos (como Géminis 2.0) anuncian capacidades de contexto más largas, Anthropic hace hincapié en el razonamiento estructurado por encima de la longitud bruta de la memoria.

¿Admite Claude 3.7 Sonnet la entrada multimodal?

Sí, Claude 3.7 Sonnet incluye capacidades multimodales, lo que significa que puede procesar y analizar imágenes. 

¿Qué mejoras de seguridad se han introducido en Claude 3.7 Sonnet?

Anthropic ha ampliado las pruebas de estrés de alineación y ha perfeccionado los principios constitucionales de la IA, garantizando mejores salvaguardias contra la parcialidad, la desinformación y el uso indebido. Sin embargo, los intentos de jailbreaking siguen siendo motivo de preocupación, ya que el modo de pensamiento visible podría exponer vulnerabilidades.

¿Existe una aplicación móvil Claude?

Sí, puedes acceder a Claude tanto en iOS como en Android.

Temas

Aprende IA con estos cursos

programa

AI Business Fundamentals

11hrs hr
Accelerate your AI journey, conquer ChatGPT, and develop a comprehensive Artificial Intelligence strategy.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

Evaluación de un LLM: Métricas, metodologías y buenas prácticas

Aprende a evaluar grandes modelos lingüísticos (LLM) utilizando métricas clave, metodologías y mejores prácticas para tomar decisiones informadas.
Stanislav Karzhev's photo

Stanislav Karzhev

9 min

tutorial

Primeros pasos con Claude 3 y la API de Claude 3

Conozca los modelos Claude 3, las pruebas de rendimiento detalladas y cómo acceder a ellas. Además, descubra la nueva API Python de Claude 3 para generar texto, acceder a funciones de visión y streaming.
Abid Ali Awan's photo

Abid Ali Awan

tutorial

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Empieza a utilizar el gran modelo de lenguaje DCLM-7B de Apple y aprende a configurarlo, utilizarlo y ajustarlo para tareas específicas.
Dimitri Didmanidze's photo

Dimitri Didmanidze

9 min

tutorial

Guía introductoria para el ajuste preciso de los LLM

El ajuste preciso de los grandes modelos lingüísticos (LLM) ha revolucionado el procesamiento del lenguaje natural (PLN) y ofrece capacidades sin precedentes en tareas como la traducción lingüística, el análisis del sentimiento y la generación de textos. Este enfoque transformador aprovecha modelos preentrenados como el GPT-2 y mejora su rendimiento en dominios específicos mediante el proceso de ajuste preciso.
Josep Ferrer's photo

Josep Ferrer

12 min

tutorial

Ajuste fino de LLaMA 2: Guía paso a paso para personalizar el modelo de lenguaje grande

Aprende a ajustar Llama-2 en Colab utilizando nuevas técnicas para superar las limitaciones de memoria y computación y hacer más accesibles los grandes modelos lingüísticos de código abierto.
Abid Ali Awan's photo

Abid Ali Awan

12 min

tutorial

Tutorial Mistral 7B: Guía paso a paso para utilizar y ajustar Mistral 7B

El tutorial cubre el acceso, la cuantización, el ajuste fino, la fusión y el almacenamiento de este potente modelo lingüístico de código abierto con 7300 millones de parámetros.
Abid Ali Awan's photo

Abid Ali Awan

12 min

Ver másVer más