Saltar al contenido principal

DeepSeek R1: características, comparación con o1, modelos destilados y más

Infórmate sobre las principales características de DeepSeek-R1, su proceso de desarrollo, sus modelos destilados, cómo acceder a él, su precio y su comparación con OpenAI o1.
Actualizado 4 feb 2025  · 8 min de lectura

DeepSeek acaba de anunciar DeepSeek-R1, el siguiente paso en su trabajo sobre modelos de razonamiento. Es una mejora de su anterior DeepSeek-R1-Lite-Preview y demuestra que se toman en serio la competencia con o1 de OpenAI.

Con OpenAI planeando lanzar o3 este año, está claro que la competencia en los modelos de razonamiento está aumentando. Aunque DeepSeek puede quedarse ligeramente atrás en algunas áreas, su naturaleza de código abierto lo convierte en una opción atractiva para la comunidad de IA.

En este blog, desglosaré las principales características de DeepSeek-R1, su proceso de desarrollo, sus modelos destilados, cómo acceder a él, su precio y su comparación con los modelos de OpenAI.

¿Qué es DeepSeek-R1?

DeepSeek-R1 es un modelo de razonamiento de código abierto desarrollado por DeepSeek, empresa china de IA, para abordar tareas que requieren inferencia lógica, resolución de problemas matemáticos y toma de decisiones en tiempo real.

Lo que diferencia a modelos de razonamiento como DeepSeek-R1 y o1 de OpenAI de los modelos de lenguaje tradicionales es su capacidad de mostrar cómo han llegado a una conclusión.

ejemplo de razonamiento mostrado con deepseek r1 deepthink

Con DeepSeek-R1, puedes seguir su lógica, lo que facilita la comprensión y, si es necesario, el cuestionamiento de su resultado. Esta capacidad da a los modelos de razonamiento una ventaja en campos en los que los resultados deben ser explicables, como la investigación o la toma de decisiones compleja.

Lo que hace que DeepSeek-R1 sea especialmente competitivo y atractivo es su naturaleza de código abierto. A diferencia de los modelos exclusivos de una empresa, su naturaleza de código abierto permite a los desarrolladores y los investigadores explorarlo, modificarlo e implementarlo dentro de ciertos límites técnicos, como los requisitos de recursos.

¿Cómo se desarrolló DeepSeek-R1?

En esta sección, te explicaré cómo se desarrolló DeepSeek-R1, empezando por su predecesor, DeepSeek-R1-Zero.

DeepSeek-R1-Zero

DeepSeek-R1 comenzó con R1-Zero, un modelo entrenado completamente mediante aprendizaje por refuerzo. Aunque este enfoque le permitió desarrollar excelentes capacidades de razonamiento, tenía importantes inconvenientes. Los resultados eran a menudo difíciles de leer, y el modelo a veces mezclaba idiomas en sus respuestas. Estas limitaciones hicieron que el R1-Zero fuera menos práctico para las aplicaciones del mundo real.

Desafíos del aprendizaje por refuerzo puro

La dependencia del aprendizaje por refuerzo puro creaba resultados lógicamente sólidos, pero mal estructurados. Sin la orientación de los datos supervisados, el modelo tenía dificultades para comunicar su razonamiento con eficacia. Esto era un obstáculo para los usuarios que necesitaban claridad y precisión en los resultados.

Mejoras con DeepSeek-R1

Para resolver estos problemas, DeepSeek introdujo un cambio en el desarrollo de R1 combinando el aprendizaje por refuerzo con el ajuste fino supervisado. Este enfoque híbrido incorporó conjuntos de datos organizados, lo que mejoró la legibilidad y la coherencia del modelo. Se redujeron significativamente problemas como la mezcla de idiomas y el razonamiento fragmentado, lo que hizo que el modelo fuera más adecuado para el uso práctico.

Si quieres saber más sobre el desarrollo de DeepSeek-R1, te recomiendo que leas el documento de lanzamiento.

Modelos destilados de DeepSeek-R1

La destilación en IA es el proceso de crear modelos de menor tamaño y más eficientes a partir de otros mayores, conservando gran parte de su capacidad de razonamiento y reduciendo las demandas computacionales. DeepSeek aplicó esta técnica para crear un conjunto de modelos destilados a partir de R1, utilizando las arquitecturas Qwen y Llama.

Fuente: documento de lanzamiento de DeepSeek

Modelos destilados basados en Qwen

Los modelos destilados basados en Qwen de DeepSeek se centran en la eficiencia y la escalabilidad, y ofrecen equilibrio entre el rendimiento y los requisitos computacionales.

DeepSeek-R1-Distill-Qwen-1.5B

Este es el modelo destilado de menor tamaño, que obtiene un 83,9 % en MATH-500. MATH-500 prueba la capacidad de resolver problemas matemáticos de nivel de enseñanza secundaria con razonamiento lógico y soluciones de varios pasos. Este resultado muestra que el modelo resuelve bien tareas matemáticas básicas a pesar de su tamaño compacto.

Sin embargo, su rendimiento desciende significativamente en LiveCodeBench (16,9 %), prueba de rendimiento diseñada para evaluar las capacidades de programación, lo que destaca su limitada capacidad en tareas de programación.

DeepSeek-R1-Distill-Qwen-7B

Qwen-7B brilla en MATH-500, con una puntuación del 92,8 %, que demuestra sus excelentes capacidades de razonamiento matemático. También obtiene resultados razonablemente buenos en GPQA Diamond (49,1 %), que evalúa la respuesta a preguntas factuales, lo que indica que tiene un buen equilibrio entre razonamiento matemático y factual.

Sin embargo, su rendimiento en LiveCodeBench (37,6 %) y Codeforces (1189) sugiere que es menos adecuado para tareas de programación complejas.

DeepSeek-R1-Distill-Qwen-14B

Este modelo obtiene buenos resultados en MATH-500 (93,9 %), lo que refleja su capacidad para resolver problemas matemáticos complejos. Su puntuación del 59,1% en GPQA Diamond también indica competencia en razonamiento factual.

Su rendimiento en LiveCodeBench (53,1 %) y Codeforces (1481) muestra margen de mejora en programación y tareas de razonamiento específico de programación.

DeepSeek-R1-Distill-Qwen-32B

El modelo basado en Qwen de mayor tamaño obtiene la puntuación más alta de los productos homólogos en AIME 2024 (72,6 %), que evalúa el razonamiento matemático avanzado en varios pasos. También sobresale en MATH-500 (94,3 %) y GPQA Diamond (62,1 %), lo que demuestra su fortaleza en razonamiento matemático y factual.

Sus resultados en LiveCodeBench (57,2 %) y Codeforces (1691) sugieren que es versátil, pero aún no está optimizado para tareas de programación si lo comparamos con modelos especializados en programación.

Modelos destilados basados en Llama

Los modelos destilados basados en Llama de DeepSeek priorizan el alto rendimiento y las capacidades avanzadas de razonamiento, y destacan especialmente en tareas que requieren precisión matemática y factual.

DeepSeek-R1-Distill-Llama-8B

Llama-8B obtiene resultados buenos en MATH-500 (89,1 %) y razonables en GPQA Diamond (49,0 %), lo que indica su capacidad de razonamiento matemático y factual. Sin embargo, obtiene puntuaciones más bajas en pruebas de rendimiento de programación como LiveCodeBench (39,6 %) y Codeforces (1205), lo que destaca sus limitaciones en tareas relacionadas con la programación en comparación con los modelos basados en Qwen.

DeepSeek-R1-Distill-Llama-70B

El modelo destilado de mayor tamaño, Llama-70B, ofrece un excelente rendimiento en MATH-500 (94,5 %), el mejor de todos los modelos destilados, y alcanza una buena puntuación, el 86,7 %, en AIME 2024, lo que lo convierte en una magnífica opción para el razonamiento matemático avanzado.

También obtiene buenos resultados en LiveCodeBench (57,5 %) y Codeforces (1633), lo que sugiere que es más competente en tareas de programación que la mayoría de los demás modelos. En este dominio, está al mismo nivel que o1-mini o GPT-4o de OpenAI.

Cómo acceder a DeepSeek-R1

Puedes acceder a DeepSeek-R1 mediante dos métodos principales: la plataforma web de chat de DeepSeek y la API de DeepSeek. Esto te permite elegir la opción que mejor se adapte a tus necesidades.

Acceso web: plataforma de chat de DeepSeek

La plataforma de chat de DeepSeek permite interactuar con DeepSeek-R1 de forma sencilla. Para acceder a ella, puedes ir directamente a la página del chat o hacer clic en Start Now en la página de inicio.

Página de inicio de DeepSeek

Tras registrarte, puedes seleccionar el modo "Deep Think" para probar las capacidades de razonamiento paso a paso de DeepSeek-R1.

interfaz de chat de deepseek que muestra la opción deepthink para activar deepseek-r1

Acceso a la API: API de DeepSeek

Para integrar DeepSeek-R1 en tus aplicaciones, la API de DeepSeek proporciona acceso programático.

Para empezar, deberás obtener una clave de API registrándote en la plataforma de DeepSeek.

La API es compatible con el formato de OpenAI, lo que hace sencilla la integración cuando se está familiarizado con las herramientas de OpenAI. Tienes más instrucciones en la documentación de la API de DeepSeek.

Precios de DeepSeek-R1

Desde el 21 de enero de 2025, el uso de la plataforma de chat es gratuito, pero con un tope diario de 50 mensajes en modo "Deep Think". Esta limitación la hace ideal para el uso ligero o la exploración.

La API ofrece dos modelos, deepseek-chat (DeepSeek-V3) y deepseek-reasoner (DeepSeek-R1), con la siguiente estructura de precios (por millón de tokens):

MODELO

VENTANA DE CONTEXTO

NÚMERO MÁXIMO DE TOKENS COT

NÚMERO MÁXIMO DE TOKENS DE RESULTADO

1 MILLÓN DE TOKENS

PRECIO DE ENTRADA

(ACIERTO DE CACHÉ)

1 MILLÓN DE TOKENS

PRECIO DE ENTRADA

(ERROR DE CACHÉ)

1 MILLÓN DE TOKENS

PRECIO DE SALIDA

deepseek-chat

64 000

-

8000

0,07 $

0,014 $

0,27 $

0,14 $

1,10 $

0,28 $

deepseek-reasoner

64 000

32 000

8000

0,14 $

0,55 $

2,19 $

Fuente: página de precios de DeepSeek

Para asegurarte de tener la información más actualizada sobre precios y saber calcular el coste del razonamiento en cadena de pensamiento (CoT), visita la página de precios de DeepSeek.

DeepSeek-R1 frente a OpenAI O1: prueba de rendimiento

DeepSeek-R1 compite directamente con OpenAI o1 en varias pruebas de rendimiento, a menudo igualando o superando a o1 de OpenAI.

Fuente: documento de lanzamiento de DeepSeek

Pruebas de rendimiento en matemáticas: AIME 2024 y MATH-500

En las pruebas de rendimiento en matemáticas, DeepSeek-R1 demuestra excelente rendimiento. En AIME 2024, que evalúa el razonamiento matemático avanzado en varios pasos, DeepSeek-R1 obtiene una puntuación del 79,8 %, ligeramente mayor que el 79,2 % de OpenAI o1-1217.

En MATH-500, DeepSeek-R1 lidera con un impresionante 97,3 %, superando ligeramente el 96,4 % de OpenAI o1-1217. Esta prueba de rendimiento prueba los modelos en diversos problemas matemáticos de nivel de enseñanza secundaria que requieren razonamiento detallado.

Pruebas de rendimiento de programación: Codeforces y SWE-bench Verified

La prueba de rendimiento Codeforces evalúa las capacidades de programación y razonamiento algorítmico de un modelo, representadas como rango percentil frente a participantes humanos. OpenAI o1-1217 lidera con un 96,6 %, mientras que DeepSeek-R1 alcanza un muy competitivo 96,3 %, con una diferencia mínima.

La prueba de rendimiento SWE-bench Verified evalúa el razonamiento en tareas de ingeniería de software. DeepSeek-R1 obtiene buenos resultados, con una puntuación del 49,2 %, ligeramente por delante del 48,9 % de OpenAI o1-1217. Este resultado posiciona a DeepSeek-R1 como un fuerte competidor en tareas de razonamiento especializado como la verificación de software.

Pruebas de rendimiento de cultura general: GPQA Diamond y MMLU

Para el razonamiento factual, el GPQA Diamond mide la capacidad de responder a preguntas de cultura general. DeepSeek-R1 obtiene una puntuación del 71,5 %, muy cerca del 75,7 % de OpenAI o1-1217. Este resultado destaca la ligera ventaja de OpenAI o1-1217 en tareas de razonamiento factual.

En MMLU, prueba de rendimiento que analiza diferentes disciplinas y evalúa la comprensión del lenguaje multitarea, OpenAI o1-1217 derrota por muy poco a DeepSeek-R1, con una puntuación del 91,8 % frente al 90,8 % de DeepSeek-R1.

Conclusión

DeepSeek-R1 es un fuerte competidor en la IA centrada en el razonamiento, con un rendimiento al mismo nivel que o1 de OpenAI. Aunque o1 de OpenAI puede tener una ligera ventaja en programación y razonamiento factual, creo que la naturaleza de código abierto y el rentable acceso de DeepSeek-R1 lo convierten en una opción atractiva.

Mientras OpenAI se prepara para lanzar o3, estoy deseando ver cómo esta creciente competencia da forma al futuro de los modelos de razonamiento. Por ahora, DeepSeek-R1 es una alternativa convincente.

Preguntas frecuentes

¿Cómo gestiona DeepSeek-R1 las consultas multilingües?

DeepSeek-R1 está optimizado para inglés y chino, pero su rendimiento puede disminuir en consultas realizadas en otros idiomas. Algunos resultados pueden mezclar inglés y chino, sobre todo en tareas de razonamiento. Se espera que las futuras actualizaciones solucionen esta limitación.

¿Se puede aplicar ajuste fino a DeepSeek-R1 para tareas o sectores específicos?

Sí, como modelo de código abierto, se puede aplicar ajuste fino a DeepSeek-R1 para tareas específicas, siempre que dispongas de los recursos computacionales y los datos necesarios. Esta flexibilidad lo hace especialmente atractivo para los investigadores y las organizaciones que necesitan aplicaciones de dominios específicos.

¿Existen límites para la longitud de los resultados de DeepSeek-R1?

Sí, los límites de los tokens de resultado de DeepSeek-R1 varían en función del método de acceso. Por ejemplo, el modelo deepseek-reasoner de la API admite una ventana máxima de resultado de 8000 tokens, que incluye los pasos de razonamiento (cadena de pensamiento) y la respuesta final.

¿Qué tipo de hardware se necesita para ejecutar DeepSeek-R1 localmente?

Para ejecutar DeepSeek-R1 o sus modelos destilados localmente se necesitan TPU o GPU de alto rendimiento, sobre todo en el caso de los modelos de mayor tamaño, como DeepSeek-R1-Distill-Llama-70B. Las versiones destiladas de menor tamaño, como Qwen-1.5B, son más viables para sistemas con recursos limitados.

¿Cómo funciona el almacenamiento de contexto en caché en la API de DeepSeek, y cuánto puede guardar?

El almacenamiento de contexto en caché almacena tokens de entrada repetidos para reducir costes. Por ejemplo, si reutilizas entradas en conversaciones de varios turnos, el sistema recupera estos tokens de la memoria caché a un precio significativamente menor. Esta característica es especialmente beneficiosa para flujos de trabajo con consultas repetitivas.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Jota de todos los oficios, maestra de Python, marketing y estrategia de contenidos, SEO, edición, redacción. Técnico: escribí cursos sobre Python, estadística y probabilidad. Pero también publiqué una novela premiada. Edición de vídeo y etalonaje en DaVinci.

Temas

Aprende IA con estos cursos

curso

Working with the OpenAI API

3 hr
33.8K
Start your journey developing AI-powered applications with the OpenAI API. Learn about the functionality that underpins popular AI applications like ChatGPT.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.
Ryan Ong's photo

Ryan Ong

8 min

blog

¿Qué es Sora de OpenAI? Cómo funciona, Ejemplos, Características

Descubre Sora de OpenAI a través de vídeos de ejemplo y explora sus funciones, como Remix, Re-cut, Loop, Storyboard, Blend y Style Preset.
Richie Cotton's photo

Richie Cotton

8 min

blog

Todo lo que sabemos sobre GPT-5

Predecir cómo podría ser la próxima evolución de la tecnología de IA de OpenAI y qué avances podría tener el modelo GPT-5.
Josep Ferrer's photo

Josep Ferrer

10 min

tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

8 min

tutorial

Tutorial de la API de OpenAI Assistants

Una visión completa de la API Assistants con nuestro artículo, que ofrece una mirada en profundidad a sus características, usos en la industria, guía de configuración y las mejores prácticas para maximizar su potencial en diversas aplicaciones empresariales.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Aprende a realizar la validación de datos y modelos para garantizar un sólido rendimiento del aprendizaje automático utilizando nuestra guía paso a paso para automatizar las pruebas con DeepChecks.
Abid Ali Awan's photo

Abid Ali Awan

12 min

Ver másVer más