Programa
Tras lanzar una oferta para comprar OpenAI la semana pasada, Elon Musk lanzó Grok 3 a través de su empresa, xAI, calificándola de "la IA más potente del mundo en este momento". Si los puntos de referencia de la demostración en vivo se mantienen, puede que tenga razón.
Grok 3 entra en el creciente campo de los modelos de razonamiento, compitiendo con o1 de OpenAI y R1 de DeepSeek. A diferencia de los modelos de uso general, como ChatGPT, que generan respuestas sin más, los modelos de razonamiento muestran su proceso de pensamiento, desglosando los problemas paso a paso antes de llegar a una conclusión.
Sin embargo, parece que xAI está posicionando Grok 3 tanto como un modelo de razonamiento como una IA generalista. Con el modo Pensar desactivado (hablaremos de ello más adelante), funciona como un GPT-4o o un Sonnet Claude 3.5: rápido, conversacional y diseñado para tareas generales. Pero activar el modo Pensar lo transforma en un modelo de razonamiento.
Si no tuviste tiempo de asistir a la demostración en directo de Grok 3, de una hora de duración, no te preocupes: yo me ocuparé de todo y te explicaré lo esencial.
Perfeccionamiento en IA para principiantes
¿Qué es Grok 3?
Grok 3 es el último modelo de IA de xAI, posicionado como competidor directo del o1 de OpenAI y del R1 de DeepSeek. El equipo de xAI afirma que es entre 10 y 15 veces más potente que Grok 2 y, según los puntos de referencia presentados en la demostración, podría competir con los mejores modelos del mercado.
Fuente: xAI
¿En qué se diferencian los modelos de razonamiento?
Si has utilizado ChatGPT, Claude o Gemini, estarás familiarizado con el funcionamiento de la mayoría de los modelos de IA: haces una pregunta, ellos generan una respuesta y ya está.
Los modelos de razonamiento como Grok 3 adoptan un enfoque diferente. En lugar de escupir una respuesta inmediatamente, desglosan los problemas paso a paso, muestran sus pensamientos intermedios, e incluso refinan sus resultados antes de presentar una respuesta final. Esto las hace especialmente potentes para tareas como las matemáticas, la codificación y la resolución de problemas del mundo real.
Fuente: xAI
Grok 3 Mini
No todas las tareas requieren el razonamiento a gran escala de Grok 3. Grok 3 mini está optimizado para ser más rápido y utilizar menos recursos informáticos, pero conserva las capacidades de razonamiento de Grok 3.
Grok 3 mini puede ser especialmente útil para los desarrolladores que quieran optimizar su gasto en el uso de tokens mientras utilizan la API.
También podríamos cambiar a Grok 3 Mini para obtener una respuesta más rápida en la interfaz del chat. Según los puntos de referencia, no habrá muchas preguntas que no pueda resolver.
Grok 3 Modo Pensar
El modo Pensar es un ajuste opcional que activa el proceso de razonamiento en varios pasos de Grok 3. En lugar de saltar directamente a una respuesta, divide los problemas en pasos más pequeños, evalúa diferentes soluciones y refina su respuesta antes de emitir un resultado final.
Este modo es especialmente útil para resolver problemas complejos, pruebas matemáticas, retos de codificación y tareas basadas en la lógica. Imita el pensamiento estructurado similar al humano, por lo que es ideal para situaciones en las que la calidad del razonamiento importa más que la velocidad.
Por lo que veo, xAI está posicionando Grok 3 como un modelo de razonamiento y un modelo generalista. Cuando el modo Pensar está desactivado, se comporta más como GPT-4o o Claude 3.5 Sonnet-rápido, conversacional y optimizado para uso general. Pero cuando se activa el modo Pensar, pasa al modo Razonar, descomponiendo los problemas complejos paso a paso.
Este enfoque híbrido queda aún más claro al observar las pruebas de rendimiento. xAI no se limitó a comparar Grok 3 con modelos de razonamiento como O1 de OpenAI o DeepSeek R1, sino que también lo probó con modelos generalistas como GPT-4o, DeepSeek-V3 y Claude 3.5 Sonnet. Esto sugiere que quieren que compita en ambas categorías, en lugar de limitarse a una sola.
Fuente: xAI
Grok 3 Modo Gran Cerebro
El modo Gran Cerebro es la configuración de alto rendimiento de Grok 3, que asigna recursos informáticos adicionales para manejar tareas exigentes.
Cuando está activado, Grok 3 tarda más en procesar las consultas, pero ofrece mayor precisión, información más profunda y respuestas más detalladas. Este modo es especialmente útil para la investigación científica, las tareas de IA de varios niveles y los escenarios de resolución de problemas muy complejos, en los que la inferencia estándar puede no ser suficiente.
Grok 3 Búsqueda Profunda
DeepSearch es la herramienta de investigación integrada de xAI, que permite a Grok 3 navegar por la web, verificar fuentes y sintetizar información en tiempo real antes de generar una respuesta.
A diferencia de los modelos de IA estándar que se basan en datos preentrenados, DeepSearch extrae información fresca, lo que lo hace ideal para noticias, tendencias de mercado, investigación técnica y comprobación de hechos. Este modo posiciona a Grok 3 como competidor de Deep Research de Gemini y Investigación Profunda de OpenAI.
Fuente: xAI
¿Cómo se desarrolló Grok 3?
Grok 3 se basa en importantes mejoras de la infraestructura, nuevas técnicas de formación y un enorme aumento de la potencia de cálculo. A diferencia de sus predecesores, que se entrenaban en hardware relativamente limitado, xAI ha construido ahora uno de los mayores clusters de entrenamiento de IA del mundo para apoyar el desarrollo de Grok 3.
Fuente: xAI
Colossus: el superordenador personalizado de xAI
Uno de los mayores retos a la hora de entrenar modelos de IA a gran escala es la disponibilidad informática. Para evitarlo, xAI construyó su propio clúster de superordenadores llamado Colossus (puedes ver el almacén en la imagen de arriba).
La primera fase, completada en sólo 122 días, desplegó 100.000 GPU H100, lo que la convirtió en uno de los mayores clusters de entrenamiento de IA del mundo.
En la segunda fase, xAI duplicó la capacidad de cálculo en otros 92 días. Esta infraestructura permite la formación continua, lo que significa que Grok 3 sigue mejorando en tiempo real a medida que más usuarios interactúan con él.
De Grok 0 a Grok 3
Grok 1 salió a la venta en noviembre de 2023 y, aunque tenía personalidad, no se acercaba ni de lejos al nivel de GPT-4o o Claude 3.5 Sonnet. El Grok 2 le siguió unos meses más tarde, mostrando importantes mejoras, pero seguía estando por detrás de los modelos superiores.
Fuente: xAI
Sin embargo, Grok 3 supone un salto mucho mayor. El equipo afirma que Grok 3 es entre 10 y 15 veces más potente que Grok 2, gracias tanto a las mejoras del modelo como a un aumento espectacular del cálculo de entrenamiento.
Puntos de referencia de Grok 3
xAI afirma que Grok 3 es uno de los modelos de IA más potentes hasta la fecha, y los puntos de referencia de su demostración en directo sugieren que podría competir con los mejores. Vamos a desglosar los resultados en matemáticas, ciencias y codificación para ver cómo se compara con GPT-4o, Claude 3.5 Sonnet, Gemini-2 Pro y DeepSeek-V3, así como con otros modelos de razonamiento como O1 y DeepSeek-R1.
Rendimiento frente a modelos generalistas
El primer conjunto de pruebas comparativas compara Grok 3 y Grok 3 Mini con otros modelos de uso general.
Fuente: xAI
Grok 3 es líder en todas las categorías por un amplio margen, pero las matemáticas, las ciencias y la codificación representan sólo una fracción de los casos de uso del modelo generalista: la gente también confía en él para escribir, analizar informes, prestar atención al cliente y mucho más.
Sería interesante ver cómo se comporta Grok 3 en pruebas de referencia como MMLU (conocimientos amplios sobre 57 temas), BBH (razonamiento complejo y resolución de problemas abstractos) o TruthfulQA (precisión al responder a preguntas ambiguas o controvertidas) para tener una idea más completa de sus capacidades en el mundo real.
Rendimiento frente a los modelos de razonamiento
Cuando se aprovechan al máximo las capacidades de razonamiento de Grok 3 -es decir, cuando se activan los modos Pensar y Gran Cerebro- el rendimiento del modelo aumenta considerablemente. Este segundo conjunto de pruebas comparativas compara Grok 3 Reasoning Beta y Grok 3 mini Reasoning con otros modelos de razonamiento avanzado, incluidos O1, DeepSeek-R1 y Gemini-2 Pensamiento Flash.
Fuente: xAI
Las capacidades de razonamiento de Grok 3 elevan su rendimiento matemático a 93-96, un salto enorme respecto a su modo generalista (52).
Las puntuaciones en ciencias y codificación también mejoran significativamente, superando a o1, DeepSeek-R1 y Gemini-2 Flash Thinking.
El Grok 3 mini Razonamiento rinde a la par que el Grok 3 completo en tareas de razonamiento (o incluso mejor; tengo que admitir que el gráfico es un poco confuso con esas capas de color), lo que significa que incluso la variante más pequeña sigue siendo competitiva en la resolución de problemas complejos.
¿Cómo acceder a Grok 3?
xAI está desplegando Grok 3 gradualmente, y se espera una mayor disponibilidad en los próximos meses. Podremos utilizar Grok 3 en una interfaz basada en chat y a través de la API.
Interfaz basada en el chat
El modelo está actualmente integrado en X (antes Twitter) y disponible para los suscriptores Premium+. Los usuarios pueden chatear con él directamente dentro de la plataforma, como en las versiones anteriores de Grok. Puedes encontrar el botón Grok en el menú de la izquierda:
Más allá de X, se ha lanzado xAI grok.comuna interfaz web independiente en la que los usuarios pueden interactuar con el modelo fuera de la plataforma de las redes sociales. El acceso a Grok a través de este sitio web aún no está disponible en la UE y el Reino Unido.
También hay una aplicación móvil específicapero sólo está disponible para iOS.
API Grok 3
En el momento de la publicación de este artículo, Grok 3 aún no se ha publicado a través de la API, pero es probable que esté disponible en breve. Echa un vistazo a la página de modelos para las últimas actualizaciones.
Conclusión
Grok 3 es fácilmente el lanzamiento más ambicioso de xAI hasta la fecha, pero estoy esperando a ver cómo se mantiene fuera de sus propios puntos de referencia de demostración. Ahora mismo, parece un modelo de razonamiento sólido, que compite con OpenAI y DeepSeek en la resolución de problemas en varios pasos.
El enfoque híbrido -en el que puede alternar entre respuestas rápidas y conversacionales y un razonamiento más profundo con el modo Pensar- tiene sentido sobre el papel. Pero me gustaría ver hasta qué punto se generaliza realmente más allá de las matemáticas, la codificación y la ciencia, especialmente en tareas como la escritura, el resumen y la investigación en el mundo real.
Preguntas frecuentes
¿Qué desarrollos futuros están previstos para Grok 3?
xAI ha anunciado planes para introducir una función de voz sintetizada en Grok 3, mejorando su interactividad. Además, está previsto que Grok-2 sea de código abierto en los próximos meses. Estos desarrollos pretenden ampliar las capacidades y la accesibilidad de Grok 3.
¿Existe alguna restricción geográfica para acceder a Grok 3?
Actualmente, el acceso a Grok 3 a través de grok.com no está disponible en la Unión Europea ni en el Reino Unido. Los usuarios de estas regiones pueden encontrarse con restricciones y deben comprobar si hay actualizaciones sobre la disponibilidad.
¿Cuáles son las opciones de suscripción para acceder a Grok 3?
Grok 3 está disponible a través de diferentes niveles de suscripción. En la plataforma X (antes Twitter), es accesible para los suscriptores Premium+. Además, xAI ofrece una interfaz web independiente y una aplicación móvil dedicada con un nivel de suscripción SuperGrok, que proporciona funciones avanzadas. Por ahora, no hay ninguna API pública disponible para Grok 3.
¿Grok 3 es capaz de manejar entradas multimodales?
Sí, Grok 3 admite capacidades multimodales, incluida la comprensión y generación de imágenes.