Grok 4: Pruebas, características, comparativas, acceso y mucho más

Descubre lo que Grok 4 y Grok 4 Heavy pueden (y no pueden) hacer a través de pruebas y comparativas reales, todo ello en una descripción general fundamentada y sin exageraciones.

Actualizado 10 jul 2025 · 8 min leer

Después de esperar meses por Grok 3.5, xAI lo omitió por completo y pasó directamente a Grok 4.

¿El salto está justificado por el rendimiento del modelo?

Sí, si te basas en los puntos de referencia. En este momento, Grok 4 es probablemente el mejor modelo del mundo sobre el papel.

Sin embargo, con una ventana de contexto de 128 000 en la aplicación y 256 000 en la API, es posible que tengas dificultades en el trabajo real de producción. No es tan tolerante como Gemini 2.5 Pro, que te da un millón de tokens. Si deseas utilizar Grok 4 para algo más que una breve charla, necesitarás una habilidades de ingeniería de contexto para que funcione.

En este blog, dejaré de lado las exageraciones habituales y te ofreceré una visión general equilibrada, explicando las principales fortalezas y debilidades de Grok 4, junto con los resultados que obtuvo en mis propias pruebas.

Mantenemos a nuestros lectores al día sobre las últimas novedades en IA mediante el envío de The Median, nuestro boletín informativo gratuito de los viernes que resume las noticias más importantes de la semana. Suscríbete y mantente al día en solo unos minutos a la semana:

Grok 4

La familia Grok 4 solo incluye Grok 4 y Grok 4 Heavy, y no hay ninguna versión mini que podamos utilizar para un razonamiento rápido.

Grok 4 es el último modelo de agente único de xAI (a diferencia de Grok 4 Heavy, que utiliza varios agentes, lo veremos en la siguiente sección). Basado en la transmisión en directo, no hay nada especialmente innovador en términos de ingeniería. Las mejoras parecen provenir de una serie de pequeños ajustes y un aumento significativo de la potencia de cálculo, aproximadamente 10 veces más que la utilizada para Grok 3.

Fuente: xAI

La empresa afirma que es el modelo más inteligente disponible en la actualidad, y los resultados de las pruebas comparativas apuntan en esa dirección. El resultado más notable proviene de Humanity’s Last Exam, una prueba de referencia compuesta por 2500 preguntas seleccionadas a mano, de nivel de doctorado, que abarcan matemáticas, física, química, lingüística e ingeniería. Grok 4 (con herramientas) logró resolver alrededor del 38,6 % de los problemas.

Fuente: xAI

La ventana de contexto tiene 128 000 tokens en la aplicación y 256 000 en la API, lo que ofrece cierto margen para razonamientos largos, pero no es especialmente generoso según los estándares actuales. Gemini 2.5 Pro, por ejemplo, ofrece 1 millón. Si estás creando con Grok, probablemente necesitarás dedicar tiempo a estructurar y depurar tu contexto con cuidado.

Para que quede claro, Grok 4 no es el modelo ideal para preguntas cotidianas como «¿Va a llover este fin de semana?» o «Búscame un concierto cerca». Es mejor que utilices Grok 3 para eso, es más rápido y está diseñado para tareas generales. Grok 4 es más adecuado para la investigación, las indicaciones técnicas y las preguntas difíciles en matemáticas, ciencias, finanzas o flujos de trabajo de programadores que se basan en el razonamiento puro.

No está tan claro cómo funciona en flujos de trabajo de consumo más amplios ni cómo gestiona la seguridad a gran escala. Pero xAI afirma que ya se está utilizando en laboratorios biomédicos, empresas financieras y socios empresariales pioneros.

Grok 4 Pesado

Grok 4 Heavy es la versión multiagente de Grok 4. En lugar de ejecutar un único modelo, pone en marcha varios agentes en paralelo, cada uno de los cuales trabaja de forma independiente en la misma tarea. Una vez generados los resultados, los comparan y llegan a una respuesta conjunta.

En teoría, es similar a un grupo de estudio: los agentes pueden compartir conocimientos o detectar los puntos débiles de los demás. En la práctica, esta configuración ayuda con tareas de razonamiento complejo en las que una sola pasada podría resultar insuficiente.

Las ganancias son visibles en los índices de referencia. En el último examen de la humanidad, Grok 4 Heavy, con uso de herramientas, obtuvo una puntuación del 44,4 %, superando al agente único Grok 4 por un margen notable. La arquitectura también parecía ayudar con ARC-AGI, donde Grok 4 fue el primer modelo en superar el 10 % y alcanzar el 15,9 %, aunque no está claro en qué medida ese resultado se debió específicamente a la configuración multiagente.

Fuente: xAI

La contrapartida es la velocidad y el coste. Grok 4 Heavy funciona más lento (¡mucho más lento!) y su funcionamiento es diez veces más caro: xAI ofrece acceso a través de un plan SuperGrok Heavy de 300 dólares al mes.

Una vez más, Grok 4 Heavy no es algo que querrás utilizar para búsquedas básicas o iteraciones rápidas. Si Grok 4 ya es un producto nicho, Grok 4 Heavy lo es aún más. Está diseñado para el tipo de problemas en los que múltiples vías de razonamiento pueden conducir a mejores resultados, como la investigación científica, la modelización financiera o cualquier otra actividad que implique una planificación a largo plazo. Sin embargo, para la mayoría de los casos de uso, es excesivo.

Probando Grok 4

A menudo pruebo nuevos modelos, por lo que suelo reutilizar algunas tareas estándar para compararlas. Haré lo mismo aquí, centrándome en las matemáticas y la programación. Esto no pretende ser una evaluación exhaustiva de Grok, sino solo una forma de hacerse una idea de cómo se comporta en una configuración de chat típica.

Matemáticas

Quiero empezar con un cálculo sencillo: 9.11 - 9.9. Puede que te parezca una tontería, pero a menudo confunde a los modelos lingüísticos:Claude Sonnet 4, por ejemplo, lo entendió mal. Obviamente, podría usar una calculadora, pero el objetivo aquí es ver cómo el modelo aborda el problema y si puede recurrir a herramientas si es necesario o resolverlo directamente mediante un razonamiento en cadena.

Veamos cómo respondió Grok 4:

Respondió correctamente al primer intento. Encontró la respuesta mediante un razonamiento lógico y también utilizó una herramienta de código para confirmarla (¡lo cual es genial!).

Sin embargo, tardó 31 segundos en responder y el resultado fue demasiado largo para una pregunta tan sencilla.

A continuación, quise probar Grok 4 con un problema matemático más complejo que normalmente puede saturar la ventana de contexto de un modelo:

Mensaje: Utiliza todos los dígitos del 0 al 9 exactamente una vez para formar tres números x, y, z tales que x + y = z.

Grok 4 abordó el problema de forma inteligente. En primer lugar, se dio cuenta de que podía generar las 3.628.800 permutaciones de los números del 0 al 9 en solo unos segundos utilizando Python. A continuación, probó una configuración con dos números de tres dígitos cuya suma daba un número de cuatro dígitos, y obtuvo un código que devolvía 96 soluciones válidas.

from itertools import permutations

digits = range(10)

solutions = []

for p in permutations(digits):
    x_digits = p[0:3]
    if x_digits[0] == 0: continue
    y_digits = p[3:6]
    if y_digits[0] == 0: continue
    z_digits = p[6:10]
    if z_digits[0] == 0: continue
    x = int(''.join(map(str, x_digits)))
    y = int(''.join(map(str, y_digits)))
    z = int(''.join(map(str, z_digits)))
    if x + y == z:
        solutions.append((x, y, z))

print(solutions)

A continuación, probó otras combinaciones (como 4 dígitos más 2 dígitos que sumaran un número de 4 dígitos) utilizando el mismo enfoque. Al final, buscó en Internet para encontrar más información sobre este rompecabezas matemático y confirmar su respuesta. Se tardó un total de 157 segundos en dar esta respuesta:

Codificación

Para la tarea de codificación, quería ver cómo se compara con Gemini 2.5 Pro y Claude Opus 4 en esta tarea:

Mensaje: Hazme un juego de carreras infinitas cautivador. Instrucciones clave en la pantalla. Escena p5.js, sin HTML. Me gustan los dinosaurios pixelados y los fondos interesantes.

Este es el resultado:

¡Muy bien!

Multimodal de contexto largo

Por último, quería ver cómo se desenvuelve Grok 4 en tareas multimodales con contextos largos. He subido un PDF con el informe de la Comisión Europea titulado « Informe sobre las perspectivas de la IA generativa (43 087 tokens) y le he pedido a Grok que:

: Analiza todo este informe e identifica los tres gráficos más informativos. Resume cada uno y dime en qué página del PDF aparecen.

Veamos primero la respuesta y luego la analizaremos:

Una cosa que noté es que se detuvo sorprendentemente rápido, después de solo 25 segundos. Recomendó gráficos de las páginas 19, 20 y 44 (erróneamente) y pareció ignorar el resto del documento de 167 páginas una vez que encontró lo que parecía una respuesta satisfactoria. La cadena de pensamientos parece incompleta y apunta a un enfoque bastante superficial:

Ahora, pasemos a los resultados:

Se equivocaron todos los números de página.
No podía identificar claramente el tipo de gráficos, diciendo cosas como «este gráfico de líneas o barras».
Sus respuestas se centraron en las primeras 50 páginas y es muy probable que se saltara secciones importantes al final del informe.
Clasificó erróneamente un diagrama de Sankey (Figura 6) como «gráfico circular o de barras».
Confundió la figura 6 con la figura 7 y terminó analizando la figura 7.

Como señaló Elon Musk en la retransmisión en directo, la comprensión y generación de imágenes de Grok 4 aún no es muy avanzada. Si deseas resultados constantes y fiables, creo que es justo decir que Grok 4 es un modelo solo de texto por el momento.

Pruebas de rendimiento de Grok 4

La principal característica por la que destaca Grok 4 es su rendimiento en una amplia variedad de pruebas de rendimiento, desde exámenes académicos hasta simulaciones empresariales. Según xAI, el modelo mejora significativamente con respecto a versiones anteriores gracias principalmente a una mayor capacidad de cálculo, tanto durante el entrenamiento como durante la inferencia, y no necesariamente a nuevos avances arquitectónicos.

El último examen de la humanidad (HLE)

El patrón central detrás del rendimiento de Grok 4 es la escalabilidad. Se beneficia de más capacidad de computación para entrenamiento y, lo que es más interesante, de máscomputación e e en tiempo de prueba. En términos sencillos: cuantos más recursos le dediques, mejor funcionará. Esto queda especialmente claro en su rendimiento en las tareasdel Examen Final de la Humanidad (HLE, por sus siglas en inglés) de .

Fuente: xAI

Sin utilizar herramientas, Grok 4 se estanca en torno al 26,9 % de precisión e. Con las herramientas habilitadas (por ejemplo, ejecución de código), alcanza 41.0%. Y cuando se ejecuta en su configuración multiagente «Heavy», alcanza un 50,7 %,lo que supone un gran salto que duplica con creces las mejores puntuaciones obtenidas anteriormente sin herramientas.

Puntos de referencia académicos y STEM

Grok 4 también obtiene buenos resultados en evaluaciones más tradicionales centradas en STEM, muchas de las cuales se utilizan en todo el sector para comparar LLM de alto rendimiento. Lo más destacado incluye:

Punto de referencia	Modelos competidores principales	Grok 4 (sin herramientas)	Grok 4 Pesado
GPQA	79,6-86,4 %	87,5	88,9 %
AIME25	75,5-98,8 %	91,7 %	100,0 %
LCB (enero-mayo)	72,0-74,2 %	79,0	79,4
HMMT25	58,3-82,5 %	90,0 %	96,7 %
USAMO25	21,7-49,4 %	37,5 %	61,9

Son resultados sólidos. Grok 4 está superando a Claude Opus, Gemini 2.5 Pro y GPT-4 (o3) en la mayoría de las categorías, aunque algunos usuarios han señalado que las comparaciones pueden incluir una selección selectiva de las puntuaciones de referencia de los modelos de la competencia.

Fuente: xAI

ARC-AGI (razonamiento avanzado)

Uno de los puntos de referencia más difíciles y opacos es ARC-AGI, que evalúa la capacidad de un modelo para generalizar en tareas de razonamiento abstracto. En ARC-AGI v1, Grok 4 obtiene una puntuación del 66,6 %, por delante de todos sus competidores conocidos. Enun ARC-AGI v2 de , obtiene una puntuación del 15,9 %, frente al 8,6 % de Claude 4 Opus.

Estas pruebas no son totalmente públicas, por lo que se aplican las advertencias habituales. Pero si las cifras se mantienen, Grok 4 está demostrando un gran rendimiento en tareas de razonamiento de varios pasos y con gran carga lógica.

Vending-Bench (simulación empresarial)

xAI también probó Grok 4 en una simulación del mundo real llamada Vending-Bench. La idea es ver si un modelo puede gestionar una pequeña empresa a lo largo del tiempo: reponer existencias, ajustar precios, contactar con proveedores, etc. Es un punto de referencia bastante nuevo y sorprendentemente divertido. Anteriormente explicamos cómo funciona en detalle a través de un caso práctico de Claude Sonnet 3.7 en nuestro boletín semanal. The Median.

Resultados (promedio de cinco ejecuciones):

Rango	Modelo	Patrimonio neto	Unidades vendidas
1	Grok 4	$4,694	4.569
2	Claude Opus 4	$2,077	1.412
3	Referencia humana	844 $	344
4	Gemini 2.5 Pro	$ 789	356
5	GPT-4 (o3)	$1,843	1.363

Grok 4 duplicó con creces el rendimiento de su competidor más cercano tanto en ingresos como en escala. Además, mantuvo un rendimiento constante durante 300 rondas de simulación, algo con lo que muchos modelos tienen dificultades cuando se enfrentan a una planificación a largo plazo.

Fuente: xAI

En resumen: Grok 4 funciona bien en las pruebas realizadas por xAI. Pero, como siempre, no hay que fijarse solo en la clasificación. Los puntos de referencia son prometedores, pero no lo dicen todo, especialmente si tu caso de uso depende de la visión, la generación de código o la interacción en tiempo real en entornos complejos.

Cómo acceder a Grok 4

Grok 4 ya está disponible a través de tres puntos de acceso principales: la aplicación X, la API xAI y plataforma grok.com. Tanto si deseas chatear con el modelo, construir con él o probar sus capacidades de razonamiento de forma más formal, aquí te explicamos cómo empezar.

Acceso al chat (a través de X)

La forma más fácil de probar Grok 4 es a través de la aplicación X (antes Twitter). Esto te da acceso a Grok dentro de una interfaz de chat, similar a ChatGPT o Claude.

Para utilizarlo:

Suscríbete a X Premium+, el plan de mayor nivel.
Abre la aplicación X (o visita x.com).
Toca el icono de Grok (en la barra de navegación inferior en dispositivos móviles y en la barra lateral en ordenadores de escritorio).
Empieza a chatear. Grok 4 es el modelo predeterminado, pero puedes cambiar entre versiones.

Acceso directo a través de Grok.com

También puedes utilizar Grok 4 directamente a través de grok.com, que ofrece una interfaz más limpia e independiente fuera de la plataforma X. Está dirigido a usuarios que prefieren una configuración sin distracciones.

Visita https://grok.com
Regístrate e inicia sesión.
Accede a Grok 4 en una interfaz de chat, con soporte para herramientas, código y contexto extenso.

API Grok 4

Si deseas integrar Grok en tu propia aplicación o flujo de trabajo, puedes utilizar la API de xAI.

Pasos:

Ir a https://x.ai/api y solicita acceso como programador.
Una vez aprobada, recibirás una clave API y acceso a la documentación.
Asegúrate de leer detenidamente la documentación para obtener más detalles.

¿Qué vendrá después de Grok 4?

Con el lanzamiento de Grok 4, xAI ha trazado una hoja de ruta clara (y ambiciosa) para el resto de 2025. Según el calendario mostrado durante la retransmisión en directo, hay cuatro lanzamientos importantes previstos para los próximos tres meses: un modelo de codificación en agosto, un agente multimodal en septiembre y un modelo de generación de vídeo en octubre.

Fuente: xAI

Agosto: Modelo de codificación especializado

El primer seguimiento es un modelo centrado en la codificación que se espera para agosto. A diferencia de Grok 4, que es un modelo generalista, este será un modelo especializado diseñado para manejar código con mayor velocidad y precisión. xAI lo describió como «rápido e inteligente», entrenado específicamente para mejorar tanto la latencia como el razonamiento en los flujos de trabajo de desarrollo de software.

Septiembre: Agente multimodal

En septiembre, el plan es lanzar un agente verdaderamente multimodal. En este momento, Grok 4 admite técnicamente entradas de imágenes y vídeo, pero su comprensión es limitada: durante la retransmisión en directo, el equipo lo describió como «mirar a través de un cristal esmerilado».

La próxima versión pretende corregir eso, dotando al modelo de una percepción más sólida en imágenes, vídeos y audio. Esto será clave para casos de uso que vayan más allá del texto: piensa en la robótica, los videojuegos, el control de calidad de vídeos o el seguimiento de instrucciones visuales.

Octubre: Modelo de generación de vídeo

El lanzamiento final en la línea temporal actual es un modelo de generación de vídeo previsto para octubre. xAI afirma que lo entrenará en más de 100 000 GPU. Según tus comentarios, este sistema tendrá como objetivo producir contenido de vídeo de alta calidad, interactivo y editable.

Conclusión

Grok 4 supone un importante paso adelante para xAI. Supera a sus competidores en varias pruebas de referencia de alta dificultad, obtiene buenos resultados en evaluaciones matemáticas y científicas estructuradas e introduce un sistema multiagente (Grok 4 Heavy) que resulta prometedor para entornos de investigación y pensamiento a largo plazo.

Dicho esto, no es tu asistente general para el día a día. Es más lento que Grok 3, su comprensión de imágenes y vídeos aún se encuentra en una fase inicial y le falta pulir algunos aspectos relacionados con la usabilidad cotidiana. Deberás indicar cuidadosamente y recortar tus entradas debido a la ventana de contexto relativamente limitada. Y si quieres obtener el mejor rendimiento, a través de Grok 4 Heavy, tendrás que pagar un precio más elevado.

Para programadores e investigadores, vale la pena explorarlo. Para usuarios ocasionales, la velocidad y capacidad de respuesta de Grok 3 u otros modelos convencionales son más adecuados. La hoja de ruta es ambiciosa, con un modelo de codificación, un agente multimodal y un generador de vídeo, todo ello previsto para octubre. Que xAI pueda cumplir con los plazos es otra cuestión. Pero con Grok 4, al menos han demostrado de forma convincente que están en la carrera.

¿Cuál es la diferencia entre Grok 4 y Grok 4 Heavy?

¿Qué tareas son adecuadas para Grok 4 Heavy?

¿En qué se diferencia Grok 4 de Grok 3?

¿Grok 4 admite entradas multimodales como imágenes y vídeos?

¿Cuánto cuesta Grok 4 Heavy?

Introducción a los agentes de IA

Aprende los fundamentos de los agentes de IA, sus componentes y su uso en el mundo real, sin necesidad de programar.

Explora el curso

Author

Alex Olteanu

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

¡Aprende IA con estos cursos!

Curso

Creación de agentes de IA con Google ADK

1 h

6.5K

Crea un asistente de atención al cliente paso a paso con el kit de desarrollo de agentes (ADK) de Google.

Ver detalles

Iniciar curso

Curso

Introducción a los agentes de IA

1 h 30 min

107.7K

Aprende los fundamentos de los agentes de IA, sus componentes y usos reales, sin necesidad de programar.

Ver detalles

Iniciar curso

Curso

Sistemas multiagente con LangGraph

2 h 45 min

6.5K

Crea potentes sistemas multiagente aplicando patrones de diseño agentico emergentes en el marco LangGraph.

Ver detalles

Iniciar curso

Relacionado

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.

Abid Ali Awan

9 min

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.

Abid Ali Awan

9 min

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.

Arunn Thevapalan

Tutorial

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Aprende a realizar la validación de datos y modelos para garantizar un sólido rendimiento del aprendizaje automático utilizando nuestra guía paso a paso para automatizar las pruebas con DeepChecks.

Abid Ali Awan

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.

Moez Ali

Ver más Ver más

Grok 4

Grok 4 Pesado

Probando Grok 4

Matemáticas

Codificación

Multimodal de contexto largo

Pruebas de rendimiento de Grok 4

El último examen de la humanidad (HLE)

Puntos de referencia académicos y STEM

ARC-AGI (razonamiento avanzado)

Vending-Bench (simulación empresarial)

Cómo acceder a Grok 4

Acceso al chat (a través de X)

Acceso directo a través de Grok.com

API Grok 4

¿Qué vendrá después de Grok 4?

Agosto: Modelo de codificación especializado

Septiembre: Agente multimodal

Octubre: Modelo de generación de vídeo

Conclusión

Preguntas frecuentes

¿En qué se diferencia Grok 4 de Grok 3?

¿Grok 4 admite entradas multimodales como imágenes y vídeos?

¿Cuánto cuesta Grok 4 Heavy?

Introducción a los agentes de IA

¿Qué es GPT-4 y por qué es importante?

12 alternativas de código abierto a GPT-4

Visión GPT-4: Guía completa para principiantes

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Creación de agentes de IA con Google ADK

Introducción a los agentes de IA

Sistemas multiagente con LangGraph

¿Qué es GPT-4 y por qué es importante?

12 alternativas de código abierto a GPT-4

Visión GPT-4: Guía completa para principiantes

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Creación de agentes de IA con Google ADK