Ir al contenido principal

Grok 4: Pruebas, características, comparativas, acceso y mucho más

Descubre lo que Grok 4 y Grok 4 Heavy pueden (y no pueden) hacer a través de pruebas y comparativas reales, todo ello en una descripción general fundamentada y sin exageraciones.
Actualizado 10 jul 2025  · 8 min de lectura

Después de esperar meses por Grok 3.5, xAI lo omitió por completo y pasó directamente a Grok 4.

¿El salto está justificado por el rendimiento del modelo?

Sí, si te basas en los puntos de referencia. En este momento, Grok 4 es probablemente el mejor modelo del mundo sobre el papel.

Sin embargo, con una ventana de contexto de 128 000 en la aplicación y 256 000 en la API, es posible que tengas dificultades en el trabajo real de producción. No es tan tolerante como Gemini 2.5 Pro, que te da un millón de tokens. Si deseas utilizar Grok 4 para algo más que una breve charla, necesitarás una habilidades de ingeniería de contexto para que funcione.

En este blog, dejaré de lado las exageraciones habituales y te ofreceré una visión general equilibrada, explicando las principales fortalezas y debilidades de Grok 4, junto con los resultados que obtuvo en mis propias pruebas.

Mantenemos a nuestros lectores al día sobre las últimas novedades en IA mediante el envío de The Median, nuestro boletín informativo gratuito de los viernes que resume las noticias más importantes de la semana. Suscríbete y mantente al día en solo unos minutos a la semana:

Grok 4

La familia Grok 4 solo incluye Grok 4 y Grok 4 Heavy, y no hay ninguna versión mini que podamos utilizar para un razonamiento rápido.

Grok 4 es el último modelo de agente único de xAI (a diferencia de Grok 4 Heavy, que utiliza varios agentes, lo veremos en la siguiente sección). Basado en la transmisión en directo, no hay nada especialmente innovador en términos de ingeniería. Las mejoras parecen provenir de una serie de pequeños ajustes y un aumento significativo de la potencia de cálculo, aproximadamente 10 veces más que la utilizada para Grok 3.

Grok 4 utilizó 10 veces más recursos informáticos que Grok 3.

Fuente: xAI

La empresa afirma que es el modelo más inteligente disponible en la actualidad, y los resultados de las pruebas comparativas apuntan en esa dirección. El resultado más notable proviene de Humanity’s Last Exam, una prueba de referencia compuesta por 2500 preguntas seleccionadas a mano, de nivel de doctorado, que abarcan matemáticas, física, química, lingüística e ingeniería. Grok 4 (con herramientas) logró resolver alrededor del 38,6 % de los problemas.

El rendimiento de Grok 4 en el último examen de la humanidad

Fuente: xAI

La ventana de contexto tiene 128 000 tokens en la aplicación y 256 000 en la API, lo que ofrece cierto margen para razonamientos largos, pero no es especialmente generoso según los estándares actuales. Gemini 2.5 Pro, por ejemplo, ofrece 1 millón. Si estás creando con Grok, probablemente necesitarás dedicar tiempo a estructurar y depurar tu contexto con cuidado.

Para que quede claro, Grok 4 no es el modelo ideal para preguntas cotidianas como «¿Va a llover este fin de semana?» o «Búscame un concierto cerca». Es mejor que utilices Grok 3 para eso, es más rápido y está diseñado para tareas generales. Grok 4 es más adecuado para la investigación, las indicaciones técnicas y las preguntas difíciles en matemáticas, ciencias, finanzas o flujos de trabajo de programadores que se basan en el razonamiento puro.

No está tan claro cómo funciona en flujos de trabajo de consumo más amplios ni cómo gestiona la seguridad a gran escala. Pero xAI afirma que ya se está utilizando en laboratorios biomédicos, empresas financieras y socios empresariales pioneros.

Grok 4 Pesado

Grok 4 Heavy es la versión multiagente de Grok 4. En lugar de ejecutar un único modelo, pone en marcha varios agentes en paralelo, cada uno de los cuales trabaja de forma independiente en la misma tarea. Una vez generados los resultados, los comparan y llegan a una respuesta conjunta.

En teoría, es similar a un grupo de estudio: los agentes pueden compartir conocimientos o detectar los puntos débiles de los demás. En la práctica, esta configuración ayuda con tareas de razonamiento complejo en las que una sola pasada podría resultar insuficiente.

Las ganancias son visibles en los índices de referencia. En el último examen de la humanidad, Grok 4 Heavy, con uso de herramientas, obtuvo una puntuación del 44,4 %, superando al agente único Grok 4 por un margen notable. La arquitectura también parecía ayudar con ARC-AGI, donde Grok 4 fue el primer modelo en superar el 10 % y alcanzar el 15,9 %, aunque no está claro en qué medida ese resultado se debió específicamente a la configuración multiagente.

Rendimiento de Grok 4 en ARC-AGI

Fuente: xAI

La contrapartida es la velocidad y el coste. Grok 4 Heavy funciona más lento (¡mucho más lento!) y su funcionamiento es diez veces más caro: xAI ofrece acceso a través de un plan SuperGrok Heavy de 300 dólares al mes.

Una vez más, Grok 4 Heavy no es algo que querrás utilizar para búsquedas básicas o iteraciones rápidas. Si Grok 4 ya es un producto nicho, Grok 4 Heavy lo es aún más. Está diseñado para el tipo de problemas en los que múltiples vías de razonamiento pueden conducir a mejores resultados, como la investigación científica, la modelización financiera o cualquier otra actividad que implique una planificación a largo plazo. Sin embargo, para la mayoría de los casos de uso, es excesivo.

Probando Grok 4

A menudo pruebo nuevos modelos, por lo que suelo reutilizar algunas tareas estándar para compararlas. Haré lo mismo aquí, centrándome en las matemáticas y la programación. Esto no pretende ser una evaluación exhaustiva de Grok, sino solo una forma de hacerse una idea de cómo se comporta en una configuración de chat típica.

Matemáticas

Quiero empezar con un cálculo sencillo: 9.11 - 9.9. Puede que te parezca una tontería, pero a menudo confunde a los modelos lingüísticos:Claude Sonnet 4, por ejemplo, lo entendió mal. Obviamente, podría usar una calculadora, pero el objetivo aquí es ver cómo el modelo aborda el problema y si puede recurrir a herramientas si es necesario o resolverlo directamente mediante un razonamiento en cadena.

Veamos cómo respondió Grok 4:

grok 4 pruebas

Respondió correctamente al primer intento. Encontró la respuesta mediante un razonamiento lógico y también utilizó una herramienta de código para confirmarla (¡lo cual es genial!).

grok 4 razonamiento en cadena de pensamientos

Sin embargo, tardó 31 segundos en responder y el resultado fue demasiado largo para una pregunta tan sencilla.

A continuación, quise probar Grok 4 con un problema matemático más complejo que normalmente puede saturar la ventana de contexto de un modelo:

Mensaje: Utiliza todos los dígitos del 0 al 9 exactamente una vez para formar tres números x, y, z tales que x + y = z.

Grok 4 abordó el problema de forma inteligente. En primer lugar, se dio cuenta de que podía generar las 3.628.800 permutaciones de los números del 0 al 9 en solo unos segundos utilizando Python. A continuación, probó una configuración con dos números de tres dígitos cuya suma daba un número de cuatro dígitos, y obtuvo un código que devolvía 96 soluciones válidas.

from itertools import permutations

digits = range(10)

solutions = []

for p in permutations(digits):
    x_digits = p[0:3]
    if x_digits[0] == 0: continue
    y_digits = p[3:6]
    if y_digits[0] == 0: continue
    z_digits = p[6:10]
    if z_digits[0] == 0: continue
    x = int(''.join(map(str, x_digits)))
    y = int(''.join(map(str, y_digits)))
    z = int(''.join(map(str, z_digits)))
    if x + y == z:
        solutions.append((x, y, z))

print(solutions)

A continuación, probó otras combinaciones (como 4 dígitos más 2 dígitos que sumaran un número de 4 dígitos) utilizando el mismo enfoque. Al final, buscó en Internet para encontrar más información sobre este rompecabezas matemático y confirmar su respuesta. Se tardó un total de 157 segundos en dar esta respuesta:

grok 4 resolver un problema matemático

Codificación 

Para la tarea de codificación, quería ver cómo se compara con Gemini 2.5 Pro y Claude Opus 4 en esta tarea:

Mensaje: Hazme un juego de carreras infinitas cautivador. Instrucciones clave en la pantalla. Escena p5.js, sin HTML. Me gustan los dinosaurios pixelados y los fondos interesantes.

Este es el resultado:

El principal inconveniente es que el juego comienza inmediatamente, sin darte la oportunidad de empezar por tu cuenta. El dinosaurio pixelado también parece un poco tosco. Dicho esto, las instrucciones que aparecen en pantalla son claras y las funciones básicas funcionan correctamente. Le transmití este comentario a Grok, y aquí está la segunda versión:

¡Muy bien!

Multimodal de contexto largo

Por último, quería ver cómo se desenvuelve Grok 4 en tareas multimodales con contextos largos. He subido un PDF con el informe de la Comisión Europea titulado « Informe sobre las perspectivas de la IA generativa (43 087 tokens) y le he pedido a Grok que:

: Analiza todo este informe e identifica los tres gráficos más informativos. Resume cada uno y dime en qué página del PDF aparecen.

Veamos primero la respuesta y luego la analizaremos:

grok 4 prueba multimodal

Una cosa que noté es que se detuvo sorprendentemente rápido, después de solo 25 segundos. Recomendó gráficos de las páginas 19, 20 y 44 (erróneamente) y pareció ignorar el resto del documento de 167 páginas una vez que encontró lo que parecía una respuesta satisfactoria. La cadena de pensamientos parece incompleta y apunta a un enfoque bastante superficial:

grok 4 cadena de pensamiento

Ahora, pasemos a los resultados:

  • Se equivocaron todos los números de página.
  • No podía identificar claramente el tipo de gráficos, diciendo cosas como «este gráfico de líneas o barras».
  • Sus respuestas se centraron en las primeras 50 páginas y es muy probable que se saltara secciones importantes al final del informe.
  • Clasificó erróneamente un diagrama de Sankey (Figura 6) como «gráfico circular o de barras».
  • Confundió la figura 6 con la figura 7 y terminó analizando la figura 7.

Como señaló Elon Musk en la retransmisión en directo, la comprensión y generación de imágenes de Grok 4 aún no es muy avanzada. Si deseas resultados constantes y fiables, creo que es justo decir que Grok 4 es un modelo solo de texto por el momento.

Pruebas de rendimiento de Grok 4

La principal característica por la que destaca Grok 4 es su rendimiento en una amplia variedad de pruebas de rendimiento, desde exámenes académicos hasta simulaciones empresariales. Según xAI, el modelo mejora significativamente con respecto a versiones anteriores gracias principalmente a una mayor capacidad de cálculo, tanto durante el entrenamiento como durante la inferencia, y no necesariamente a nuevos avances arquitectónicos.

El último examen de la humanidad (HLE)

El patrón central detrás del rendimiento de Grok 4 es la escalabilidad. Se beneficia de más capacidad de computación para entrenamiento y, lo que es más interesante, de máscomputación e e en tiempo de prueba. En términos sencillos: cuantos más recursos le dediques, mejor funcionará. Esto queda especialmente claro en su rendimiento en las tareasdel Examen Final de la Humanidad (HLE, por sus siglas en inglés) de .

grok 4 sobre el último examen de la humanidad

Fuente: xAI

Sin utilizar herramientas, Grok 4 se estanca en torno al 26,9 % de precisión e. Con las herramientas habilitadas (por ejemplo, ejecución de código), alcanza 41.0%. Y cuando se ejecuta en su configuración multiagente «Heavy», alcanza un 50,7 %,lo que supone un gran salto que duplica con creces las mejores puntuaciones obtenidas anteriormente sin herramientas.

Puntos de referencia académicos y STEM

Grok 4 también obtiene buenos resultados en evaluaciones más tradicionales centradas en STEM, muchas de las cuales se utilizan en todo el sector para comparar LLM de alto rendimiento. Lo más destacado incluye:

Punto de referencia

Modelos competidores principales

Grok 4 (sin herramientas)

Grok 4 Pesado

GPQA

79,6-86,4 %

87,5

88,9 %

AIME25

75,5-98,8 %

91,7 %

100,0 %

LCB (enero-mayo)

72,0-74,2 %

79,0

79,4

HMMT25

58,3-82,5 %

90,0 %

96,7 %

USAMO25

21,7-49,4 %

37,5 %

61,9

Son resultados sólidos. Grok 4 está superando a Claude Opus, Gemini 2.5 Pro y GPT-4 (o3) en la mayoría de las categorías, aunque algunos usuarios han señalado que las comparaciones pueden incluir una selección selectiva de las puntuaciones de referencia de los modelos de la competencia.

Fuente: xAI

ARC-AGI (razonamiento avanzado)

Uno de los puntos de referencia más difíciles y opacos es ARC-AGI, que evalúa la capacidad de un modelo para generalizar en tareas de razonamiento abstracto. En ARC-AGI v1, Grok 4 obtiene una puntuación del 66,6 %, por delante de todos sus competidores conocidos. Enun ARC-AGI v2 de , obtiene una puntuación del 15,9 %, frente al 8,6 % de Claude 4 Opus.

Estas pruebas no son totalmente públicas, por lo que se aplican las advertencias habituales. Pero si las cifras se mantienen, Grok 4 está demostrando un gran rendimiento en tareas de razonamiento de varios pasos y con gran carga lógica.

Vending-Bench (simulación empresarial)

xAI también probó Grok 4 en una simulación del mundo real llamada Vending-Bench. La idea es ver si un modelo puede gestionar una pequeña empresa a lo largo del tiempo: reponer existencias, ajustar precios, contactar con proveedores, etc. Es un punto de referencia bastante nuevo y sorprendentemente divertido. Anteriormente explicamos cómo funciona en detalle a través de un caso práctico de Claude Sonnet 3.7 en nuestro boletín semanal. The Median.

Resultados (promedio de cinco ejecuciones):

Rango

Modelo

Patrimonio neto

Unidades vendidas

1

Grok 4

$4,694

4.569

2

Claude Opus 4

$2,077

1.412

3

Referencia humana

844 $

344

4

Gemini 2.5 Pro

$  789

356

5

GPT-4 (o3)

$1,843

1.363

Grok 4 duplicó con creces el rendimiento de su competidor más cercano tanto en ingresos como en escala. Además, mantuvo un rendimiento constante durante 300 rondas de simulación, algo con lo que muchos modelos tienen dificultades cuando se enfrentan a una planificación a largo plazo.

grok 4 en el banco de venta

Fuente: xAI

En resumen: Grok 4 funciona bien en las pruebas realizadas por xAI. Pero, como siempre, no hay que fijarse solo en la clasificación. Los puntos de referencia son prometedores, pero no lo dicen todo, especialmente si tu caso de uso depende de la visión, la generación de código o la interacción en tiempo real en entornos complejos.

Cómo acceder a Grok 4

Grok 4 ya está disponible a través de tres puntos de acceso principales: la aplicación X, la API xAI y plataforma grok.com. Tanto si deseas chatear con el modelo, construir con él o probar sus capacidades de razonamiento de forma más formal, aquí te explicamos cómo empezar.

Acceso al chat (a través de X)

La forma más fácil de probar Grok 4 es a través de la aplicación X (antes Twitter). Esto te da acceso a Grok dentro de una interfaz de chat, similar a ChatGPT o Claude.

Para utilizarlo:

  • Suscríbete a X Premium+, el plan de mayor nivel.
  • Abre la aplicación X (o visita x.com).
  • Toca el icono de Grok (en la barra de navegación inferior en dispositivos móviles y en la barra lateral en ordenadores de escritorio).
  • Empieza a chatear. Grok 4 es el modelo predeterminado, pero puedes cambiar entre versiones.

Acceso directo a través de Grok.com

También puedes utilizar Grok 4 directamente a través de grok.com, que ofrece una interfaz más limpia e independiente fuera de la plataforma X. Está dirigido a usuarios que prefieren una configuración sin distracciones.

  • Visita https://grok.com
  • Regístrate e inicia sesión.
  • Accede a Grok 4 en una interfaz de chat, con soporte para herramientas, código y contexto extenso.

API Grok 4

Si deseas integrar Grok en tu propia aplicación o flujo de trabajo, puedes utilizar la API de xAI.

Pasos:

  1. Ir a https://x.ai/api y solicita acceso como programador.
  2. Una vez aprobada, recibirás una clave API y acceso a la documentación.
  3. Asegúrate de leer detenidamente la documentación para obtener más detalles.

¿Qué vendrá después de Grok 4?

Con el lanzamiento de Grok 4, xAI ha trazado una hoja de ruta clara (y ambiciosa) para el resto de 2025. Según el calendario mostrado durante la retransmisión en directo, hay cuatro lanzamientos importantes previstos para los próximos tres meses: un modelo de codificación en agosto, un agente multimodal en septiembre y un modelo de generación de vídeo en octubre.

Fuente: xAI

Agosto: Modelo de codificación especializado

El primer seguimiento es un modelo centrado en la codificación que se espera para agosto. A diferencia de Grok 4, que es un modelo generalista, este será un modelo especializado diseñado para manejar código con mayor velocidad y precisión. xAI lo describió como «rápido e inteligente», entrenado específicamente para mejorar tanto la latencia como el razonamiento en los flujos de trabajo de desarrollo de software.

Septiembre: Agente multimodal

En septiembre, el plan es lanzar un agente verdaderamente multimodal. En este momento, Grok 4 admite técnicamente entradas de imágenes y vídeo, pero su comprensión es limitada: durante la retransmisión en directo, el equipo lo describió como «mirar a través de un cristal esmerilado».

La próxima versión pretende corregir eso, dotando al modelo de una percepción más sólida en imágenes, vídeos y audio. Esto será clave para casos de uso que vayan más allá del texto: piensa en la robótica, los videojuegos, el control de calidad de vídeos o el seguimiento de instrucciones visuales.

Octubre: Modelo de generación de vídeo

El lanzamiento final en la línea temporal actual es un modelo de generación de vídeo previsto para octubre. xAI afirma que lo entrenará en más de 100 000 GPU. Según tus comentarios, este sistema tendrá como objetivo producir contenido de vídeo de alta calidad, interactivo y editable.

Conclusión

Grok 4 supone un importante paso adelante para xAI. Supera a sus competidores en varias pruebas de referencia de alta dificultad, obtiene buenos resultados en evaluaciones matemáticas y científicas estructuradas e introduce un sistema multiagente (Grok 4 Heavy) que resulta prometedor para entornos de investigación y pensamiento a largo plazo.

Dicho esto, no es tu asistente general para el día a día. Es más lento que Grok 3, su comprensión de imágenes y vídeos aún se encuentra en una fase inicial y le falta pulir algunos aspectos relacionados con la usabilidad cotidiana. Deberás indicar cuidadosamente y recortar tus entradas debido a la ventana de contexto relativamente limitada. Y si quieres obtener el mejor rendimiento, a través de Grok 4 Heavy, tendrás que pagar un precio más elevado.

Para programadores e investigadores, vale la pena explorarlo. Para usuarios ocasionales, la velocidad y capacidad de respuesta de Grok 3 u otros modelos convencionales son más adecuados. La hoja de ruta es ambiciosa, con un modelo de codificación, un agente multimodal y un generador de vídeo, todo ello previsto para octubre. Que xAI pueda cumplir con los plazos es otra cuestión. Pero con Grok 4, al menos han demostrado de forma convincente que están en la carrera.

Preguntas frecuentes

¿Cuál es la diferencia entre Grok 4 y Grok 4 Heavy?

Grok 4 es un modelo de agente único: una instancia del modelo procesa tu entrada y devuelve una respuesta. Grok 4 Heavy ejecuta varios agentes Grok 4 en paralelo. Cada agente trabaja de forma independiente en la misma tarea, luego comparan los resultados y acuerdan una respuesta final. Esta configuración multiagente mejora la precisión, especialmente en problemas de razonamiento complejos, pero también es más lenta y consume más recursos.

¿Qué tareas son adecuadas para Grok 4 Heavy?

Grok 4 Heavy es ideal para razonamientos largos, problemas matemáticos y científicos difíciles, investigación técnica o cualquier cosa en la que te resulte útil tener múltiples perspectivas antes de llegar a una respuesta definitiva. Es excesivo para conversaciones informales o búsquedas sencillas, pero destaca en pruebas de rendimiento, simulaciones y tareas de planificación avanzadas.

¿En qué se diferencia Grok 4 de Grok 3?

Grok 4 es el último modelo de lenguaje grande de xAI, que ofrece capacidades de razonamiento y rendimiento mejorados en tareas complejas en comparación con Grok 3. Introduce un sistema multiagente en su variante «Heavy», que permite procesos de razonamiento paralelos, lo que mejora la precisión en determinados puntos de referencia. Utiliza Grok 3 para tareas cotidianas sencillas y Grok 4 para tareas complejas que requieran razonamiento.

¿Grok 4 admite entradas multimodales como imágenes y vídeos?

Grok 4 admite entradas multimodales, pero sus capacidades y resultados son principalmente de texto. Aunque hay planes para mejorar las funcionalidades multimodales, incluyendo la comprensión de imágenes y vídeos, estas características aún se encuentran en fase de desarrollo.

¿Cuánto cuesta Grok 4 Heavy?

El acceso a Grok 4 Heavy está disponible a través de xAI’s plan SuperGrok Heavy de xAI, que cuesta 300 $ al mes. Esto te da acceso a la versión multiagente a través de la interfaz grok.com. Está destinado a investigadores, programadores y usuarios empresariales; la mayoría de los usuarios ocasionales no lo necesitarán.

Introducción a los agentes de IA

Aprende los fundamentos de los agentes de IA, sus componentes y su uso en el mundo real, sin necesidad de programar.
Explora el curso

Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Soy editora y redactora de blogs, tutoriales y noticias sobre IA, y me aseguro de que todo se ajuste a una sólida estrategia de contenidos y a las mejores prácticas de SEO. He escrito cursos de ciencia de datos sobre Python, estadística, probabilidad y visualización de datos. También he publicado una novela premiada y dedico mi tiempo libre a escribir guiones y dirigir películas.

Temas

¡Aprende IA con estos cursos!

Curso

Building AI Agents with Google ADK

1 h
3.3K
Build a customer-support assistant step-by-step with Google’s Agent Development Kit (ADK).
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.
Abid Ali Awan's photo

Abid Ali Awan

9 min

An avian AI exits its cage

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.
Arunn Thevapalan's photo

Arunn Thevapalan

Tutorial

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Aprende a realizar la validación de datos y modelos para garantizar un sólido rendimiento del aprendizaje automático utilizando nuestra guía paso a paso para automatizar las pruebas con DeepChecks.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.
Moez Ali's photo

Moez Ali

Ver másVer más