Ir al contenido principal

Gemini 3.1: funciones, benchmarks, pruebas prácticas y más

Descubre Gemini 3.1 Pro, el último modelo de razonamiento de Google. Explora sus funciones, benchmarks, pruebas prácticas y cómo se compara con Claude Opus 4.6, Claude Sonnet 4.6 y GPT-5.2.
Actualizado 12 may 2026  · 11 min leer

La carrera por la IA en febrero de 2026 ha sido inusualmente intensa. Tras el lanzamiento de Claude Opus 4.6 y Claude Sonnet 4.6 con dos semanas de diferencia, Google contraatacó con Gemini 3.1 Pro.

Google afirma que se trata de una versión importante, sobre todo porque Gemini 3.1 Pro más que duplicó su rendimiento en razonamiento frente a Gemini 3 Pro, medido con el benchmark ARC-AGI-2, donde logró una puntuación verificada del 77,1% 

ARC-AGI-2 es relevante porque evalúa el reconocimiento de patrones novedosos y no el conocimiento memorizado. Está diseñado para que los modelos no puedan simplemente entrenar hasta obtener una puntuación alta en el sentido tradicional. Por eso, duplicar resultados en esta prueba es más significativo que hacerlo, por ejemplo, en MMLU. Más adelante profundizaremos en por qué este resultado importa e incluso lo pondremos a prueba nosotros mismos.

Si quieres conocer mejor el ecosistema de IA de Google, te recomiendo nuestras guías sobre NotebookLM y Nano Banana 2, además de nuestro tutorial de Gemini CLI. Y no te pierdas nuestra guía sobre uno de los rivales más fuertes de Gemini, GPT-5.4 de OpenAI.

Mantenemos a nuestra audiencia al día con lo último en IA a través de The Median, nuestro boletín gratuito de los viernes que resume las noticias clave de la semana. Suscríbete y mantente al día dedicando solo unos minutos:

¿Qué es Gemini 3.1 Pro?

Gemini 3.1 Pro es el último modelo insignia de Google, lanzado en vista previa el 19 de febrero de 2026. Es la primera vez que Google usa un incremento de versión ".1" (todas las actualizaciones de mitad de ciclo anteriores usaban ".5"), lo que indica una mejora centrada en la inteligencia más que una expansión amplia de funciones. Tiene sentido: Gemini 3 ya fue un lanzamiento enorme que introdujo una nueva arquitectura multimodal.

La publicación de lanzamiento de Google explica que la inteligencia que impulsa los últimos avances científicos de Deep Think, incluido refutar una conjetura matemática de una década, ahora se ha destilado en 3.1 Pro para el uso diario.

Técnicamente, Deep Think estaba disponible antes, pero solo con una suscripción Ultra. Google sostiene que el objetivo siempre fue llevar ese razonamiento al uso cotidiano a escala, pero es con este lanzamiento de Gemini 3.1 cuando parece que por fin lo están cumpliendo. Quizá Google descubrió que la suscripción Ultra de 249 $/mes era más de lo que la gente estaba dispuesta a pagar.

Puntuaciones de Gemini 3.1 en ARC-AGI 2

¿Qué hay de nuevo en Gemini 3.1 Pro?

Estas son las mejoras clave de esta versión:

Razonamiento mucho más sólido

Como decía en la introducción, el gran cambio está en el razonamiento abstracto y de varios pasos. El rendimiento de Gemini 3.1 en ARC-AGI-2 más que se ha duplicado respecto a Gemini 3 Pro en unos tres meses. 

Más allá de ARC-AGI-2, el modelo obtuvo la puntuación más alta registrada en GPQA Diamond, un benchmark de ciencias a nivel de posgrado.

Gemini 3.1 Pro aplica siempre un "pensamiento dinámico": activa razonamiento tipo chain-of-thought de forma automática según la complejidad de la tarea. 

La API incorpora un nuevo parámetro thinking_level con cuatro niveles: low, medium (nuevo en 3.1), high y max, que ofrece a los desarrolladores un punto intermedio entre velocidad y profundidad.

Mejor rendimiento en tareas agentivas

Uno de los patrones más claros de esta versión es cuánto han mejorado los benchmarks de agentes. El modelo ahora puntúa mucho más alto que su predecesor en investigación web autónoma, tareas largas de múltiples pasos y programación en terminal.

Para quien construya flujos donde el modelo opera con mínima supervisión (debugging, investigación web, recopilación de datos), estas mejoras se notan en la práctica. 

El rendimiento agentivo aproximadamente se ha duplicado respecto a Gemini 3 Pro en algunas categorías, y ahora supera a GPT-5.2 y Claude en la mayoría de estos benchmarks.

Salida animada basada en código

Esto me llamó la atención. Google destacó que Gemini 3.1 Pro puede generar SVG animados y paneles interactivos íntegramente mediante código. Al ser definiciones matemáticas y no imágenes renderizadas, escalan sin pérdida de calidad y ocupan mucho menos que un vídeo.

Los ejemplos del lanzamiento impresionan: un sitio de portfolio generado a partir de los temas de Cumbres borrascosas, un panel aeroespacial en vivo que tira de la telemetría de la ISS y una nube de estorninos en 3D con seguimiento de manos y banda sonora generativa. 

Son salidas de código, no imágenes: se pueden editar, incrustar y son muy ligeras.

Cortes de salida por fin resueltos

Es menos vistoso, pero probablemente más relevante de inmediato para quien haya usado Gemini 3 Pro en producción. Una queja recurrente era que cortaba respuestas largas a mitad de generación.

Los primeros comentarios tras el lanzamiento indican que 3.1 Pro lo soluciona. Un usuario informó de haber generado una respuesta enorme en una sola ejecución sin ningún corte. 

JetBrains también confirmó mejoras reales de calidad con el nuevo modelo, señalando que ofrece "resultados más fiables" con "menos tokens de salida". Esa ganancia de eficiencia, sumada a la ausencia de cortes, marca la diferencia en generación de formato largo.

Benchmarks de Gemini 3.1 Pro

Google muestra que Gemini 3.1 Pro lidera en 13 de 16 de algunos de los benchmarks más importantes, incluidos los relacionados con razonamiento abstracto, tareas agentivas y ciencias a nivel de posgrado. (Gemini 3 Pro ya lideraba en varios de ellos.)

Así queda el último modelo frente a los otros grandes lanzamientos de febrero de 2026.

Benchmarks de Gemini 3.1

Como ves, y como comentaba antes, el resultado en razonamiento abstracto es el más llamativo. Gemini 3.1 Pro saca una ventaja clara sobre Opus 4.6, que a su vez saca una ventaja clara sobre GPT-5.2. Es un cambio real respecto a la situación de los modelos de vanguardia hace apenas un año.

Dónde Claude aún tiene ventaja

Conviene decirlo claro porque es fácil dejarse llevar por los grandes números. Los modelos Claude realmente lideran en áreas importantes:

  • Ingeniería de software real: Opus 4.6 gana por poco en SWE-bench Verified. (Están casi empatados, pero Anthropic se lleva el punto.)
  • Razonamiento con herramientas: Opus 4.6 supera a Gemini 3.1 Pro cuando ambos pueden usar herramientas externas, lo que sugiere una integración más fuerte.
  • Trabajo intensivo en conocimiento: Sonnet 4.6 lidera con margen amplio en GDPval-AA, que mide tareas de alto valor económico como modelización financiera e investigación. Es una brecha a vigilar.
  • Uso del ordenador vía GUI: Claude lidera con claridad aquí, sin equivalente publicado por parte de Gemini.

La foto honesta: Gemini 3.1 Pro es ahora mismo el mejor modelo para razonamiento abstracto, conocimiento científico y amplitud multimodal. Los modelos Claude siguen por delante en trabajo de conocimiento, orquestación de herramientas y uso de software mediante interfaz gráfica.

Probando Gemini 3.1 Pro

Para ver cómo se traducen estas mejoras a razonamiento en el mundo real, ejecuté tres pruebas pensadas para explorar distintos aspectos del pensamiento abstracto:

Prueba 1: Un puzle de secuencia de símbolos

Para evaluar cómo maneja Gemini 3.1 Pro un razonamiento al estilo ARC-AGI-2, usamos un sencillo ejercicio de inferencia de reglas. El modelo debe deducir una regla de color y otra de forma a partir de ejemplos, sin que se le indiquen explícitamente.

Este fue mi prompt:

You are shown these transformations:

- [Red Circle] → [Blue Triangle]
- [Blue Square] → [Red Circle]
- [Red Square] → [Blue Circle]
- [Blue Triangle] → ?

Gemini 3.1 Pro respondió correctamente [Red Square]. El modelo identificó ambas reglas por separado: los colores alternan (Red ↔ Blue) y las formas ciclan (Square → Circle → Triangle → Square). Luego recorrió la lógica paso a paso, mostrando cómo Blue Triangle pasa a Red (alternancia de color) y a Square (siguiente en el ciclo de formas), exactamente el tipo de razonamiento composicional que evalúa esta prueba.

Prueba 2: La secuencia disfrazada

Esta prueba verifica la eliminación de hipótesis en varias capas. Damos al modelo dos secuencias y le pedimos identificar qué es la primera (números de partición de la OEIS) y deducir las dos transformaciones aplicadas para producir la segunda.

Here are two sequences. The second was derived from the first in two separate steps. 
Identify the named mathematical sequence that Sequence A belongs to, and work out 
both transformations that were applied to produce Sequence B.

Sequence A: 1, 1, 2, 3, 5, 7, 11, 15, 22, 30, 42, 56, 77
Sequence B: 2, 3, 5, 8, 3, 9, 8, 1, 7, 9, 8, 7

Explain your reasoning step by step.

Gemini 3.1 Pro identificó correctamente la Secuencia A como números de partición (A000041) y explicó qué representan en teoría de números. Luego trabajó sistemáticamente ambas transformaciones: primero sumó pares consecutivos para generar una secuencia intermedia y después calculó la raíz digital de cada resultado. El modelo verificó cada paso frente a la Secuencia B, mostrando toda la cadena de razonamiento desde la secuencia original hasta la salida final.

Prueba 3: La red de relojes averiados

Esta prueba apunta a la comprobación de consistencia de restricciones. Seis relojes están en red, cada uno aplica un desfase fijo de 20 minutos. Uno está averiado. El modelo debe recorrer ambas rutas de la red y detectar la contradicción.

Este fue el prompt que utilicé:

Six clocks (A, B, C, D, E, and F) are connected in a network. Each clock applies 
a fixed offset to the time it receives. A is the root and shows 12:00. You observe:

- B receives from A and shows 12:20
- C receives from A and shows 11:40
- D receives from B and shows 12:40
- E receives from C and shows 11:00
- F receives from both D and E and shows 13:00

There is exactly one broken clock in the network. Based on the pattern of offsets, 
identify which clock is broken, and give two possible answers for what it should 
actually show (one for each path through the network).

Explain your reasoning step by step.

Gemini 3.1 Pro identificó correctamente a F como el reloj averiado e infirió dos valores posibles: 13:00 por la ruta de D y 10:00 por la ruta de E. El modelo trató la ruta derecha como un desfase constante de +20 minutos y la ruta izquierda como una secuencia aritmética de −20, −40 y luego −60 minutos.

Pruebas prácticas con Gemini 3.1 Pro

Más allá de las pruebas de razonamiento abstracto, quise ver cómo maneja tareas prácticas que muestren sus novedades.

Generación de SVG animados

Google dio mucho protagonismo a la salida visual basada en código en el lanzamiento, así que la probé directamente con un brief sencillo y sin plantilla.

Este fue el prompt que usé:

Create an animated SVG loading spinner with three bouncing dots. Make it smooth, 
professional, and suitable for embedding on a website. Output only the SVG code.

Gemini 3.1 Pro devolvió código SVG limpio con animaciones CSS. La salida fue un cargador de tres puntos con rebote escalonado, exactamente lo solicitado. Se renderizó correctamente en el navegador a la primera, sin ajustes. El tamaño de archivo era diminuto y, al ser vectorial, escala perfecto a cualquier tamaño.

Es una de esas funciones que en una nota de prensa suena a truco, pero resulta muy práctica. Gráficos animados ligeros, incrustables e infinitamente escalables a partir de un prompt de texto: una herramienta sólida para prototipado frontend o recursos visuales rápidos.

¿Cómo puedo acceder a Gemini 3.1 Pro?

Gemini 3.1 Pro está actualmente en vista previa. Google ha dicho que llegará a disponibilidad general en breve, tras incorporar comentarios y mejorar los flujos de trabajo agentivos.

Estas son las principales opciones de acceso:

Gemini CLI

La Gemini CLI es un agente de terminal de código abierto que da al modelo acceso directo a tu entorno local. Instálala con el siguiente comando:

npm install -g @google/gemini-cli
# Or run directly: npx @google/gemini-cli

La CLI usa un bucle ReAct, es decir, puede escribir código, ejecutarlo, leer errores, corregir fallos e iterar por su cuenta. Con el mejor rendimiento en programación en terminal de 3.1 Pro, este bucle es notablemente más fiable. El plan gratuito ofrece 60 solicitudes por minuto y 1.000 al día.

Gemini API

La Gemini API ofrece a los desarrolladores acceso programático directo a Gemini 3.1 Pro. 

gemini 3.1 api

El ID de modelo que te interesa es: gemini-3.1-pro-preview

Aquí tienes algo de código en Python para empezar:

from google import genai

client = genai.Client()
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="Your prompt here"
)
print(response.text)

Los precios son los mismos que en Gemini 3 Pro Preview.

Tamaño de contexto

Entrada (por 1M tokens)

Salida (por 1M tokens)

≤200K tokens

$2.00

$12.00

>200K tokens

$4.00

$18.00

El parámetro thinking_level admite low, medium, high o max. Las herramientas compatibles incluyen Google Search, contexto por URL, ejecución de código y búsqueda de archivos. Abordaré los detalles de la ventana de contexto en la sección de comparación más abajo.

NotebookLM

NotebookLM ahora funciona con Gemini 3.1 Pro para suscriptores de Google AI Pro y Ultra. NotebookLM responde solo en base a los documentos que subas, lo que lo convierte en una herramienta de investigación muy útil cuando quieres que el modelo se ciña a materiales concretos.

Acceso para consumidores

Google ha empezado a desplegar Gemini 3.1 Pro en sus productos de consumo y para desarrolladores, pero no ha publicado un mapeo simple de "plan X = modelo Y". En la práctica, verás 3.1 Pro en la app de Gemini y en la API según se vaya desplegando, con AI Ultra ofreciendo el acceso más amplio.

Plan

Precio mensual (EE. UU.)

Qué obtienes relacionado con Gemini

Gratis

$0

Gemini 3 Flash en la app de Gemini, funciones limitadas

Google AI Pro

$19.99

Límites superiores y acceso a modelos Gemini Pro en la app de Gemini

Google AI Ultra

$249.99 (a menudo con descuento a $124.99 durante los 3 primeros meses)

Límites más altos, modo Deep Think y acceso a las últimas funciones de IA de Google en sus productos

Gemini 3.1 Pro vs. modelos Claude

Los lanzamientos de febrero de 2026 de Google y Anthropic han generado un juego de equilibrios muy interesante. No es un caso de un ganador claro. La elección depende mucho de lo que estés construyendo.

La diferencia de precio merece atención. Gemini 3.1 Pro es mucho más barato tanto en entrada como en salida que Claude Opus 4.6. Si haces llamadas a la API a gran volumen, no es una diferencia menor.

Elige Gemini 3.1 Pro cuando:

  • El razonamiento abstracto y el análisis científico son la prioridad
  • Necesitas soporte multimodal nativo sólido para vídeo y audio en el mismo modelo
  • Quieres la ventana de contexto de 1M en su forma estable, no beta
  • Te importa el coste, especialmente a escala

Elige Claude Opus 4.6 cuando:

  • Necesitas los 128K tokens de salida completos (Gemini limita a 64K)
  • La orquestación multiagente es central en tu flujo (Agent Teams marca la diferencia)
  • Es importante el uso del ordenador mediante GUI
  • Haces trabajo intensivo en conocimiento donde importa la calidad de la investigación

Elige Claude Sonnet 4.6 cuando:

  • Las tareas principales son trabajo de conocimiento, análisis de documentos o análisis financiero
  • Quieres un rendimiento cercano al tope de gama a menor precio
  • Ya usas herramientas de Anthropic y Sonnet es tu opción por defecto

Casos de uso de Gemini 3.1 Pro

Según los benchmarks y las pruebas prácticas, estas son las áreas donde Gemini 3.1 Pro encaja especialmente bien:

  • Investigación y análisis científico: El buen rendimiento en GPQA Diamond y la ventana de 1M lo hacen práctico para revisión de literatura, generación de hipótesis y síntesis entre múltiples artículos a la vez.
  • Agentes de investigación autónomos: Las mejoras en benchmarks agentivos se traducen en tareas reales de varios pasos como recopilar información de múltiples fuentes, verificar hechos y producir informes estructurados con mínima supervisión.
  • Análisis y refactorización de bases de código: Una ventana grande de contexto más mejor razonamiento permite detectar inconsistencias de arquitectura entre módulos o seguir bugs a través de varios archivos.
  • Análisis de contenido multimodal: El soporte nativo de vídeo y audio permite analizar reuniones grabadas, extraer ideas de clases en vídeo o procesar pódcasts sin preprocesado.
  • Despliegues en producción sensibles al coste: A aproximadamente la mitad del coste de Claude Opus 4.6, tiene sentido para inferencia de alto volumen cuando el razonamiento importa pero hay restricción de presupuesto.
  • Prototipado y recursos visuales: La salida animada basada en código genera loaders, gráficos animados o paneles interactivos a partir de prompts de texto que puedes incrustar directamente.

Reflexiones finales

Gemini 3.1 Pro es un buen ejemplo de hacia dónde van estos modelos. Menos foco en nuevos tipos de entrada, más en mejor razonamiento, agentes más fiables y manejo de contextos más largos. Aunque sea una versión ".1", las mejoras en benchmarks y la conexión con Deep Think hacen que se sienta como un salto mayor en cómo "piensan" estos sistemas.

Para equipos que construyen productos reales, no hay un único modelo "mejor". Gemini 3.1 Pro funciona muy bien para razonamiento científico, agentes de investigación y análisis de grandes bases de código, especialmente si consideras el precio y el soporte de vídeo. Claude sigue siendo mejor para trabajo de conocimiento y uso del ordenador a través de la pantalla, y GPT-5.3-Codex aún gana en algunas pruebas de código.

La pregunta interesante es qué pasará cuando salga de la vista previa. Google ha dicho que está trabajando en mejoras de agentes antes del lanzamiento completo. Si llegan junto a los avances actuales en razonamiento, la brecha entre modelos de investigación como Deep Think y modelos de uso diario se reducirá. Por ahora, es un buen momento para probar distintos modelos y construir sistemas que aprovechen lo mejor de cada uno.

Para empezar con las herramientas de IA de Google, echa un vistazo a nuestro curso Introducción a Google Gemini . Para trabajar con la API en Python, nuestro tutorial Working with the Gemini API cubre lo esencial.


Khalid Abdelaty's photo
Author
Khalid Abdelaty
LinkedIn

Soy ingeniero de datos y creador de comunidades. Trabajo con canalizaciones de datos, nube y herramientas de IA, al tiempo que escribo tutoriales prácticos y de gran impacto para DataCamp y programadores emergentes.

Gemini 3.1: preguntas frecuentes

¿Es gratis usar Gemini 3.1 Pro?

Puedes probarlo gratis a través de Google AI Studio con cuotas diarias. Para uso en producción, necesitarás un plan de pago. Google AI Pro cuesta 19,99 $/mes y Google AI Ultra 249,99 $/mes (a menudo con descuento a 124,99 $ durante los 3 primeros meses). La app gratuita de Gemini usa por defecto Gemini 3 Flash, no 3.1 Pro.

¿Cuál es la diferencia entre Gemini 3.1 Pro y Deep Think?

Deep Think es la versión de laboratorio: más lenta, más cara, pero con mejores resultados en benchmarks de razonamiento. Gemini 3.1 Pro toma esas mismas mejoras de inteligencia y las hace lo bastante rápidas y asequibles para el día a día. Piénsalo como la versión de producción de la misma tecnología base.

¿Realmente entiende vídeo o solo extrae fotogramas?

Gemini 3.1 Pro es un modelo nativamente multimodal que puede tomar vídeo como entrada junto con texto, imágenes y audio. En la práctica, puedes subir una grabación y hacer preguntas tanto sobre lo que se dice como sobre lo que aparece en pantalla. Los modelos competidores siguen siendo más limitados en cómo exponen la comprensión de vídeo a usuarios finales.

¿Cómo se compara la ventana de contexto de 1M con la de Claude?

Como comenté en la comparación, la ventana de 1M de Gemini es estable y lista para producción, mientras que la de Claude está en beta. La salida máxima por petición es de 64K tokens.

¿Cuándo dejará de estar en vista previa?

Google no ha fijado fecha, pero ha dicho que trabaja en mejoras de agentes antes del lanzamiento GA. Según patrones anteriores, los periodos de vista previa suelen durar unos meses.

Temas

Aprende con DataCamp

Curso

Ética de la IA

1 h
118.8K
Explora la ética de la IA con un enfoque en los principios, la imparcialidad, la reducción del sesgo y la confianza en el diseño de la IA.
Ver detallesRight Arrow
Iniciar curso
Ver másRight Arrow
Relacionado
An avian AI exits its cage

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.
Ryan Ong's photo

Ryan Ong

8 min

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.
Moez Ali's photo

Moez Ali

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.
Arunn Thevapalan's photo

Arunn Thevapalan

Tutorial

Primeros pasos con Claude 3 y la API de Claude 3

Conozca los modelos Claude 3, las pruebas de rendimiento detalladas y cómo acceder a ellas. Además, descubra la nueva API Python de Claude 3 para generar texto, acceder a funciones de visión y streaming.
Abid Ali Awan's photo

Abid Ali Awan

Ver másVer más