Curso
Los flujos de trabajo agentic han marcado la primera mitad de 2026, especialmente en programación: modelos que toman un único prompt y llevan la tarea hasta el final. La competición ahora se libra en tres frentes a la vez: capacidad, velocidad y precio. Anthropic y Google han apostado de forma claramente distinta.
Este artículo compara dos lanzamientos recientes: Gemini 3.5 Flash de Google, anunciado en Google I/O, y Claude Opus 4.8 de Anthropic, lanzado el 28 de mayo. No juegan en la misma liga. Uno es un caballo de batalla rápido y barato; el otro, un buque insignia premium. Precisamente esa brecha hace que el cara a cara merezca la pena: obliga a preguntarse cuándo compensa pagar por pura capacidad.
En este artículo, compararé ambos en benchmarks, coste y velocidad, y después verás en qué casos encaja cada uno. También puedes leer nuestros análisis en profundidad del Gemini 3.5 Flash y de Claude Opus 4.8.
En resumen
- Opus 4.8 es el modelo más capaz en conjunto. Lidera el Artificial Analysis Intelligence Index (61,4), GDPval-AA (1.890 Elo) y Humanity's Last Exam.
- Gemini 3.5 Flash es mucho más barato y rápido: 1,50 $/9 $ por millón de tokens frente a los 5 $/25 $ de Opus 4.8, y 192,2 tokens de salida por segundo frente a 66,8.
- Gemini 3.5 Flash admite entrada multimodal (vídeo, audio, PDF), mientras que Opus 4.8 solo maneja texto e imagen.
- Elige Opus 4.8 cuando la calidad de la tarea y el riesgo de alucinaciones tengan un coste real. Elige Gemini 3.5 Flash para tuberías de alto volumen, multimodales y sensibles al coste.
Perfeccionamiento en IA para principiantes
¿Qué es Claude Opus 4.8?
Claude Opus 4.8 es el modelo insignia de Anthropic y el sucesor de Opus 4.7, diseñado para razonamiento complejo y programación agentic a largo plazo. Actualmente encabeza el Artificial Analysis Intelligence Index con 61,4 puntos.
También lidera la clasificación de GDPval-AA, que puntúa modelos en tareas reales de distintas ocupaciones, y el nuevo benchmark ITBench-AA, que evalúa cómo de bien diagnostican los agentes la causa raíz de incidentes de Kubernetes a partir de instantáneas guardadas.
Funciones y capacidades clave
Las especificaciones destacadas:
- ventana de contexto de 1M de tokens con hasta 128K tokens de salida
- pensamiento adaptativo como único modo de pensamiento
- un parámetro de esfuerzo que ahora es alto por defecto en todas partes, incluido Claude Code
Opus 4.8 también añade un modo rápido, actualmente en vista previa de investigación, que ofrece hasta 2,5 veces más tokens de salida por segundo a 10 $/50 $ por millón de tokens de entrada/salida. Es el doble del precio estándar de Opus 4.8, pero un tercio de lo que cuesta el modo rápido en Opus 4.7.
La Messages API ahora permite entradas de sistema dentro del array de mensajes, para actualizar las instrucciones de Claude a mitad de tarea sin reiniciar la conversación. Puedes enviar permisos, presupuestos de tokens o contexto del entorno sin romper la caché del prompt.
La longitud mínima de prompt cacheable también baja a 1.024 tokens, desde 4.096 en Opus 4.7, así que ahora se pueden cachear prompts más cortos.
Frente a Opus 4.7, las mejoras se notan en varios benchmarks, según Artificial Analysis:
- Terminal-Bench Hard: +6,6 puntos
- τ²-Bench Telecom, que simula escenarios de soporte técnico: +5,8 puntos
- IFBench, que mide el seguimiento preciso de instrucciones: +3,6 puntos
También lidera Humanity's Last Exam, con un 49,8% sin herramientas y un 57,9% con herramientas.
Pros y contras
En trabajo agentic, Opus 4.8 es la opción más sólida en esta comparación. Ocupa el primer puesto en el Artificial Analysis Agentic Index, que cubre tareas como la programación.
El coste es la pega. El precio no ha cambiado respecto a Opus 4.7: 5 $/25 $ por millón de tokens de entrada/salida, elevado para grandes volúmenes. Tampoco hay controles de muestreo: si intentas establecer temperature, top_p o top_k, devuelve error.
Introducción a los modelos Claude
¿Qué es Gemini 3.5 Flash?
Gemini 3.5 Flash es el último modelo de Google, diseñado para la velocidad con calidad cercana a frontera, como cubrimos en nuestro resumen de Gemini 3.5 Flash. Logró un 76,2% en Terminal-Bench 2.1 y alcanzó 1.656 Elo en GDPval-AA.
Funciones y capacidades clave
Flash acepta como entrada texto, imágenes, vídeo, audio y PDFs, con soporte completo a nivel de pensamiento. El conjunto de funciones principal:
- contexto de entrada de ~1M de tokens (1.048.576) con límite de salida de 65.536 tokens
- API por lotes y caché de prompts
- ejecución de código y llamadas a funciones
- búsqueda con grounding y salidas estructuradas
En benchmarks, alcanza un 83,6% en MCP Atlas para coordinación agentic con múltiples herramientas y un 84,2% en CharXiv Reasoning para comprensión multimodal. Ocupa el 7.º puesto en el Artificial Analysis Intelligence Index, lo cual es fuerte para un modelo de la gama Flash, y el 6.º en el Agentic Index, cerca de Opus 4.7.
Gemini 3.5 Flash también es compatible de forma nativa con el framework multiagente Antigravity. Su interfaz se ha rediseñado en esta versión para asemejarse a las apps OpenAI Codex y Cursor.
Pros y contras
La propuesta de Flash es inteligencia por dólar: una puntuación de 55 en el Artificial Analysis Intelligence Index por 1,50 $ el millón de tokens de entrada y 9 $ el millón de salida, inusualmente capaz para ese precio.
La entrada multimodal nativa es el otro gran punto, con vídeo y audio incluidos. Su sistema de cuatro niveles de pensamiento (mínimo, bajo, medio, alto) también te da un control más fino de coste y rendimiento que el único ajuste de esfuerzo de Opus 4.8.
Aun así, lo más destacado es el uso de herramientas agentic. Flash obtiene un 83,6% en MCP Atlas, el mejor resultado de coordinación multi-herramienta en esta comparación e incluso por delante de Opus 4.8 (82,2%). Que un modelo de la gama Flash supere al último buque insignia de Anthropic en ese benchmark no es lo habitual.
Dos peros importantes. En la ejecución del Intelligence Index, Flash generó 73M de tokens frente a una media de 35M: es verboso, y esa verbosidad te cuesta en la facturación de salida. El tiempo hasta el primer token es de 18,88 segundos, alto para su clase, donde modelos comparables rondan los dos segundos.
Para ver cómo queda frente al buque insignia de OpenAI, los comparamos en nuestro artículo Gemini 3.5 Flash vs. GPT-5.5.
Claude Opus 4.8 vs Gemini 3.5 Flash: comparación directa
Aquí tienes la referencia rápida antes de entrar categoría por categoría.
| Propiedad | Claude Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|
| Lanzamiento | 28 de mayo de 2026 | 19 de mayo de 2026 |
| Ventana de contexto | 1M tokens | 1M tokens |
| Máx. tokens de salida | 128K | 65.536 |
| Intelligence Index (AA) | 61,4 | 55 |
| GDPval-AA Elo | 1.890 | 1.656 |
| Velocidad de salida | 66,8 tokens/seg | 192,2 tokens/seg |
| Modalidades de entrada | Texto, imagen | Texto, imagen, vídeo, audio, PDF |
| Precio de entrada | 5 $ / 1M tokens | 1,50 $ / 1M tokens |
| Precio de salida | 25 $ / 1M tokens | 9 $ / 1M tokens |
| Modos de pensamiento | Solo adaptativo | Mínimo / bajo / medio / alto |
Rendimiento agentic y en programación
Opus 4.8 es el agente más fuerte, pero Flash está más cerca de lo que su gama sugiere. Opus 4.8 lidera GDPval-AA con 1.890 Elo frente a los 1.656 de Flash, así que es mejor en trabajo de conocimiento.
MCP Atlas es la sorpresa. Flash obtiene un 83,6% en este benchmark de coordinación con múltiples herramientas, superando el 82,2% de Opus 4.8. Que un modelo Flash gane al nuevo buque insignia de Anthropic en uso de herramientas agentic es realmente inesperado, y es el argumento más claro a favor de Flash en esta comparativa.
SWE-bench Pro va en sentido contrario. Este benchmark mide cómo resuelven los modelos tickets reales de ingeniería de software, y Opus 4.8 alcanza el 69,2%, solo por detrás del Mythos Preview interno de Anthropic. Flash logra un 55,0%, por detrás de Opus en la diferencia esperable entre gamas, pero notable en sí mismo: supera el 54,2% de Gemini 3.1 Pro, así que este Flash ha alcanzado a la gama Pro de la generación anterior.
En Terminal-Bench Hard, Opus 4.8 obtiene un 58,3% frente al 40,9% de Flash, por lo que es mejor opción para trabajo en terminal, administración de sistemas y procesamiento de datos. Flash tiene sentido cuando ejecutas bucles de código en paralelo y la velocidad y el coste pesan más que la máxima precisión.
Razonamiento y tareas científicas
Opus 4.8 va claramente por delante en razonamiento académico. Consigue un 57,9% en Humanity's Last Exam frente al 40,25% de Flash, lo que lo favorece para trabajos de matemáticas, ciencia y humanidades.
Soporte de entrada multimodal
Aquí la victoria es clara para Flash. Opus 4.8 lee texto e imágenes; Flash además lee vídeo, audio y PDFs. Si tu pipeline toca cualquiera de esos formatos, Flash es la única opción entre estos dos que los maneja.
Velocidad y latencia
Flash es aproximadamente tres veces más rápido en salida. Artificial Analysis lo mide en 192,2 tokens de salida por segundo frente a los 66,8 de Opus 4.8.
Coste y eficiencia de tokens
La brecha está en los tokens de salida: 25 $ por millón en Opus 4.8 frente a 9 $ en Flash; Opus es ~2,8 veces más caro. En pipelines de alto volumen, esa diferencia se multiplica rápido.
Ventana de contexto y capacidad de salida
Ambos admiten 1M de tokens de entrada; la diferencia está en la salida. Opus 4.8 puede escribir hasta 128K tokens en una pasada frente a los 65.536 de Flash, casi el doble. Para síntesis de código extensa, generación de documentos largos o bucles agentic con salidas muy grandes en una sola pasada, ese margen se nota.
¿Qué modelo deberías elegir?
En esencia, depende de si pagas por capacidad o por rendimiento/throughput. Así lo dividiría yo.
Elige Claude Opus 4.8 si…
- La calidad de finalización tiene consecuencias directas. Sus 1.890 Elo en GDPval-AA y una tasa de alucinación menor que los modelos de Google y OpenAI en AA-Omniscience lo hacen la opción más segura para trabajo de alta precisión.
- Necesitas 128K tokens de salida para generación grande en una sola pasada, casi el doble que los 65.536 de Flash.
- Ya estás construyendo en el ecosistema de Anthropic con Claude Code o la API, y cambiar supone fricción.
- Tus bucles agentic duran lo suficiente como para que los mensajes de sistema a mitad de conversación importen, ya que la Messages API ahora permite actualizar permisos, presupuestos de tokens o contexto durante la tarea sin romper la caché del prompt.
Elige Gemini 3.5 Flash si…
- Tu pipeline ingiere vídeo, audio o PDFs.
- Necesitas volumen de salida, donde 9 $ frente a 25 $ por millón de tokens cambia la ecuación.
- Quieres la mejor puntuación en coordinación multi-herramienta: Flash lidera MCP Atlas con 83,6%, por delante incluso de Opus 4.8 con 82,2%.
- Estás construyendo sobre infraestructura de Google con Antigravity o Vertex AI y prefieres un único proveedor.
- Te importa el control fino del coste, donde los cuatro niveles de pensamiento de Flash superan el único ajuste de esfuerzo de Opus 4.8.
Qué viene después para Flash y los modelos insignia
Este modelo Flash es bastante más caro que versiones Flash anteriores, y Google ha recibido críticas por ello. La brecha de inteligencia entre las gamas Flash y Opus sigue siendo notable, lo que debilita el argumento de pagar precios casi de flagship por un modelo Flash. La carrera más interesante es un modelo pequeño que sea realmente bueno programando y en trabajo agentic, y que siga siendo tan barato como el Composer 2.5 de Cursor.
El modo rápido de Anthropic es el que hay que vigilar para programación agentic, pero el precio le lastrará. A 10 $/50 $, es difícil de justificar para desarrolladores que ejecutan bucles largos, y su adopción dependerá de que Anthropic reconsidere esa cifra.
Anthropic se ha mantenido centrada en la programación, así que dudo que persiga a Google en entrada de vídeo y audio a corto plazo. Eso le abre una puerta a Google, pero solo si logra sacar un modelo Flash o flagship que supere a Opus en tareas agentic. De momento, no lo ha hecho.
Conclusiones
Si la calidad de la tarea y el riesgo de alucinaciones tienen un coste real, por ejemplo en finanzas o medicina, Opus 4.8 es el modelo al que recurrir. Si optimizas por throughput, coste o entrada multimodal, Gemini 3.5 Flash encaja mejor.
Mi lectura: en realidad no compiten por el mismo tipo de trabajo, y la mayoría de equipos sabrán en una frase de describir su carga si están en un lado u otro. La cuestión más difícil es si Google puede cerrar la brecha de capacidad sin renunciar a la ventaja de precio que hace que Flash merezca la pena. Google ya usa Gemini 3.5 Pro internamente, y ese lanzamiento, más que Flash, es el que probablemente pondrá presión real sobre Opus 4.8.
Si quieres afinar las habilidades que hacen que los asistentes de IA sean más fiables en tu propio flujo de trabajo, empieza por nuestro curso AI-Assisted Coding for Developers. Y si quieres crear aplicaciones LLM con prompts, cadenas y agentes, nuestro curso Developing LLM Applications with LangChain es un buen siguiente paso.
Claude Opus 4.8 vs Gemini 3.5 Flash: preguntas frecuentes
¿Es Claude Opus 4.8 mejor que Gemini 3.5 Flash en general?
En benchmarks de inteligencia global, sí. Opus 4.8 consigue 61,4 en el Artificial Analysis Intelligence Index frente a 55 de Flash. Pero mejor depende del caso de uso. Flash es más rápido, más barato y admite entradas de vídeo, audio y PDF que Opus 4.8 no soporta.
¿Qué formatos de entrada admite Gemini 3.5 Flash?
Gemini 3.5 Flash admite entradas de texto, imagen, vídeo, audio y PDF. Claude Opus 4.8 solo admite texto e imagen.
¿Cómo se comparan los precios entre ambos modelos?
Claude Opus 4.8 cuesta 5 $ por millón de tokens de entrada y 25 $ por millón de tokens de salida. Gemini 3.5 Flash cuesta 1,50 $ por millón de entrada y 9 $ por millón de salida. El precio con cache hit es de 0,50 $ por millón en Opus 4.8 y 0,15 $ por millón en Flash.
¿Qué es GDPval-AA y por qué importa en la comparación entre Opus 4.8 y Gemini 3.5 Flash?
GDPval-AA es el benchmark principal de Artificial Analysis para rendimiento agentic en tareas reales de trabajo del conocimiento, puntuado en Elo. Opus 4.8 lidera con 1.890 Elo frente a 1.656 de Flash. Es más útil que los benchmarks tradicionales para evaluar modelos en contextos agentic de producción.
¿Qué modelo tiene una ventana de salida mayor?
Claude Opus 4.8 admite un máximo de 128K tokens de salida, el doble que la ventana de 65.536 tokens de Gemini 3.5 Flash. Para flujos que generan documentos largos, archivos de código grandes o requieren salidas extensas en una sola pasada, Opus 4.8 es la opción preferente.
¿Gemini 3.5 Flash admite modos de pensamiento?
Sí. Flash tiene cuatro niveles de pensamiento: mínimo, bajo, medio y alto. El valor por defecto es medio. Claude Opus 4.8 usa solo pensamiento adaptativo, sin soporte de presupuesto de pensamiento extendido.


