Gemini 3.1: recursos, benchmarks, testes práticos e mais

Conheça o Gemini 3.1 Pro, o mais recente modelo de raciocínio do Google. Explore seus recursos, benchmarks, testes práticos e como ele se compara ao Claude Opus 4.6, Claude Sonnet 4.6 e GPT-5.2.

Atualizado 12 de mai. de 2026 · 11 min lido

A corrida da IA em fevereiro de 2026 foi atipicamente intensa. Depois que a Anthropic lançou o Claude Opus 4.6 e o Claude Sonnet 4.6 com duas semanas de diferença, o Google contra-atacou com o Gemini 3.1 Pro.

O Google afirma que este é um lançamento significativo, principalmente porque o Gemini 3.1 Pro mais do que dobrou seu desempenho de raciocínio em comparação ao Gemini 3 Pro, medido pelo benchmark ARC-AGI-2, no qual atingiu uma pontuação verificada de 77,1%

O ARC-AGI-2 é importante porque testa reconhecimento de padrões inéditos, e não conhecimento memorizado. Ele é projetado para que os modelos não consigam simplesmente "treinar" para obter uma pontuação alta no sentido tradicional. Por isso, dobrar o resultado nesse teste é mais significativo do que, por exemplo, dobrar no MMLU. Mais adiante vamos falar sobre a importância desse resultado e até testá-lo por conta própria.

Para saber mais sobre o ecossistema de IA do Google, recomendo conferir nossos guias sobre NotebookLM e Nano Banana 2, além do nosso tutorial do Gemini CLI. E não deixe de ver nosso guia sobre um dos concorrentes mais fortes do Gemini, o GPT-5.4 da OpenAI.

Mantemos nossos leitores atualizados sobre as novidades em IA com a The Median, nossa newsletter gratuita de sexta-feira que destrincha as principais notícias da semana. Assine e fique por dentro em poucos minutos:

O que é o Gemini 3.1 Pro?

O Gemini 3.1 Pro é o mais novo modelo carro-chefe do Google, lançado em preview em 19 de fevereiro de 2026. É a primeira vez que o Google usa um incremento de versão ".1" (todas as atualizações intermediárias anteriores usavam ".5"), sinalizando um upgrade focado em inteligência, e não uma expansão ampla de recursos. Isso faz sentido porque o Gemini 3 já havia sido um lançamento abrangente, com uma nova arquitetura multimodal.

A postagem de lançamento do Google explica que a inteligência por trás das recentes descobertas científicas do Deep Think, incluindo a refutação de uma conjectura matemática de uma década, agora foi destilada no 3.1 Pro para uso no dia a dia.

Tecnicamente, o Deep Think já estava disponível antes, mas apenas para quem tinha a assinatura Ultra. O Google quer que você acredite que o objetivo sempre foi levar esse raciocínio para o uso cotidiano em escala, mas só com este lançamento do Gemini 3.1 parece que isso está de fato acontecendo. Talvez o Google tenha percebido que os US$ 249/mês da assinatura Ultra estavam acima do que as pessoas estavam dispostas a pagar.

O que há de novo no Gemini 3.1 Pro?

Aqui estão as principais melhorias deste lançamento:

Raciocínio muito mais forte

Como mencionei na introdução, a grande mudança está no raciocínio abstrato e de múltiplas etapas. O desempenho do Gemini 3.1 no ARC-AGI-2 mais que dobrou em comparação ao Gemini 3 Pro em cerca de três meses.

Além das melhorias no ARC-AGI-2, o modelo atingiu a maior pontuação já registrada no GPQA Diamond, um benchmark de ciência em nível de pós-graduação.

O Gemini 3.1 Pro adota sempre um "pensamento dinâmico": ele aplica automaticamente chain-of-thought conforme a complexidade da tarefa.

A API introduziu um novo parâmetro thinking_level com quatro níveis: low, medium (novo no 3.1), high e max, dando aos desenvolvedores um meio-termo entre velocidade e profundidade.

Desempenho agentic bem melhor

Um dos padrões mais claros neste lançamento é o quanto os benchmarks de agentes evoluíram. O modelo agora tem pontuações muito mais altas em pesquisa autônoma na web, tarefas longas de múltiplas etapas e codificação em terminal do que seu antecessor.

Para quem constrói fluxos de trabalho em que o modelo opera com supervisão mínima (debug, pesquisa na web, coleta de dados), essas melhorias fazem diferença prática.

O desempenho agentic praticamente dobrou em algumas categorias em relação ao Gemini 3 Pro, e agora supera o GPT-5.2 e o Claude na maioria desses benchmarks.

Saída animada baseada em código

Este ponto me chamou a atenção. O Google destacou que o Gemini 3.1 Pro consegue gerar SVGs animados e dashboards interativos inteiramente via código. Como são definições matemáticas e não imagens renderizadas, eles escalam sem perda de qualidade e são muito menores do que arquivos de vídeo.

Os exemplos do lançamento impressionam: um site de portfólio gerado a partir dos temas de Wuthering Heights, um dashboard aeroespacial ao vivo puxando telemetria da ISS e um bando 3D de estorninhos com hand-tracking e trilha sonora generativa.

São saídas em código, não imagens, o que significa que são editáveis, incorporáveis e leves.

Corte de saída finalmente corrigido

Menos chamativo, porém provavelmente mais relevante para quem usou o Gemini 3 Pro em produção: uma queixa recorrente do modelo anterior era que ele cortava respostas longas no meio da geração.

Relatos de usuários após o lançamento indicam que o 3.1 Pro resolve isso. Um usuário relatou gerar uma resposta enorme em uma única execução, sem nenhum truncamento.

A JetBrains também confirmou melhorias reais de qualidade com o novo modelo, destacando que ele entrega "resultados mais confiáveis" com "menos tokens de saída". Esse ganho de eficiência, somado ao fim do truncamento, faz diferença na geração de textos longos.

Benchmarks do Gemini 3.1 Pro

O Google mostra que o Gemini 3.1 Pro lidera em 13 dos 16 testes de benchmark mais importantes, incluindo os relacionados a raciocínio abstrato, tarefas de agente e ciência em nível de pós-graduação. (O Gemini 3 Pro já liderava em alguns desses benchmarks.)

Veja como o modelo mais recente se compara aos outros grandes lançamentos de fevereiro de 2026.

Como dá para ver, e como já mencionei, o resultado em raciocínio abstrato é o mais marcante. O Gemini 3.1 Pro lidera com folga sobre o Opus 4.6, que por sua vez lidera com folga sobre o GPT-5.2. Isso representa uma mudança real em relação ao cenário dos modelos de fronteira de um ano atrás.

Onde o Claude ainda leva vantagem

Quero ser direto sobre isso porque é fácil se empolgar com os grandes números. Os modelos Claude realmente lideram em algumas áreas importantes:

Engenharia de software no mundo real: o Opus 4.6 vence por pouco no SWE-bench Verified. (É quase empate, mas a Anthropic fica com a bandeira.)
Raciocínio com ferramentas: o Opus 4.6 supera o Gemini 3.1 Pro quando ambos podem usar ferramentas externas, sugerindo uma integração mais forte de ferramentas.
Trabalho intensivo em conhecimento: o Sonnet 4.6 lidera com ampla margem no GDPval-AA, que mede tarefas economicamente valiosas como modelagem financeira e pesquisa. É uma lacuna que vale acompanhar.
Uso de computador via GUI: o Claude lidera com clareza aqui, sem equivalente publicado do Gemini.

O retrato honesto: o Gemini 3.1 Pro é o melhor modelo hoje para raciocínio abstrato, conhecimento científico e amplitude multimodal. Os Claude ainda estão à frente em trabalho de conhecimento, orquestração de ferramentas e operação de software por interface gráfica.

Testando o Gemini 3.1 Pro

Para ver como essas melhorias se traduzem em raciocínio no mundo real, rodei três testes projetados para explorar diferentes aspectos do pensamento abstrato:

Teste 1: um quebra-cabeça de sequência de símbolos

Para avaliar como o Gemini 3.1 Pro lida com raciocínio no estilo ARC-AGI-2, usamos um quebra-cabeça simples de inferência de regras. O modelo precisa deduzir uma regra de cor e uma regra de forma a partir de exemplos, sem que as regras sejam informadas explicitamente.

Aqui vai meu prompt:

You are shown these transformations:

- [Red Circle] → [Blue Triangle]
- [Blue Square] → [Red Circle]
- [Red Square] → [Blue Circle]
- [Blue Triangle] → ?

O Gemini 3.1 Pro respondeu corretamente [Red Square]. O modelo identificou as duas regras de forma independente: as cores alternam (Red ↔ Blue) e as formas ciclam (Square → Circle → Triangle → Square). Em seguida, percorreu a lógica passo a passo, mostrando como Blue Triangle vira Red (alternância de cor) e Square (próxima no ciclo de formas) — exatamente o tipo de raciocínio composicional que este teste avalia.

Teste 2: a sequência disfarçada

Este teste verifica a eliminação de hipóteses em múltiplas camadas. Damos ao modelo duas sequências e pedimos que identifique o que é a primeira sequência (números de partição da OEIS) e descubra as duas transformações aplicadas para produzir a segunda.

Here are two sequences. The second was derived from the first in two separate steps. 
Identify the named mathematical sequence that Sequence A belongs to, and work out 
both transformations that were applied to produce Sequence B.

Sequence A: 1, 1, 2, 3, 5, 7, 11, 15, 22, 30, 42, 56, 77
Sequence B: 2, 3, 5, 8, 3, 9, 8, 1, 7, 9, 8, 7

Explain your reasoning step by step.

O Gemini 3.1 Pro identificou corretamente a Sequência A como números de partição (A000041) e explicou o que números de partição representam em teoria dos números. Depois, percorreu sistematicamente as duas transformações: primeiro somando pares consecutivos para gerar uma sequência intermediária e, em seguida, calculando a raiz digital de cada resultado. O modelo conferiu cada etapa com a Sequência B, mostrando toda a cadeia de raciocínio da sequência original até a saída final.

Teste 3: a rede de relógios quebrados

Este teste foca na verificação de consistência de restrições. Seis relógios estão em rede, cada um aplicando um desvio fixo de 20 minutos. Um relógio está quebrado. O modelo precisa traçar os dois caminhos pela rede e encontrar a contradição.

Aqui está o prompt que usei:

Six clocks (A, B, C, D, E, and F) are connected in a network. Each clock applies 
a fixed offset to the time it receives. A is the root and shows 12:00. You observe:

- B receives from A and shows 12:20
- C receives from A and shows 11:40
- D receives from B and shows 12:40
- E receives from C and shows 11:00
- F receives from both D and E and shows 13:00

There is exactly one broken clock in the network. Based on the pattern of offsets, 
identify which clock is broken, and give two possible answers for what it should 
actually show (one for each path through the network).

Explain your reasoning step by step.

O Gemini 3.1 Pro identificou corretamente F como o relógio quebrado e inferiu dois valores possíveis para ele: 13:00 pelo caminho de D e 10:00 pelo caminho de E. O modelo tratou o caminho da direita como um desvio constante de +20 minutos e o caminho da esquerda como uma sequência aritmética de −20, −40 e depois −60 minutos.

Mão na massa com o Gemini 3.1 Pro

Além dos testes de raciocínio abstrato, eu quis ver como o modelo lida com tarefas práticas que mostram seus novos recursos.

Geração de SVG animado

O Google deu bastante destaque à saída visual baseada em código no lançamento, então testei diretamente com um briefing simples e sem template.

Aqui está o prompt que usei:

Create an animated SVG loading spinner with three bouncing dots. Make it smooth, 
professional, and suitable for embedding on a website. Output only the SVG code.

O Gemini 3.1 Pro retornou um SVG limpo com animações em CSS. A saída foi um loader de três pontos com tempos de salto defasados, exatamente como pedido. Renderizou corretamente no navegador de primeira, sem ajustes. O arquivo ficou minúsculo e, por ser vetorial, escala perfeitamente para qualquer tamanho.

É um daqueles recursos que parecem firula no press release, mas se mostram bem úteis. Gráficos animados leves, incorporáveis e infinitamente escaláveis a partir de um prompt de texto são uma ótima ferramenta para prototipagem de frontend ou criação rápida de assets visuais.

Como acessar o Gemini 3.1 Pro?

O Gemini 3.1 Pro está em preview no momento. O Google disse que chegará à disponibilidade geral em breve, após incorporar feedback e melhorar os fluxos de trabalho de agentes.

Aqui estão as principais formas de acesso:

Gemini CLI

O Gemini CLI é um agente de terminal open source que dá ao modelo acesso direto ao seu ambiente local. Instale com o comando abaixo:

npm install -g @google/gemini-cli
# Or run directly: npx @google/gemini-cli

O CLI usa um loop ReAct, ou seja, consegue escrever código, executá-lo, ler erros, corrigir problemas e iterar por conta própria. Com a melhora do 3.1 Pro em codificação de terminal, esse loop ficou visivelmente mais confiável. O plano gratuito oferece 60 requisições por minuto e 1.000 por dia.

Gemini API

A Gemini API dá acesso programático direto ao Gemini 3.1 Pro.

O ID do modelo que você vai usar é: gemini-3.1-pro-preview

Aqui vai um código em Python para você começar:

from google import genai

client = genai.Client()
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="Your prompt here"
)
print(response.text)

A precificação é a mesma do Gemini 3 Pro Preview.

Tamanho de contexto	Entrada (por 1M tokens)	Saída (por 1M tokens)
≤200K tokens	$2.00	$12.00
>200K tokens	$4.00	$18.00

O parâmetro thinking_level aceita low, medium, high ou max. As ferramentas compatíveis incluem Google Search, contexto por URL, execução de código e busca em arquivos. Vou detalhar a janela de contexto na seção de comparação abaixo.

NotebookLM

NotebookLM agora é alimentado pelo Gemini 3.1 Pro para assinantes do Google AI Pro e Ultra. O NotebookLM responde apenas com base nos documentos que você envia, o que o torna uma ferramenta de pesquisa muito útil quando você quer que o modelo se mantenha fiel a materiais específicos.

Acesso para consumidores

O Google começou a liberar o Gemini 3.1 Pro em seus produtos para consumidores e desenvolvedores, mas não publicou um mapeamento simples do tipo "plano X = modelo Y". Na prática, você verá o 3.1 Pro no app Gemini e na API conforme o rollout, com o AI Ultra oferecendo o acesso mais amplo.

Plano	Preço mensal (EUA)	O que você recebe relacionado ao Gemini
Gratuito	$0	Gemini 3 Flash no app Gemini, recursos limitados
Google AI Pro	$19.99	Limites maiores e acesso aos modelos Gemini Pro no app Gemini
Google AI Ultra	$249.99 (com frequência com desconto para $124.99 nos 3 primeiros meses)	Limites máximos, modo Deep Think e acesso aos recursos mais recentes de IA do Google nos produtos

Gemini 3.1 Pro vs. modelos Claude

Os lançamentos de fevereiro de 2026 do Google e da Anthropic criaram um conjunto de trade-offs bem interessante. Não é um cenário em que um modelo vence com folga. A escolha certa depende muito do que você está construindo.

Vale destacar a diferença de preço. O Gemini 3.1 Pro é bem mais barato em entrada e saída do que o Claude Opus 4.6. Se você roda chamadas de API em alto volume, isso não é pouca coisa.

Escolha o Gemini 3.1 Pro quando:

Raciocínio abstrato e análise científica são a prioridade
Você precisa de suporte multimodal robusto e nativo para vídeo e áudio no mesmo modelo
Você quer a janela de contexto de 1M na sua forma estável, não beta
Custo-benefício importa, especialmente em escala

Escolha o Claude Opus 4.6 quando:

Você precisa dos 128K tokens de saída (o Gemini limita em 64K)
Orquestração multiagente é central no seu fluxo (Agent Teams é um diferencial real)
Uso de computador via GUI é importante
Você faz trabalho intensivo em conhecimento, onde a qualidade de pesquisa profunda é essencial

Escolha o Claude Sonnet 4.6 quando:

As tarefas principais são trabalho de conhecimento, análise de documentos ou análise financeira
Você precisa de desempenho quase topo de linha por um preço menor
Você já usa as ferramentas da Anthropic e o Sonnet é seu padrão

Casos de uso do Gemini 3.1 Pro

Com base nos benchmarks e nos testes práticos, estas são as áreas em que o Gemini 3.1 Pro é especialmente indicado:

Pesquisa e análise científica: Forte desempenho no GPQA Diamond mais janela de 1M tornam viáveis revisão de literatura, geração de hipóteses e síntese entre vários artigos ao mesmo tempo.
Agentes de pesquisa autônomos: Melhoras nos benchmarks de agentes se traduzem em tarefas reais de múltiplas etapas, como reunir informações de várias fontes, verificar fatos e produzir relatórios estruturados com supervisão mínima.

Análise e refatoração de codebase: Uma janela grande de contexto, somada ao raciocínio aprimorado, ajuda em tarefas como identificar inconsistências arquiteturais entre módulos ou rastrear bugs em múltiplos arquivos.

Análise de conteúdo multimodal: Suporte nativo a vídeo e áudio permite analisar reuniões gravadas, extrair insights de aulas em vídeo ou processar podcasts sem pré-processamento.

Implantações em produção sensíveis a custo: Custando cerca de metade do Claude Opus 4.6, faz sentido para inferência em alto volume quando a qualidade do raciocínio importa, mas o orçamento é limitado.

Prototipagem e assets visuais: Saída animada baseada em código gera spinners, gráficos animados ou dashboards interativos a partir de prompts de texto que você pode incorporar diretamente.

Considerações finais

O Gemini 3.1 Pro é um bom exemplo de para onde esses modelos estão indo. Menos foco em novos tipos de entrada, mais foco em raciocínio melhor, agentes mais confiáveis e manejo de contextos mais longos. Mesmo sendo apenas um lançamento ".1", as melhorias nos benchmarks e a conexão com o Deep Think fazem parecer um passo maior na forma como esses sistemas pensam.

Para times que constroem produtos de verdade, não existe um único "melhor" modelo. O Gemini 3.1 Pro funciona muito bem para raciocínio científico, agentes de pesquisa e análise de grandes codebases — especialmente considerando o preço e o suporte a vídeo. O Claude ainda é melhor para trabalho de conhecimento e uso de computador pela tela, e o GPT-5.3-Codex ainda vence em alguns testes de código.

A questão interessante é o que acontece quando sair do preview. O Google disse que está trabalhando em melhorias de agentes antes do lançamento geral. Se isso chegar junto com os upgrades atuais de raciocínio, a distância entre modelos de pesquisa como o Deep Think e modelos do dia a dia vai diminuir. Por enquanto, é uma boa hora para testar modelos diferentes e construir sistemas que aproveitem o melhor de cada um.

Para começar com as ferramentas de IA do Google, confira nosso curso Introdução ao Google Gemini. Para trabalhar com a API em Python, nosso tutorial Working with the Gemini API cobre o essencial.

Author

Khalid Abdelaty

O Gemini 3.1 Pro é gratuito?

Qual a diferença entre o Gemini 3.1 Pro e o Deep Think?

Ele realmente entende vídeo ou só extrai quadros?

Como a janela de contexto de 1M se compara à do Claude?

Quando ele sai do preview?

Tópicos

Inteligência Artificial

Aprenda com a DataCamp

Curso

Ética em IA

1 h

133.5K

Explore a ética da IA, com foco em princípios, justiça, redução de vieses e confiança no design de IA.

Ver detalhes

Iniciar curso

Curso

Building AI Agents with Google ADK

1 h

6.6K

Build a customer-support assistant step-by-step with Google’s Agent Development Kit (ADK).

Ver detalhes

Iniciar curso

Curso

IA na prática com Google Gemini e NotebookLM

2 h

7.4K

Domine o Gemini e o NotebookLM para automatizar tarefas, aumentar a produtividade e trabalhar de forma mais inteligente em todo o ecossistema de IA do Google.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.

Richie Cotton

7 min

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.

Abid Ali Awan

9 min

Tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.

Moez Ali

Tutorial

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

O DeepSeek-Coder-V2 é um modelo de linguagem de código de código aberto que rivaliza com o desempenho do GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B ou Codestral.

Dimitri Didmanidze

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.

Abid Ali Awan

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.

Arunn Thevapalan

Ver mais Ver mais

O que é o Gemini 3.1 Pro?

O que há de novo no Gemini 3.1 Pro?

Raciocínio muito mais forte

Desempenho agentic bem melhor

Saída animada baseada em código

Corte de saída finalmente corrigido

Benchmarks do Gemini 3.1 Pro

Onde o Claude ainda leva vantagem

Testando o Gemini 3.1 Pro

Teste 1: um quebra-cabeça de sequência de símbolos

Teste 2: a sequência disfarçada

Teste 3: a rede de relógios quebrados

Mão na massa com o Gemini 3.1 Pro

Geração de SVG animado

Como acessar o Gemini 3.1 Pro?

Gemini CLI

Gemini API

NotebookLM

Acesso para consumidores

Gemini 3.1 Pro vs. modelos Claude

Escolha o Gemini 3.1 Pro quando:

Escolha o Claude Opus 4.6 quando:

Escolha o Claude Sonnet 4.6 quando:

Casos de uso do Gemini 3.1 Pro

Considerações finais

Gemini 3.1: perguntas frequentes

Ele realmente entende vídeo ou só extrai quadros?

Como a janela de contexto de 1M se compara à do Claude?

Quando ele sai do preview?

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

12 Alternativas de código aberto ao GPT-4

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

Primeiros passos com o Claude 3 e a API do Claude 3

Visão GPT-4: Um guia abrangente para iniciantes

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Ética em IA

Building AI Agents with Google ADK

IA na prática com Google Gemini e NotebookLM

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

12 Alternativas de código aberto ao GPT-4

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

Primeiros passos com o Claude 3 e a API do Claude 3

Visão GPT-4: Um guia abrangente para iniciantes

Ética em IA