Pular para o conteúdo principal

Gemini 3.1: recursos, benchmarks, testes práticos e mais

Conheça o Gemini 3.1 Pro, o mais recente modelo de raciocínio do Google. Explore seus recursos, benchmarks, testes práticos e como ele se compara ao Claude Opus 4.6, Claude Sonnet 4.6 e GPT-5.2.
Atualizado 12 de mai. de 2026  · 11 min lido

A corrida da IA em fevereiro de 2026 foi atipicamente intensa. Depois que a Anthropic lançou o Claude Opus 4.6 e o Claude Sonnet 4.6 com duas semanas de diferença, o Google contra-atacou com o Gemini 3.1 Pro.

O Google afirma que este é um lançamento significativo, principalmente porque o Gemini 3.1 Pro mais do que dobrou seu desempenho de raciocínio em comparação ao Gemini 3 Pro, medido pelo benchmark ARC-AGI-2, no qual atingiu uma pontuação verificada de 77,1% 

O ARC-AGI-2 é importante porque testa reconhecimento de padrões inéditos, e não conhecimento memorizado. Ele é projetado para que os modelos não consigam simplesmente "treinar" para obter uma pontuação alta no sentido tradicional. Por isso, dobrar o resultado nesse teste é mais significativo do que, por exemplo, dobrar no MMLU. Mais adiante vamos falar sobre a importância desse resultado e até testá-lo por conta própria.

Para saber mais sobre o ecossistema de IA do Google, recomendo conferir nossos guias sobre NotebookLM e Nano Banana 2, além do nosso tutorial do Gemini CLI. E não deixe de ver nosso guia sobre um dos concorrentes mais fortes do Gemini, o GPT-5.4 da OpenAI.

Mantemos nossos leitores atualizados sobre as novidades em IA com a The Median, nossa newsletter gratuita de sexta-feira que destrincha as principais notícias da semana. Assine e fique por dentro em poucos minutos:

O que é o Gemini 3.1 Pro?

O Gemini 3.1 Pro é o mais novo modelo carro-chefe do Google, lançado em preview em 19 de fevereiro de 2026. É a primeira vez que o Google usa um incremento de versão ".1" (todas as atualizações intermediárias anteriores usavam ".5"), sinalizando um upgrade focado em inteligência, e não uma expansão ampla de recursos. Isso faz sentido porque o Gemini 3 já havia sido um lançamento abrangente, com uma nova arquitetura multimodal.

A postagem de lançamento do Google explica que a inteligência por trás das recentes descobertas científicas do Deep Think, incluindo a refutação de uma conjectura matemática de uma década, agora foi destilada no 3.1 Pro para uso no dia a dia.

Tecnicamente, o Deep Think já estava disponível antes, mas apenas para quem tinha a assinatura Ultra. O Google quer que você acredite que o objetivo sempre foi levar esse raciocínio para o uso cotidiano em escala, mas só com este lançamento do Gemini 3.1 parece que isso está de fato acontecendo. Talvez o Google tenha percebido que os US$ 249/mês da assinatura Ultra estavam acima do que as pessoas estavam dispostas a pagar.

Pontuações do Gemini 3.1 no ARC-AGI 2

O que há de novo no Gemini 3.1 Pro?

Aqui estão as principais melhorias deste lançamento:

Raciocínio muito mais forte

Como mencionei na introdução, a grande mudança está no raciocínio abstrato e de múltiplas etapas. O desempenho do Gemini 3.1 no ARC-AGI-2 mais que dobrou em comparação ao Gemini 3 Pro em cerca de três meses. 

Além das melhorias no ARC-AGI-2, o modelo atingiu a maior pontuação já registrada no GPQA Diamond, um benchmark de ciência em nível de pós-graduação.

O Gemini 3.1 Pro adota sempre um "pensamento dinâmico": ele aplica automaticamente chain-of-thought conforme a complexidade da tarefa. 

A API introduziu um novo parâmetro thinking_level com quatro níveis: low, medium (novo no 3.1), high e max, dando aos desenvolvedores um meio-termo entre velocidade e profundidade.

Desempenho agentic bem melhor

Um dos padrões mais claros neste lançamento é o quanto os benchmarks de agentes evoluíram. O modelo agora tem pontuações muito mais altas em pesquisa autônoma na web, tarefas longas de múltiplas etapas e codificação em terminal do que seu antecessor.

Para quem constrói fluxos de trabalho em que o modelo opera com supervisão mínima (debug, pesquisa na web, coleta de dados), essas melhorias fazem diferença prática. 

O desempenho agentic praticamente dobrou em algumas categorias em relação ao Gemini 3 Pro, e agora supera o GPT-5.2 e o Claude na maioria desses benchmarks.

Saída animada baseada em código

Este ponto me chamou a atenção. O Google destacou que o Gemini 3.1 Pro consegue gerar SVGs animados e dashboards interativos inteiramente via código. Como são definições matemáticas e não imagens renderizadas, eles escalam sem perda de qualidade e são muito menores do que arquivos de vídeo.

Os exemplos do lançamento impressionam: um site de portfólio gerado a partir dos temas de Wuthering Heights, um dashboard aeroespacial ao vivo puxando telemetria da ISS e um bando 3D de estorninhos com hand-tracking e trilha sonora generativa. 

São saídas em código, não imagens, o que significa que são editáveis, incorporáveis e leves.

Corte de saída finalmente corrigido

Menos chamativo, porém provavelmente mais relevante para quem usou o Gemini 3 Pro em produção: uma queixa recorrente do modelo anterior era que ele cortava respostas longas no meio da geração.

Relatos de usuários após o lançamento indicam que o 3.1 Pro resolve isso. Um usuário relatou gerar uma resposta enorme em uma única execução, sem nenhum truncamento. 

A JetBrains também confirmou melhorias reais de qualidade com o novo modelo, destacando que ele entrega "resultados mais confiáveis" com "menos tokens de saída". Esse ganho de eficiência, somado ao fim do truncamento, faz diferença na geração de textos longos.

Benchmarks do Gemini 3.1 Pro

O Google mostra que o Gemini 3.1 Pro lidera em 13 dos 16 testes de benchmark mais importantes, incluindo os relacionados a raciocínio abstrato, tarefas de agente e ciência em nível de pós-graduação. (O Gemini 3 Pro já liderava em alguns desses benchmarks.)

Veja como o modelo mais recente se compara aos outros grandes lançamentos de fevereiro de 2026.

Benchmarks do Gemini 3.1

Como dá para ver, e como já mencionei, o resultado em raciocínio abstrato é o mais marcante. O Gemini 3.1 Pro lidera com folga sobre o Opus 4.6, que por sua vez lidera com folga sobre o GPT-5.2. Isso representa uma mudança real em relação ao cenário dos modelos de fronteira de um ano atrás.

Onde o Claude ainda leva vantagem

Quero ser direto sobre isso porque é fácil se empolgar com os grandes números. Os modelos Claude realmente lideram em algumas áreas importantes:

  • Engenharia de software no mundo real: o Opus 4.6 vence por pouco no SWE-bench Verified. (É quase empate, mas a Anthropic fica com a bandeira.)
  • Raciocínio com ferramentas: o Opus 4.6 supera o Gemini 3.1 Pro quando ambos podem usar ferramentas externas, sugerindo uma integração mais forte de ferramentas.
  • Trabalho intensivo em conhecimento: o Sonnet 4.6 lidera com ampla margem no GDPval-AA, que mede tarefas economicamente valiosas como modelagem financeira e pesquisa. É uma lacuna que vale acompanhar.
  • Uso de computador via GUI: o Claude lidera com clareza aqui, sem equivalente publicado do Gemini.

O retrato honesto: o Gemini 3.1 Pro é o melhor modelo hoje para raciocínio abstrato, conhecimento científico e amplitude multimodal. Os Claude ainda estão à frente em trabalho de conhecimento, orquestração de ferramentas e operação de software por interface gráfica.

Testando o Gemini 3.1 Pro

Para ver como essas melhorias se traduzem em raciocínio no mundo real, rodei três testes projetados para explorar diferentes aspectos do pensamento abstrato:

Teste 1: um quebra-cabeça de sequência de símbolos

Para avaliar como o Gemini 3.1 Pro lida com raciocínio no estilo ARC-AGI-2, usamos um quebra-cabeça simples de inferência de regras. O modelo precisa deduzir uma regra de cor e uma regra de forma a partir de exemplos, sem que as regras sejam informadas explicitamente.

Aqui vai meu prompt:

You are shown these transformations:

- [Red Circle] → [Blue Triangle]
- [Blue Square] → [Red Circle]
- [Red Square] → [Blue Circle]
- [Blue Triangle] → ?

O Gemini 3.1 Pro respondeu corretamente [Red Square]. O modelo identificou as duas regras de forma independente: as cores alternam (Red ↔ Blue) e as formas ciclam (Square → Circle → Triangle → Square). Em seguida, percorreu a lógica passo a passo, mostrando como Blue Triangle vira Red (alternância de cor) e Square (próxima no ciclo de formas) — exatamente o tipo de raciocínio composicional que este teste avalia.

Teste 2: a sequência disfarçada

Este teste verifica a eliminação de hipóteses em múltiplas camadas. Damos ao modelo duas sequências e pedimos que identifique o que é a primeira sequência (números de partição da OEIS) e descubra as duas transformações aplicadas para produzir a segunda.

Here are two sequences. The second was derived from the first in two separate steps. 
Identify the named mathematical sequence that Sequence A belongs to, and work out 
both transformations that were applied to produce Sequence B.

Sequence A: 1, 1, 2, 3, 5, 7, 11, 15, 22, 30, 42, 56, 77
Sequence B: 2, 3, 5, 8, 3, 9, 8, 1, 7, 9, 8, 7

Explain your reasoning step by step.

O Gemini 3.1 Pro identificou corretamente a Sequência A como números de partição (A000041) e explicou o que números de partição representam em teoria dos números. Depois, percorreu sistematicamente as duas transformações: primeiro somando pares consecutivos para gerar uma sequência intermediária e, em seguida, calculando a raiz digital de cada resultado. O modelo conferiu cada etapa com a Sequência B, mostrando toda a cadeia de raciocínio da sequência original até a saída final.

Teste 3: a rede de relógios quebrados

Este teste foca na verificação de consistência de restrições. Seis relógios estão em rede, cada um aplicando um desvio fixo de 20 minutos. Um relógio está quebrado. O modelo precisa traçar os dois caminhos pela rede e encontrar a contradição.

Aqui está o prompt que usei:

Six clocks (A, B, C, D, E, and F) are connected in a network. Each clock applies 
a fixed offset to the time it receives. A is the root and shows 12:00. You observe:

- B receives from A and shows 12:20
- C receives from A and shows 11:40
- D receives from B and shows 12:40
- E receives from C and shows 11:00
- F receives from both D and E and shows 13:00

There is exactly one broken clock in the network. Based on the pattern of offsets, 
identify which clock is broken, and give two possible answers for what it should 
actually show (one for each path through the network).

Explain your reasoning step by step.

O Gemini 3.1 Pro identificou corretamente F como o relógio quebrado e inferiu dois valores possíveis para ele: 13:00 pelo caminho de D e 10:00 pelo caminho de E. O modelo tratou o caminho da direita como um desvio constante de +20 minutos e o caminho da esquerda como uma sequência aritmética de −20, −40 e depois −60 minutos.

Mão na massa com o Gemini 3.1 Pro

Além dos testes de raciocínio abstrato, eu quis ver como o modelo lida com tarefas práticas que mostram seus novos recursos.

Geração de SVG animado

O Google deu bastante destaque à saída visual baseada em código no lançamento, então testei diretamente com um briefing simples e sem template.

Aqui está o prompt que usei:

Create an animated SVG loading spinner with three bouncing dots. Make it smooth, 
professional, and suitable for embedding on a website. Output only the SVG code.

O Gemini 3.1 Pro retornou um SVG limpo com animações em CSS. A saída foi um loader de três pontos com tempos de salto defasados, exatamente como pedido. Renderizou corretamente no navegador de primeira, sem ajustes. O arquivo ficou minúsculo e, por ser vetorial, escala perfeitamente para qualquer tamanho.

É um daqueles recursos que parecem firula no press release, mas se mostram bem úteis. Gráficos animados leves, incorporáveis e infinitamente escaláveis a partir de um prompt de texto são uma ótima ferramenta para prototipagem de frontend ou criação rápida de assets visuais.

Como acessar o Gemini 3.1 Pro?

O Gemini 3.1 Pro está em preview no momento. O Google disse que chegará à disponibilidade geral em breve, após incorporar feedback e melhorar os fluxos de trabalho de agentes.

Aqui estão as principais formas de acesso:

Gemini CLI

O Gemini CLI é um agente de terminal open source que dá ao modelo acesso direto ao seu ambiente local. Instale com o comando abaixo:

npm install -g @google/gemini-cli
# Or run directly: npx @google/gemini-cli

O CLI usa um loop ReAct, ou seja, consegue escrever código, executá-lo, ler erros, corrigir problemas e iterar por conta própria. Com a melhora do 3.1 Pro em codificação de terminal, esse loop ficou visivelmente mais confiável. O plano gratuito oferece 60 requisições por minuto e 1.000 por dia.

Gemini API

A Gemini API dá acesso programático direto ao Gemini 3.1 Pro. 

gemini 3.1 api

O ID do modelo que você vai usar é: gemini-3.1-pro-preview

Aqui vai um código em Python para você começar:

from google import genai

client = genai.Client()
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="Your prompt here"
)
print(response.text)

A precificação é a mesma do Gemini 3 Pro Preview.

Tamanho de contexto

Entrada (por 1M tokens)

Saída (por 1M tokens)

≤200K tokens

$2.00

$12.00

>200K tokens

$4.00

$18.00

O parâmetro thinking_level aceita low, medium, high ou max. As ferramentas compatíveis incluem Google Search, contexto por URL, execução de código e busca em arquivos. Vou detalhar a janela de contexto na seção de comparação abaixo.

NotebookLM

NotebookLM agora é alimentado pelo Gemini 3.1 Pro para assinantes do Google AI Pro e Ultra. O NotebookLM responde apenas com base nos documentos que você envia, o que o torna uma ferramenta de pesquisa muito útil quando você quer que o modelo se mantenha fiel a materiais específicos.

Acesso para consumidores

O Google começou a liberar o Gemini 3.1 Pro em seus produtos para consumidores e desenvolvedores, mas não publicou um mapeamento simples do tipo "plano X = modelo Y". Na prática, você verá o 3.1 Pro no app Gemini e na API conforme o rollout, com o AI Ultra oferecendo o acesso mais amplo.

Plano

Preço mensal (EUA)

O que você recebe relacionado ao Gemini

Gratuito

$0

Gemini 3 Flash no app Gemini, recursos limitados

Google AI Pro

$19.99

Limites maiores e acesso aos modelos Gemini Pro no app Gemini

Google AI Ultra

$249.99 (com frequência com desconto para $124.99 nos 3 primeiros meses)

Limites máximos, modo Deep Think e acesso aos recursos mais recentes de IA do Google nos produtos

Gemini 3.1 Pro vs. modelos Claude

Os lançamentos de fevereiro de 2026 do Google e da Anthropic criaram um conjunto de trade-offs bem interessante. Não é um cenário em que um modelo vence com folga. A escolha certa depende muito do que você está construindo.

Vale destacar a diferença de preço. O Gemini 3.1 Pro é bem mais barato em entrada e saída do que o Claude Opus 4.6. Se você roda chamadas de API em alto volume, isso não é pouca coisa.

Escolha o Gemini 3.1 Pro quando:

  • Raciocínio abstrato e análise científica são a prioridade
  • Você precisa de suporte multimodal robusto e nativo para vídeo e áudio no mesmo modelo
  • Você quer a janela de contexto de 1M na sua forma estável, não beta
  • Custo-benefício importa, especialmente em escala

Escolha o Claude Opus 4.6 quando:

  • Você precisa dos 128K tokens de saída (o Gemini limita em 64K)
  • Orquestração multiagente é central no seu fluxo (Agent Teams é um diferencial real)
  • Uso de computador via GUI é importante
  • Você faz trabalho intensivo em conhecimento, onde a qualidade de pesquisa profunda é essencial

Escolha o Claude Sonnet 4.6 quando:

  • As tarefas principais são trabalho de conhecimento, análise de documentos ou análise financeira
  • Você precisa de desempenho quase topo de linha por um preço menor
  • Você já usa as ferramentas da Anthropic e o Sonnet é seu padrão

Casos de uso do Gemini 3.1 Pro

Com base nos benchmarks e nos testes práticos, estas são as áreas em que o Gemini 3.1 Pro é especialmente indicado:

  • Pesquisa e análise científica: Forte desempenho no GPQA Diamond mais janela de 1M tornam viáveis revisão de literatura, geração de hipóteses e síntese entre vários artigos ao mesmo tempo.
  • Agentes de pesquisa autônomos: Melhoras nos benchmarks de agentes se traduzem em tarefas reais de múltiplas etapas, como reunir informações de várias fontes, verificar fatos e produzir relatórios estruturados com supervisão mínima.
  • Análise e refatoração de codebase: Uma janela grande de contexto, somada ao raciocínio aprimorado, ajuda em tarefas como identificar inconsistências arquiteturais entre módulos ou rastrear bugs em múltiplos arquivos.
  • Análise de conteúdo multimodal: Suporte nativo a vídeo e áudio permite analisar reuniões gravadas, extrair insights de aulas em vídeo ou processar podcasts sem pré-processamento.
  • Implantações em produção sensíveis a custo: Custando cerca de metade do Claude Opus 4.6, faz sentido para inferência em alto volume quando a qualidade do raciocínio importa, mas o orçamento é limitado.
  • Prototipagem e assets visuais: Saída animada baseada em código gera spinners, gráficos animados ou dashboards interativos a partir de prompts de texto que você pode incorporar diretamente.

Considerações finais

O Gemini 3.1 Pro é um bom exemplo de para onde esses modelos estão indo. Menos foco em novos tipos de entrada, mais foco em raciocínio melhor, agentes mais confiáveis e manejo de contextos mais longos. Mesmo sendo apenas um lançamento ".1", as melhorias nos benchmarks e a conexão com o Deep Think fazem parecer um passo maior na forma como esses sistemas pensam.

Para times que constroem produtos de verdade, não existe um único "melhor" modelo. O Gemini 3.1 Pro funciona muito bem para raciocínio científico, agentes de pesquisa e análise de grandes codebases — especialmente considerando o preço e o suporte a vídeo. O Claude ainda é melhor para trabalho de conhecimento e uso de computador pela tela, e o GPT-5.3-Codex ainda vence em alguns testes de código.

A questão interessante é o que acontece quando sair do preview. O Google disse que está trabalhando em melhorias de agentes antes do lançamento geral. Se isso chegar junto com os upgrades atuais de raciocínio, a distância entre modelos de pesquisa como o Deep Think e modelos do dia a dia vai diminuir. Por enquanto, é uma boa hora para testar modelos diferentes e construir sistemas que aproveitem o melhor de cada um.

Para começar com as ferramentas de IA do Google, confira nosso curso Introdução ao Google Gemini. Para trabalhar com a API em Python, nosso tutorial Working with the Gemini API cobre o essencial.


Khalid Abdelaty's photo
Author
Khalid Abdelaty
LinkedIn

Sou engenheiro de dados e criador de comunidades que trabalha com pipelines de dados, nuvem e ferramentas de IA, além de escrever tutoriais práticos e de alto impacto para o DataCamp e desenvolvedores iniciantes.

Gemini 3.1: perguntas frequentes

O Gemini 3.1 Pro é gratuito?

Você pode testar gratuitamente pelo Google AI Studio com cotas diárias. Para uso em produção, é preciso um plano pago. O Google AI Pro custa US$ 19,99/mês e o Google AI Ultra custa US$ 249,99/mês (com frequência com desconto para US$ 124,99 nos 3 primeiros meses). O app gratuito do Gemini usa por padrão o Gemini 3 Flash, não o 3.1 Pro.

Qual a diferença entre o Gemini 3.1 Pro e o Deep Think?

O Deep Think é a versão de laboratório de pesquisa: mais lento, mais caro, mas com pontuações mais altas nos benchmarks de raciocínio. O Gemini 3.1 Pro pega esses mesmos upgrades de inteligência e os torna rápidos e acessíveis para uso diário. Pense nele como a versão pronta para produção da mesma tecnologia central.

Ele realmente entende vídeo ou só extrai quadros?

O Gemini 3.1 Pro é nativamente multimodal e pode receber vídeo como entrada junto com texto, imagens e áudio. Na prática, você pode enviar uma gravação e fazer perguntas tanto sobre o que é dito quanto sobre o que aparece na tela. Modelos concorrentes ainda são mais limitados na oferta ampla de recursos de compreensão de vídeo para usuários finais.

Como a janela de contexto de 1M se compara à do Claude?

Como mencionei na comparação, a janela de 1M do Gemini é estável e pronta para produção, enquanto a do Claude está em beta. A saída máxima por requisição é de 64K tokens.

Quando ele sai do preview?

O Google não definiu uma data, mas disse que está trabalhando em melhorias de agentes antes do GA. Pelo histórico, períodos de preview costumam durar alguns meses.

Tópicos

Aprenda com a DataCamp

Curso

Ética em IA

1 h
118.8K
Explore a ética da IA, com foco em princípios, justiça, redução de vieses e confiança no design de IA.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

Tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.
Moez Ali's photo

Moez Ali

Tutorial

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

O DeepSeek-Coder-V2 é um modelo de linguagem de código de código aberto que rivaliza com o desempenho do GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B ou Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

Ver maisVer mais