Pular para o conteúdo principal

O4-Mini da OpenAI: Testes, recursos, comparação do O3 e muito mais

Saiba mais sobre o novo modelo de raciocínio o4-mini da OpenAI, seus recursos, benchmarks de desempenho, custo-benefício e como ele se compara a outros modelos, como o o3.
Atualizado 17 de abr. de 2025  · 8 min lido

Recentemente, a OpenAI apresentou o o4-mini, um novo modelo de raciocínio projetado para ser mais rápido e mais barato que o o3, sem deixar de oferecer suporte a ferramentas como Python, navegação e entradas de imagens. Ao contrário do o3-mini, ele também é multimodal por padrão.

Neste artigo, examinarei mais de perto o que o o4-mini pode realmente fazer. Realizei alguns testes práticos de matemática, código e entrada visual, e incluí os números oficiais de benchmark da OpenAI para mostrar como ela se compara a modelos como o3 e o1.

Você também encontrará detalhes sobre preços, disponibilidade e quando faz sentido escolher o o4-mini em vez de outros modelos.

Mantemos nossos leitores atualizados sobre as últimas novidades em IA enviando o The Median, nosso boletim informativo gratuito de sexta-feira que detalha as principais histórias da semana. Inscreva-se e fique atento em apenas alguns minutos por semana:

O que é o O4-Mini?

O O4-mini é o modelo de raciocínio em pequena escala mais recente da OpenAI na série O. Ele é otimizado para velocidade, preço acessível e raciocínio com ferramentas, com uma janela de contexto de 200.000 tokens e suporte para até 100.000 tokens de saída - no mesmo nível do o3 e o1.

Detalhes do modelo O4-mini

Fonte: OpenAI

A o4-mini custa US$ 1,10 por milhão de tokens de entrada e US$ 4,40 por milhão de tokens de saída, em comparação com o preço de entrada de US$ 10,00 e de saída de US$ 40,00 da o3 - uma redução de custo de aproximadamente 10 vezes para entrada e saída. Como veremos na seção de benchmarks, o o4-mini oferece desempenho comparável ao do o3.

Preços do o4-mini vs. o3

Preço da API o4-mini (esquerda) vs. preço da o3 (direita)

Em termos de ferramentas, o o4-mini é compatível com Python, navegação e entradas de imagem, e se integra aos pontos de extremidade padrão da OpenAI, incluindo conclusões e respostas de bate-papo. Há suporte para streaming, chamadas de função e saídas estruturadas. O ajuste fino e as incorporações não são.

o4-mini vs. o4-mini-high

Se você abriu o aplicativo ChatGPT, deve ter notado a opção de escolher entre o4-mini e o4-mini-high. o4-mini-high é uma configuração do mesmo modelo subjacente com maior esforço de inferência. Isso significa que:

  • Ele gasta mais tempo processando internamente cada prompt,
  • Geralmente produz resultados de maior qualidade, especialmente em tarefas de várias etapas,
  • Mas com tempos de resposta mais lentos e uso potencialmente maior de tokens.

Se você precisar de conclusões mais rápidas, o o4-mini pode ser a melhor opção. Para um raciocínio mais complexo (especialmente se o raciocínio precisar ser feito por meio de codificação ou entrada visual), contextos mais longos ou casos de uso de precisão crítica, o o4-mini-high pode fornecer a você resultados melhores.

Teste do O4-Mini

Vamos testar o o4-mini em um pouco de matemática, codificação e multimodal multimodal.

Matemática

Primeiro, eu queria começar com um cálculo simples que normalmente confunde modelos de linguagem. Eu não estava tentando testar as habilidades aritméticas básicas; em vez disso, queria ver se o modelo escolheria o método correto para resolvê-lo, seja raciocinando passo a passo ou usando uma ferramenta como uma calculadora.

o4-mini não consegue fazer aritmética básica

O resultado estava errado na primeira tentativa. Sugeri que você usasse a calculadora e, embora a segunda resposta estivesse correta, ainda havia dois problemas. Primeiro, ele descreveu o resultado como "aproximadamente", embora não tenha sido necessário nenhum arredondamento ou estimativa para essa subtração.

Em segundo lugar, seu raciocínio mostrou que ele não havia realmente usado a calculadora, apesar de o resultado afirmar que "A calculadora mostra" (o que representa erroneamente como o resultado foi obtido). Curiosamente, ele também pesquisou na Web, o que parece desnecessário para um problema básico de matemática.

o4-mini cadeia de pensamento

Em seguida, testei o modelo em um problema de matemática mais desafiador, e o resultado foi sólido dessa vez. Ele respondeu rapidamente e resolveu o problema usando um script Python curto, que eu pude ver diretamente em sua cadeia de raciocínio. A capacidade de inspecionar o código como parte do processo de raciocínio é um recurso realmente útil.

o4-mini teste de matemática

Geração de um jogo P5js curto

Há algumas semanas, quando testei o Gemini 2.5 Progerei um jogo rápido em p5.js para ver como ele lidava com tarefas de codificação criativa. Eu queria executar o mesmo prompt com o o4-mini, mas dessa vez usei o4-mini-high. O resultado não ficou muito distante do Gemini 2.5 Pro, o que é ótimo, já que se trata de um modelo menor.

A solicitação era: Crie um jogo cativante de corrida sem fim para mim. Instruções-chave na tela. cena p5js, sem HTML. Gosto de dinossauros pixelados e fundos interessantes.

E o primeiro resultado:

Havia algumas coisas que eu queria mudar. Enviei esse prompt de acompanhamento:

1. Desenhe um dinossauro mais convincente - essa bolha não se parece nem um pouco com um dinossauro.

2. Dê ao usuário a opção de iniciar o jogo com o pressionamento de uma tecla - não inicie o jogo imediatamente. Certifique-se de manter todas as instruções na tela.

3. Quando o jogo terminar, dê ao usuário a oportunidade de tentar novamente.

O segundo resultado:

Aquele dinossauro me parece mais uma câmera de filme antiga, mas o resto é ótimo.

Raciocínio multimodal com grandes entradas

Stanford divulgou recentemente Relatório do Índice de IA 2025uma visão geral de 450 páginas (117.649 tokens) sobre o estado atual do setor de IA. Pedi ao o4-mini-high que o lesse e previsse 10 tendências para 2026. Ele executou bem a tarefa e a concluiu em apenas 9 segundos.

Aqui estão as tendências previstas para 2026:

  1. Desempenho quase humano em novos benchmarks de raciocínio
  2. Inferência de custo ultrabaixo para LLMs de produção
  3. Synthetic‑Plus‑Real Data Training Pipelines
  4. Adoção generalizada de hardware nativo de IA
  5. Modelos de fundação multimodal padronizados
  6. Regimes de certificação e auditoria de AI responsável
  7. A descoberta científica orientada por IA acelera o trabalho vencedor do Nobel
  8. Estruturas de governança de IA localizadas com alinhamento global
  9. Democratização da educação em IA e preparação da força de trabalho
  10. Agentes de IA como trabalhadores do conhecimento colaborativo

A maioria delas fazia sentido, embora algumas previsões tendam ao otimismo. Considere o número dois - sim, os custos de inferência estão caindo, mas "ultrabaixo" é um exagero, especialmente para modelos maiores e implementações menos otimizadas.

O número quatro é semelhante: O hardware nativo de IA está progredindo, mas a adoção generalizada depende das cadeias de suprimentos, da integração de software e do suporte do ecossistema, o que leva tempo.

Quanto ao número nove, ainda estamos muito longe de qualquer coisa que possa ser chamada de democratização total do ensino de IA, mas, para ser justo, o modelo não dizia "completo".

Benchmarks do O4-Mini

O O4-mini foi projetado para ser um modelo rápido e econômico, mas ainda assim apresenta bom desempenho em um amplo conjunto de benchmarks de raciocínio. Em alguns casos, ele supera até mesmo modelos maiores, como o o3.

Matemática e lógica

Esses testes se concentram no raciocínio estruturado, geralmente exigindo várias etapas para resolver corretamente os problemas de matemática. Os benchmarks do AIME, por exemplo, são extraídos de competitivos concursos de matemática do ensino médio.

  • AIME 2024Pontuação do o4-mini (sem ferramentas) 93.4%superando o desempenho do o3 (91,6%), do o3-mini (87,3%) e do o1 (74,3%).
  • AIME 2025Pontuação do o4-mini (sem ferramentas) 92.7%novamente superando o o3 (88,9%), o3-mini (86,5%) e o1 (79,2%)

o4-mini no benchmark AIME

Fonte: OpenAI

Codificação

Esses benchmarks testam a capacidade do modelo de escrever, depurar e entender o código. O Codeforces é um conjunto de dados de programação competitiva, enquanto o SWE-Bench e o Aider Polyglot simulam tarefas de engenharia do mundo real.

  • Forças de códigoO o4-mini (com terminal) tem um ELO de 2719um pouco acima da o3 (2706). o3-mini pontua 2073e o o1 fica bem atrás, com 1891.
  • SWE-Bench VerificadoPontuação do o4-mini 68.1%logo atrás do o3 com 69.1%e à frente do o1 (48,9%) e do o3-mini (49,3%).
  • Aider Polyglot (edição de código): o4-mini-high pontua 68,9% (inteiro) e 58,2% (diff). Para fins de comparação, as pontuações o3-high 81,3% (total) e 79,6% (diff).

benchmarks do o4-mini no aider polyglot

Fonte: OpenAI

Raciocínio multimodal

Esses benchmarks medem a capacidade do modelo de processar entradas visuais, como diagramas, gráficos e figuras. Os testes combinam a compreensão da imagem com o raciocínio lógico.

  • MMMUPontuações da o4-mini 81.6%próximo ao o3 (82,9%) e melhor que o o1 (77,6%).
  • MathVistaPontuação do o4-mini 84.3%ficando atrás do o3 (86,8%), mas significativamente acima do o1 (71,8%).
  • CharXiv (figuras científicas): o4-mini atinge 72.0%atrás do o3 (78,6%), mas acima do o1 (55,1%).

o4-mini benchmarks sobre raciocínio multimodal

Fonte: OpenAI

Controle de qualidade geral e raciocínio

Esses conjuntos de dados testam a capacidade de responder a perguntas amplas, incluindo perguntas científicas de nível de doutorado e raciocínio aberto em todas as disciplinas. O uso de ferramentas geralmente é necessário para que você obtenha uma boa pontuação.

  • Diamante GPQAPontuações do o4-mini 81.4%atrás do o3 (83,3%), mas acima do o1 (78,0%) e do o3-mini (77,0%).
  • O último exame da humanidade:
    • o4-mini (sem ferramentas): 14.28%
    • o4-mini (com Python + navegação): 17.70%
    • Para fins de contexto, a o3 (com ferramentas) obteve 24.90%e o Deep Research obteve pontuação de 26.60%.

o4-mini benchmarks sobre QA geral

Fonte: OpenAI

O4-Mini vs. O3: Qual deles você deve usar?

O O4-mini e o O3 se baseiam na mesma filosofia de design subjacente: modelos que podem raciocinar com ferramentas, pensar passo a passo e trabalhar com texto, código e imagens. Mas eles são criados para diferentes compensações. Em resumo:

  • Escolha o3 se a precisão for sua principal prioridade e o custo for uma preocupação menor.
  • Escolha o4-mini se a velocidade, o volume ou a relação custo-benefício forem mais importantes do que a obtenção de alguns pontos extras de benchmark.

O3 é mais forte em geral

O O3 tem pontuação mais alta que o o4-mini em benchmarks como CharXiv, MathVista e Humanity's Last Exam. Ele também mostra melhor consistência em tarefas complexas que exigem cadeias de raciocínio mais longas ou geração precisa de código. Se você estiver trabalhando em problemas de pesquisa, fluxos de trabalho científicos ou qualquer coisa em que a precisão seja mais importante do que a velocidade ou o custo, o o3 é provavelmente a escolha mais segura.

O O4-mini é muito mais barato e mais rápido

A diferença de preço é significativa: o o4-mini custa US$ 1,10 para a entrada e US$ 4,40 para a saída, em comparação com o o3, que custa US$ 10 e US$ 40, respectivamente. Isso representa uma diferença de quase 10 vezes em toda a linha. Você também obtém tempos de resposta mais rápidos e maior rendimento, o que o torna mais adequado para ambientes de produção, ferramentas em tempo real ou qualquer coisa executada em escala.

A multimodalidade não é um fator decisivo

Ambos os modelos são multimodais e com capacidade para ferramentas. Ambos suportam Python, navegação e visão. Se você estiver procurando apenas por esse conjunto de recursos, qualquer um deles funcionará.

Como acessar o4-mini no ChatGPT e na API

Você pode usar o o4-mini tanto no ChatGPT quanto na API OpenAI, dependendo do seu plano.

Em ChatGPT

Se você estiver usando o ChatGPT com uma assinatura Plus, Pro ou Team, o o4-mini já está disponível. Você o verá listado como "o4-mini" e "o4-mini-high" no seletor de modelos.

o4-mini em chatGPT

Eles substituem as opções antigas o3-mini e o1. Os usuários gratuitos também podem experimentar o o4-mini de forma limitada, selecionando o modo "Think" no compositor antes de enviar um prompt. Observe que:

  • O o4-mini é a versão rápida padrão.
  • o4-mini-high executa com maior esforço de inferência para obter melhor qualidade ao custo da velocidade.

Na API

O o4-mini também está disponível por meio da API da OpenAI nos pontos de extremidade Conclusões e Respostas do Chat. Ambas as versões (padrão e alta) suportam o uso de ferramentas, incluindo navegação, Python e entradas de imagem, dependendo de como você configurou seu conjunto de ferramentas.

O ID do modelo para o instantâneo atual é o4-mini-2025-04-16 . O preço está definido em US$ 1,10 por milhão de tokens de entrada e US$ 4,40 por milhão de tokens de saída, com suporte para armazenamento em cache e em lote. Se estiver trabalhando com a API de respostas, você também terá visibilidade do token de raciocínio e mais controle sobre a execução da ferramenta em cadeias de várias etapas.

Conclusão

O o4-mini oferece um desempenho sólido em tarefas matemáticas, de código e multimodais, além de reduzir os custos de inferência em uma ordem de magnitude em comparação com o o3. Os benchmarks mostram que ele se mantém bem, mesmo em tarefas em que os modelos normalmente têm dificuldades, como raciocínio multimodal ou codificação.

É também a primeira vez que um mini modelo da OpenAI inclui suporte completo a ferramentas e multimodalidade nativa. Só isso já o coloca à frente do o3-mini e do o1, ambos substituídos na maioria dos níveis do ChatGPT. E com a adição do o4-mini-high, os usuários têm um pouco mais de controle sobre o equilíbrio entre velocidade e qualidade de saída.

Se o o4-mini é o modelo certo, depende da tarefa. Ele não supera o o3 em termos de capacidade bruta, mas para qualquer coisa que precise ser executada rapidamente, escalonada com facilidade ou que esteja dentro de um orçamento mais apertado, ele é uma opção forte e, em muitos casos, boa o suficiente.

Perguntas frequentes

Posso fazer o ajuste fino do o4-mini?

Não. No momento, o ajuste fino não é compatível com o o4-mini.

Quais ferramentas o o4-mini suporta na API?

O o4-mini funciona com ferramentas como Python, análise de imagens e navegação na Web, dependendo da configuração. 

Qual é a janela de contexto do o4-mini?

O o4-mini suporta uma janela de contexto de 200.000 tokens, com um máximo de 100.000 tokens de saída. Isso permite que ele lide com documentos longos, transcrições ou tarefas de raciocínio em várias etapas sem truncamento.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Sou editor e redator de blogs, tutoriais e notícias sobre IA, garantindo que tudo se encaixe em uma estratégia de conteúdo sólida e nas práticas recomendadas de SEO. Escrevi cursos de ciência de dados em Python, estatística, probabilidade e visualização de dados. Também publiquei um romance premiado e passo meu tempo livre escrevendo roteiros e dirigindo filmes.

Tópicos

Aprenda IA com estes cursos!

Programa

Desenvolvimento de aplicativos de IA

0 min
Aprenda a criar aplicativos com tecnologia de IA com as mais recentes ferramentas de desenvolvimento de IA, incluindo a API OpenAI, Hugging Face e LangChain.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Descubra o Sora da OpenAI: uma IA inovadora de texto para vídeo que revolucionará a IA multimodal em 2024. Explore seus recursos, inovações e impacto potencial.
Richie Cotton's photo

Richie Cotton

8 min

blog

Tudo o que sabemos sobre o GPT-5

Saiba como o GPT-5 evoluirá para um sistema unificado com recursos avançados, visando um lançamento no verão de 2025, com base no mais recente roteiro da OpenAI e no histórico do GPT.
Josep Ferrer's photo

Josep Ferrer

8 min

Tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

Tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.
Josep Ferrer's photo

Josep Ferrer

11 min

Ver maisVer mais