Pular para o conteúdo principal

Guia MiniMax M2.5: como funciona, casos de uso e mais

Entenda como o MiniMax 2.5 atinge resultados de ponta em benchmarks de código e agentes por uma fração do custo típico. Compare com modelos fechados como GPT-5.2 e Gemini 3.
Atualizado 17 de abr. de 2026  · 7 min lido

Em meio às tensões tecnológicas entre EUA e China e a uma onda de modelos chineses acessíveis como o GLM-5, da Zhipu, e o Kimi K2.5, da Moonshot, um novo player chama atenção por atingir SOTA em benchmarks a uma fração do custo esperado. 

O modelo MiniMax 2.5 se destaca, em parte, pelo preço. Ele faz parte de um movimento mais amplo da indústria rumo à “inteligência tão barata que nem se mede”, uma releitura de uma expressão clássica sobre energia nuclear. 

O MiniMax 2.5 está disponível em duas variantes: o M2.5 completo, com 50 tokens/segundo, e a versão Lightning, com impressionantes 100 tokens/segundo. Fora a diferença de velocidade, ambas têm capacidades idênticas.

Neste artigo, explico o que é o M2.5 e seus principais recursos, trago ideias para você fazer seus próprios testes e também comparo honestamente com os modelos GPT e Gemini mais recentes.

O que é o MiniMax M2.5? 

O MiniMax M2.5 é um modelo de linguagem de pesos abertos, lançado recentemente pela MinMax AI, empresa de Xangai. Ele foi anunciado principalmente em 12 de fevereiro de 2026, poucas semanas após o IPO da companhia em Hong Kong. 

A MiniMax AI é pensada para produtividade no mundo real, então brilha em codificação, uso agente de ferramentas, busca na web e automação de escritório. O M2.5 é treinado via aprendizado por reforço em mais de 200 mil ambientes complexos. Isso o torna robusto o suficiente para planejar como um arquiteto de software e executar de forma autônoma.

Principais recursos do MiniMax M2.5

O novo modelo traz recursos que o diferenciam de outros LLMs. A seguir, destaco alguns deles.

Suporte a codificação multilíngue

O MiniMax M2.5 foi treinado em um dataset esparso, o que permite lidar com mais de 10 linguagens de programação, como Python, Rust, Java, Go e outras, em diferentes ambientes de desenvolvimento full stack. Suas habilidades vão de design de sistemas a revisão de código, cobrindo aplicações web, Android, iOS e Windows.

Uso agente de ferramentas e busca

O M2.5 lidera em tarefas de chamadas de função multi-turn com 76,9% no BFCL e navegação web com 76,3% no BrowseComp, usando 20% menos rodadas que predecessores para uma decomposição de tarefas mais eficiente.

Integração com produtividade de escritório

Além do uso agente de ferramentas e da busca, o M2.5 gera saídas formatadas para Word, PowerPoint e Excel, como em modelos financeiros, com taxa de acerto de 59% em relação a modelos mainstream no benchmark GDPval-MM.

Eficiência e treinamento por RL

Impulsionado pelo framework Forge RL e pelo algoritmo CISPO, ele conclui tarefas 37% mais rápido que o M2.1 consumindo menos tokens, especificamente 3,52M por tarefa no SWE-Bench.

Mãos à obra com o MiniMax M2.5 

Decidi testar o MiniMax M2.5 por conta própria. Inspirado nas promessas fortes sobre uso agente de ferramentas e busca, além do foco em produtividade de escritório, propus uma tarefa de pesquisa que facilmente aparece no dia a dia de trabalho. 

Aqui, usei o seguinte prompt para combinar informações sobre grandes fundos soberanos. Para compilar essa tabela, o MiniMax M2.5 teria que sintetizar pesquisa de diferentes fontes. Repare que também pedi o coeficiente de Gini do país, algo que eu duvidava estar nos sites dos fundos soberanos.

Fiz uma checagem por amostragem visitando os respectivos sites. 

For each of the five largest sovereign wealth funds by AUM, find the following: the fund's name and country, current AUM, current CEO or equivalent, when that person took the role, the fund's reported return in their most recent annual report, and the Gini coefficient of the country. Compile into a table with sources for each figure.

Foi um teste pequeno, mas bem prático. O MiniMax 2.5 fez um ótimo trabalho ao sintetizar pesquisas de múltiplas fontes em uma tabela precisa.

Em seguida, analisei demos independentes e benchmarks para estudar outros exemplos.

Desenvolvimento web full stack

Você também pode testar o M2.5 em tarefas de engenharia de software e ver como ele planeja e executa em um escopo fechado. Sugiro usar este prompt:

Build a React app with Node.js backend for user authentication, including database schema.

O M2.5 gera um plano completo, orientado por especificações, com wireframes de UI e endpoints de API. A partir daí, adiciona mais de 1.200 linhas de código em TypeScript/JavaScript. Os testes passaram de primeira em 22 minutos, mais rápido que a média do Claude Opus 4.6. O resultado é um app funcional com autenticação via JWT e integração com MongoDB.

A screenshot of execution in minimax agents using the M2.5 model

Esta imagem ilustra o exemplo e o prompt no ambiente do MiniMax Agent usando o modelo M2.5.

Modelagem financeira no Excel

Para testar a geração de documentos, você pode usar um prompt como este:

Create an Excel model for startup valuation using DCF, with sensitivity analysis

O M2.5 foi construído para gerar arquivos formatados com fórmulas e gráficos funcionando. Isso está alinhado com seus fortes resultados no benchmark GDPval-MM. (Falo mais de benchmarks na próxima seção.)

A MiniMax investiu de verdade em habilidades de produtividade de escritório para fazer coisas úteis, como montar modelos financeiros no Excel. O time trabalhou diretamente com especialistas em finanças, direito e ciências sociais para criar dados de treino que refletem padrões reais de mercado, e não apenas modelos genéricos.

Um bom teste complementar é dar um briefing propositalmente ambíguo ou subespecificado. Pense no tipo de pedido que um analista júnior receberia de um sócio. Veja se o modelo faz perguntas de esclarecimento ou toma suposições razoáveis e as sinaliza.

Geração de SVG e raciocínio

Vale observar aqui como o M2.5 inicia a tarefa. 

Uma das coisas mais interessantes nas notas de lançamento é que o comportamento de escrever especificações emergiu organicamente durante o treinamento. Como mencionei, antes de gerar qualquer código, o M2.5 tende a decompor o projeto e planejar estrutura, design de UI e endpoints de API sob a ótica de um arquiteto de software.

Se esse planejamento de fato produz saídas melhores é algo que sigo avaliando por conta própria.

MiniMax M2.5 e a plataforma MiniMax Agent

A MiniMax disponibiliza o M2.5 dentro de uma plataforma de agentes que dá acesso imediato às suas capacidades para quem não é desenvolvedor, por meio dos chamados especialistas pré‑construídos. São agentes especializados configurados para tarefas específicas. A plataforma funciona como uma loja de apps: você navega por categoria, escolhe um e já sai com um agente pronto para o fluxo de trabalho.

Os especialistas mais usados no lançamento são Landing Page Builder, PPTX Maker, Excel Processor e outros que parecem realmente úteis. Em conjunto, dá para entender por que a MiniMax ganhou fama em produtividade de escritório.

Talvez ainda mais interessante seja a camada da comunidade. Usuários podem criar e publicar seus próprios especialistas. Ao que tudo indica, mais de 10.000 já foram criados.

Benchmarks do MiniMax M2.5 

O M2.5 apresenta números fortes nos benchmarks que mais importam para código e trabalho agentic. Ele marcou 80,2% no SWE-Bench Verified — um teste real de resolução de issues no GitHub — concluindo tarefas 37% mais rápido que seu predecessor, o M2.1.

Em tarefas multilíngues e entre repositórios, ficou em primeiro no Multi-SWE-Bench com 51,3%. No lançamento, seus 76,3% no BrowseComp o colocaram entre os modelos com melhor desempenho em tarefas de busca e pesquisa na web, mas o ranking já mudou. O Gemini 3.1 Pro agora lidera com 85,9%, seguido pelo Claude Opus 4.6 com 84,0% e pelo GPT-5.2 Pro com 77,9%. Tanto o Gemini 3.1 Pro quanto o Opus 4.6 foram lançados na mesma semana do M2.5, o que ilustra bem a velocidade com que a fronteira está avançando.

Para completar, ele marcou 79,7% no benchmark Droid para codificação agentic e atualmente está em 4º no OpenHands Index para tarefas de longa duração, como construção de apps.

MiniMax M2.5 benchmarks

Esta imagem facilita visualizar os resultados obtidos pelo M2.5. 

Como acessar o MiniMax M2.5? 

Há basicamente 3 formas de usar o modelo. Você pode usar:

  • Pesos abertos que você pode baixar no Hugging Face e executar localmente com vLLM, SGLang, Ollama, entre outros. As quantizações GGUF estão disponíveis para hardware de consumo.
  • Acesso por API pelo site oficial com US$ 0,3/M tokens de entrada e US$ 2,4/M de saída na versão Lightning. Isso permite chegar a ~US$ 1/hora a 100 tokens/seg, sem parar. Há suporte a cache e planos enterprise para alto volume.
  • Integrações com IDEs como VS Code, Cline CLI ou Fireworks AI, com suporte desde o primeiro dia.

Claro, não há limites de uso para os pesos, mas a API é cobrada por consumo.

MiniMax M2.5 vs. concorrentes

O M2.5 mira nichos de codificação e agentes, reduzindo custos com desempenho equivalente. Veja a comparação:

Recurso/benchmark MiniMax M2.5 Claude Opus 4.6 GPT-5.2 Gemini 3 Pro
SWE-Bench Verified 80,2% 80,8% 80% 78%
Multi-SWE 51,3% 50,3% 49,1% 42,7%
BrowseComp (Busca) 76,3% (1º open-weight) 84,0% 65,8% 73,2%
Custo de saída (/M tokens) US$ 2,4 US$ 25 US$ 14 US$ 15
Velocidade (tokens/seg) 100 60 80 70
Pesos abertos? Sim (MIT) Não Não Não
Código multilíngue 10+ linguagens Foco em inglês Forte Moderado

Os dados vêm de avaliações oficiais e do Artificial Analysis, além da leitura de outros lançamentos recentes. O M2.5 vence em eficiência e abertura, enquanto modelos fechados levam vantagem em conhecimento amplo.

Quão bom é o MiniMax M2.5? 

No contexto da indústria, o M2.5 é excelente para produtividade focada. Sua pontuação de 80,2% no SWE-Bench e o preço de ~US$ 1/hora podem, de fato, mexer com a adoção de IA em empresas, onde o custo ainda é barreira. A abordagem de pesos abertos muda o jogo em código de fronteira e pressiona as vantagens dos modelos fechados.

Nada evidencia isso melhor do que o BrowseComp, em que o M2.5 lidera entre os modelos de pesos abertos com 76,3% — à frente do GLM-5 e do Kimi K2.5, apesar de ambos serem significativamente maiores. Os quatro modelos acima dele são proprietários, o que diz muito sobre o que a MiniMax conseguiu com um lançamento licenciado em MIT.

O foco agentic também o posiciona bem para a economia de agentes, em que autonomia e eficiência contam mais do que escala bruta.

Dito isso, o M2.5 tem limitações. Ele fica atrás em raciocínio criativo quando comparado a modelos generalistas, refletido em sua nota 42/100 no Artificial Analysis Intelligence Index. É um especialista, não um faz-tudo.

Eu daria nota A+ para desenvolvedores e B+ para uso versátil. Fique de olho em fine-tunes que devem ampliar bastante seu escopo.

Casos de uso do MiniMax M2.5 

Há muitos casos de uso personalizados para este modelo. Por exemplo, o MiniMax M2.5 pode ser usado em tarefas de engenharia de software, como automatizar PRs no GitHub, corrigir bugs e desenvolver apps completos. (Aparentemente, 80% do próprio código-fonte da MiniMax é gerado por IA!) 

O MiniMax M2.5 também pode ser usado em rotinas corporativas, como modelagem financeira, geração de relatórios e edição de PPT para times de finanças ou jurídico. Além disso, você pode criar especialistas de agentes de IA personalizados para pesquisa ou vendas na plataforma MiniMax Agent. 

Conclusão

O MiniMax M2.5 tem potencial para ser uma potência de produtividade que combina recursos agentic de ponta com acessibilidade aberta, a preços capazes de redefinir a economia da IA.

Para aprender na prática, confira nosso curso AI for Developers. Experimente hoje mesmo, porque o futuro da inteligência acessível já chegou.


Iheb Gafsi's photo
Author
Iheb Gafsi
LinkedIn

Trabalho em sistemas de IA acelerados que permitem inteligência de ponta com pipelines de ML federados em dados descentralizados e cargas de trabalho distribuídas.  A Mywork se concentra em modelos grandes, processamento de fala, visão computacional, aprendizado por reforço e topologias avançadas de ML.

Tópicos

Aprenda com a DataCamp

Curso

Entendendo a inteligência artificial

2 h
388.1K
Aprenda os conceitos básicos da Inteligência Artificial, como aprendizado de máquina, aprendizado profundo, PNL, IA generativa e outros.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow