Pular para o conteúdo principal

Kimi K2.5 e Agente Swarm: Um guia com quatro exemplos práticos

Descubra o que é o Kimi K2.5 da Moonshot, como funciona o Agent Swarm e veja tudo isso em ação através de quatro experiências práticas e reais.
Atualizado 29 de jan. de 2026  · 10 min lido

O Kimi K2.5 é um modelo multimodal de código aberto da Moonshot AI, feito pra fluxos de trabalho com agentes, não só pra bate-papo. Em vez de responder a comandos isolados, ele pode dividir tarefas complexas, coordenar o uso de ferramentas e produzir resultados estruturados, como tabelas, relatórios, planos e códigos, em fluxos de trabalho com várias etapas.

O que torna o Kimi K2.5 especialmente interessante é o Agent Swarm. Um modo autodirigido em que o modelo pode dinamicamente ativar e orquestrar vários subagentes em paralelo para acelerar a pesquisa, a verificação e a execução.

Neste tutorial, vou falar sobre o que é o Kimi K2.5 e onde ele funciona bem, e depois vou focar em quatro experiências práticas que mostram como o Agent Swarm se comporta na prática, incluindo o que ele faz de impressionante, onde ele fica aquém e quando ele realmente supera uma configuração de agente único.

O que é o Kimi K2.5?

O Kimi K2.5 é o modelo multimodal nativo e de código aberto da Moonshot AI, feito pra lidar com texto, imagens, vídeo e documentos em um só sistema. Ele se estende Kimi K2 com pré-treinamento contínuo em cerca de 15T de tokens mistos de texto e visuais, e foi projetado para funcionar não apenas como um chatbot, mas como um sistema agênico que pode planejar, usar ferramentas e (no modo enxame) executar tarefas em paralelo.

Na prática, o Kimi K2.5 se destaca por três coisas:

  • Raciocínio multimodal: Ele consegue ler imagens densas, raciocinar sobre capturas de tela e acompanhar o contexto do vídeo para produzir resultados estruturados.
  • Ótimo desempenho de codificação: O Kimi K2.5 pode transformar uma referência visual em código funcional e iterar por meio da depuração visual.
  • Execução com prioridade ao agente: Podemos executar isso como um único agente, um agente com ferramentas adicionais ou no Agent Swarm (beta), onde ele pode gerar dinamicamente muitos subagentes para tarefas amplas, como pesquisa, extração, comparações e fluxos de trabalho longos.

Desempenho do Kimi K2.5

Fonte: Kimi K2.5

Os gráficos acima mostram o desempenho do Kimi K2.5 em quatro categorias: Agentes, codificação, imagem e vídeo, com Kimi em azul e outros modelos de ponta em barras cinza.

  • Agentes: O Kimi é bem forte em benchmarks do tipo agente, liderando no HLE-Full (50,2) e no BrowseComp (74,9), e com um desempenho competitivo no DeepSearchQA (77,1). Isso reforça o posicionamento da agência.
  • Codificação: É competitivo nos benchmarks SWE-Bench Verified e Multilingual, com os melhores modelos fechados e claramente forte entre as opções abertas, especialmente para tarefas práticas de engenharia.
  • Imagem: Kimi também tem um bom desempenho em raciocínio multimodal e compreensão de documentos densos, com pontuações sólidas em MMMU/MathVision.
  • Vídeo: Esse modelo tem um desempenho forte no benchmark LongVideoBench, o que é um bom sinal para a compreensão de vídeos de longo prazo, em vez de VQA de quadro único.

Você pode experimentar o Kimi K2.5 de várias maneiras:

Para benchmarks reproduzíveis, a Moonshot recomenda usar a API oficial ou fornecedores verificados pelo Kimi Vendor Verifier.

O que é o Agent Swarm no Kimi K2.5?

A maioria das configurações multiagentes hoje em dia ainda é feita manualmente; você define funções, conecta um fluxo de trabalho e torce para que a orquestração aguente o tranco à medida que as tarefas ficam maiores. O Kimi K2.5 Agent Swarm inverte esse modelo. 

Em vez de definir antes os agentes e os pipelines, o K2.5 consegue controlar sozinho um enxame, decidindo quando fazer em paralelo, quantos agentes criar, quais ferramentas usar e como juntar os resultados, com base na própria tarefa.

Kimi Chat

Ele pode criar e coordenar de forma autônoma um enxame de até 100 subagentes, executando fluxos de trabalho paralelos em até 1.500 chamadas de ferramentas, sem funções pré-definidas.

Como funciona o Kimi K2.5 Agent Swarm?

Nos bastidores, o Agent Swarm traz um orquestrador treinável que aprende a dividir o trabalho em subtarefas paralelas e a programá-las de forma eficiente:

  • O Orchestrator divide a tarefa em partes que podem ser feitas em paralelo, como encontrar fontes, extrair dados, verificar informações e formatar a saída.
  • Em seguida, ele cria subagentes, que geralmente são trabalhadores congelados ativados para executar subtarefas específicas sob demanda.
  • Os subagentes funcionam ao mesmo tempo, cada um usando ferramentas como pesquisa, navegação, interpretador de código e criação de arquivos de forma independente.
  • Por fim, ele junta e combina os resultados em um produto final estruturado, tipo um relatório, planilha, documento ou plano de base de código.

Por que o PARL (Aprendizado por Reforço com Agentes Paralelos) é importante

O comportamento coletivo do Kimi K2.5 é treinado usando Aprendizado por Reforço com Agentes Paralelos (PARL), uma configuração de treinamento que torna o próprio paralelismo uma habilidade que pode ser aprendida. Isso é importante porque os sistemas multiagentes ingênuos geralmente falham de duas maneiras:

  • Colapso em série: Mesmo com muitos agentes disponíveis, o sistema usa por padrão um padrão lento de thread único.
  • Paralelismo falso: Ele gera agentes, mas o trabalho não é realmente paralelo nem reduz a latência.

O PARL resolve isso moldando as recompensas ao longo do treinamento. Isso incentiva o paralelismo desde o início e, aos poucos, muda a otimização para a qualidade da tarefa de ponta a ponta, evitando o falso paralelismo. Para tornar a otimização sensível à latência, o K2.5 avalia o desempenho usando etapas críticas, porque gerar mais agentes só ajuda se realmente encurtar o caminho mais lento de execução, em vez de aumentar a sobrecarga de coordenação.

Quando a tarefa é grande e precisa de muitas ferramentas, o Agent Swarm pode reduzir bastante o tempo de produção. A Moonshot diz que, comparado com uma configuração de agente único, o K2.5 Swarm pode reduzir o tempo de execução em cerca de 3 a 4,5 vezes, e as avaliações internas mostram uma redução de até 80% no tempo de execução de ponta a ponta em cargas de trabalho complexas por meio de uma verdadeira paralelização. 

Kimi K2.5 Exemplos e observações

Nesta seção, vou compartilhar minha experiência pessoal testando o Kimi K2.5 Agent Swarm em vários cenários. Cada exemplo mostra como o enxame divide as tarefas, distribui os agentes e onde essa abordagem realmente ajuda ou deixa a desejar na prática.

Grupo de pesquisa

Na minha primeira experiência, testei se o Kimi K2.5 Agent Swarm conseguia lidar com uma tarefa real e de alto risco, como elaborar um plano de implantação para LLMs de código aberto.

Sugestão: 

I want you to research best practices for deploying open-source LLMs in production. Focus on real deployment patterns rather than theory. If possible, have different agents look into, Inference stacks like vLLM, TGI, llama.cpp, Quantization strategies and hardware trade-offs, and cost control techniques. I want a short, structured guide with common architectures, trade-offs, and concrete recommendations for small teams vs large-scale deployments.

Grupo de pesquisa

Nesta demonstração, o Kimi K2.5 Agent Swarm imediatamente dividiu a solicitação em programas paralelos e criou três subagentes dedicados, chamados InferenceStackResearcher, QuantizationHardwareResearcher e CostControlResearcher. Embora cada nome de subagente se refira ao trabalho que foi atribuído a ele, esse trabalho foi distribuído entre várias personas de trabalhadores. 

O que mais curti foi que o resultado final foi uma tabela de comparação bem clara para pilhas de inferência, junto com recomendações e notas curtas sobre quantização. Você também pode usar a barra de progresso da tarefa para ver como ela dividiu o trabalho antecipadamente e acompanhou cada subtarefa até a conclusão.

Mas, o lado ruim é que algumas afirmações no texto final parecem não ter muitas referências ou são muito absolutas, e o guia ficaria mais forte com links, fontes e suposições mais claras (hardware, tamanho do modelo, tamanho do lote, comprimento do contexto), já que as dicas de produção dependem muito do contexto. No geral, ele lidou com uma solicitação complexa e com várias partes e gerou um manual nítido e pronto para uso, que parece estar pronto para produção. 

Criação e anotação do conjunto de dados

Depois, testei o Agent Swarm numa tarefa de construção de conjunto de dados, pedindo ao Kimi K2.5 para criar um benchmark de 100 problemas matemáticos com soluções e rótulos de dificuldade. Também pedi explicitamente que usasse 20 agentes para ver o quanto ele segue a restrição do tamanho do enxame, mantendo a qualidade.

Criação e anotação do conjunto de dados

Sugestão: 

Build a small benchmark dataset of 100 math word problems with step-by-step solutions and difficulty labels. Use at least 20 agents to generate problems in parallel, verify solutions independently, and calibrate difficulty.

O Kimi K2.5 Agent Swarm tratou a criação do conjunto de dados como um pipeline de três fases, incluindo geração, verificação e calibração. Embora o prompt pedisse pelo menos 20 agentes, o sistema criou 25 subagentes de forma autônoma, priorizando a correção em vez de seguir à risca o número pedido. Foi interessante ver que cerca de cinco agentes trabalhavam ativamente ao mesmo tempo, enquanto outros ficavam na fila e voltavam assim que as subtarefas anteriores eram concluídas, o que sugere um mecanismo interno de programação. 

Cada agente de geração lidava com um domínio matemático diferente e criava cinco problemas com soluções passo a passo. Depois disso, 10 agentes eram designados para a verificação e um grupo menor de cinco agentes se concentrava na calibração da dificuldade. 

O ponto forte aqui é a separação clara das preocupações e a redundância na verificação, o que melhora bastante a qualidade do conjunto de dados. A principal desvantagem é a latência e um gargalo sequencial. 

A execução completa levou cerca de 20 a 25 minutos, o que torna essa abordagem mais adequada para a criação de benchmarks de alta qualidade do que para iterações rápidas. Mesmo com 25 agentes, alguns tiveram que esperar que outros terminassem, o que significa que o enxame ainda é limitado pela lógica das etapas.

Mesmo assim, a capacidade de ajustar dinamicamente a contagem de agentes para cada subtarefa, reutilizar agentes ociosos e convergir em um conjunto de dados rotulado é uma forte demonstração de como o Agent Swarm funciona. 

Controle de qualidade multimodal em grande escala 

Depois, coloquei o Kimi K2.5 num fluxo de trabalho multimodal, fornecendo várias imagens de rótulos nutricionais e pedindo uma comparação estruturada. O objetivo era ver como ele consegue extrair, normalizar e verificar dados visuais.

Prompt

I’m sharing images of nutrition labels from 7 packaged food items. Analyze them and produce a clear comparison specifically:
Extract fields like: calories, protein, total fat, sugar, sodium,  from each label.Normalize all values to a per-100g basis so items are comparableDouble-check numeric consistency (e.g. serving size vs totals)Rank the products from healthiest to least healthy, explaining the reasoningReturn a comparison table with normalized values for all items. Also include a summary highlighting, best high-protein option, the lowest sugar option, and items to avoid and why.
Assume the labels may vary in format and serving size. Resolve ambiguities where possible and note any missing or unclear values.

Controle de qualidade multimodal em grande escala

Nessa experiência multimodal de controle de qualidade, o Kimi K2.5 Agent Swarm dividiu a tarefa em torno de um rótulo por subagente, ativando sete subagentes paralelos para extrair campos nutricionais de cada imagem, enquanto um agente coordenador cuidava da normalização, verificação cruzada e classificação. 

Uma coisa interessante sobre o Kimi é que as restrições que você define no prompt (extração, normalização, verificação, classificação) acabam virando o plano de como o Kimi cria e atribui subagentes.

O que mais me chamou a atenção foi como o grupo viu a verificação como uma etapa importante, ou seja, depois da extração, o orquestrador explicitamente ajustou os tamanhos dos serviços, normalizou os valores e sinalizou as ambiguidades, em vez de ficar na dúvida sem dizer nada. A etapa final de síntese, que classificou os produtos e destacou as melhores opções com alto teor de proteína e baixo teor de açúcar, mostrou uma lógica de agregação forte em todas as informações visuais.

Por outro lado, analisar 7 imagens de alta resolução com um enxame exige muito processamento, o que faz com que seja mais um recurso premium do que uma ferramenta de bate-papo rápido. 

Esse exemplo também mostrou uma limitação atual; embora a análise multimodal baseada em imagens tenha funcionado bem, a entrada direta de vídeo não foi suportada, então uma tentativa posterior de gerar uma receita a partir de um vídeo de culinária não pôde ser executada. 

No geral, essa demonstração mostra como o Agent Swarm é bom em extrair imagens em paralelo e fazer reconciliações estruturadas.

Programando um jogo

Por fim, testei as capacidades de codificação do Kimi K2.5 pedindo-lhe para criar um jogo Bubble Shooter totalmente interativo a partir do zero. Essa experiência mostra como o modelo lida com a geração de código de ponta a ponta e com estado, onde a coerência é mais importante do que o paralelismo.

Sugestão: 

```markdown

Crie um jogo Bubble Shooter totalmente jogável que rola localmente num navegador da web. O jogo deve funcionar com o mouse e o toque, mostrar uma linha de mira ao vivo, atirar bolhas coloridas da parte de baixo no meio, fazer os tiros quicarem nas paredes laterais e prender as bolhas numa grade na parte de cima quando colidirem. 

Implementar a lógica central do jogo, incluindo estourar grupos de três ou mais bolhas conectadas da mesma cor, soltar quaisquer grupos desconectados, acompanhar e mostrar a pontuação, mostrar uma prévia da próxima bolha e terminar o jogo quando as bolhas cruzarem uma linha de perigo perto da parte inferior.

Mantenha os elementos visuais simples, mas responsivos, inclua um botão de reinício e termine com instruções curtas sobre como rodar e testar o jogo localmente.

```Programando um jogo

Nessa experiência de criação de jogos, o Kimi K2.5 Agent Swarm fez uma escolha bem conservadora, colocando só um subagente pra cuidar de toda a tarefa. 

Essa decisão em si é uma observação interessante, porque o sistema reconheceu corretamente que se tratava de um problema de codificação fortemente acoplado e com estado, em que o paralelismo pesado adicionaria sobrecarga de coordenação sem qualquer benefício. 

O agente criou uma versão completa e executável localmente do Bubble Shooter com mira, rebatidas nas paredes, encaixe na grade, combinação de três bolhas, acompanhamento da pontuação e lógica de reinício, mostrando tanto a mecânica do jogo quanto o fluxo da interface do usuário. 

O que eu gostei especialmente foi que o resultado final parecia coerente e integrado, mas a desvantagem é que o refinamento e o polimento provavelmente exigiriam solicitações repetidas, já que tudo passa por um único agente. 

No geral, esse exemplo mostra bem que o Agent Swarm no Kimi K2.5 não é só sobre criar mais agentes, mas usar o paralelismo só quando isso realmente melhora os resultados.

Conclusão

Neste tutorial, o Kimi K2.5 mostrou que consegue dividir tarefas complexas, distribuir agentes de forma dinâmica e criar resultados estruturados e prontos para a tomada de decisões, o que normalmente exigiria uma pequena equipe em vez de um único modelo.

Ao mesmo tempo, os exemplos deixam bem claras as suas fronteiras. 

O Agent Swarm é ótimo pra fluxos de trabalho grandes e cheios de ferramentas, tipo pesquisa, construção de conjuntos de dados e extração multimodal, mas não ajuda muito em tarefas bem interligadas e com estado, como desenvolvimento de jogos interativos. 

Também traz algumas desvantagens em relação à latência, custo e velocidade de iteração, principalmente quando a verificação e a reconciliação são mais importantes do que a taxa de transferência bruta.

No geral, o Kimi K2.5 oferece um plano atraente para o futuro dos sistemas agenticos. Para desenvolvedores e pesquisadores que gostam de experimentar fluxos de trabalho baseados em agentes, esse é um dos modelos mais interessantes para se explorar atualmente.

Se você quiser saber mais sobre como funciona a IA agênica, recomendo conferir o programa de habilidades Fundamentos do Agente de IA.

Perguntas frequentes sobre o Kimi K2.5 e o Agent Swarm

O Kimi K2.5 é mesmo de código aberto e de graça pra usar?

Sim, a Moonshot AI lançou o Kimi K2.5 sob uma Licença MIT Modificada, com pesos disponíveis no Hugging Face. Mas, como é um modelo enorme com 1,04 trilhão de parâmetros (Mixture-of-Experts), pra rodar ele localmente precisa de um hardware de nível empresarial (tipo, várias GPUs H100). Pra maioria dos usuários, a API oficial ou a interface do usuário da Web é o jeito mais prático de acessar.

Qual é o preço da API Kimi K2.5?

O Kimi K2.5 tem preços competitivos para API: US$ 0,60 por 1 milhão de tokens de entrada (caindo para US$ 0,10 para entradas em cache) e US$ 3,00 por 1 milhão de tokens de saída

Qual é a diferença entre o Chat Padrão e o Agente Colmeia?

O chat padrão é linear e de thread único. O Agent Swarm é um orquestrador paralelo: ele pode dividir um comando em subtarefas de forma autônoma e gerar até 100 subagentes especializados para executá-las ao mesmo tempo. O Swarm é melhor para tarefas “abrangentes”, como pesquisa aprofundada ou extração de dados em massa, enquanto o Chat é melhor para tarefas sequenciais e com estado, como codificar um jogo.

O Kimi K2.5 aceita entrada de vídeo?

Sim, o modelo é multimodal por natureza e aceita entrada de vídeo com resolução de até 2K. Embora seja excelente em benchmarks de vídeo de contexto longo (como o LongVideoBench), o recurso ainda está em fase experimental, o que significa que, às vezes, pode ter dificuldade em seguir instruções complexas em fluxos de trabalho de agentes baseados em vídeo, em comparação com imagens estáticas.

Qual é o tamanho da janela de contexto do Kimi K2.5?

O Kimi K2.5 suporta uma janela de contexto de 256.000 tokens (aproximadamente 200.000 palavras). Esse contexto superlongo deixa o modelo processar livros inteiros, bases de código enormes ou documentos jurídicos longos de uma só vez, sem precisar dividir os dados em partes, o que é essencial pra manter a precisão em grandes enxames.


Aashi Dutt's photo
Author
Aashi Dutt
LinkedIn
Twitter

Sou Especialista Google Developers em ML (Gen AI), tricampeã no Kaggle e Embaixadora Women Techmakers, com mais de três anos de experiência na área de tecnologia. Cofundei uma startup de saúde em 2020 e atualmente faço um mestrado em ciência da computação na Georgia Tech, com foco em aprendizado de máquina.

Tópicos

Cursos mais populares do DataCamp

Curso

Projetando Sistemas Agentes com LangChain

3 h
9.1K
Entenda os componentes básicos dos agentes LangChain e crie agentes de chat personalizados.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Tipos de agentes de IA: Compreensão de suas funções, estruturas e aplicações

Saiba mais sobre os principais tipos de agentes de IA, como eles interagem com os ambientes e como são usados em todos os setores. Entenda o reflexo simples, baseado em modelo, baseado em meta, baseado em utilidade, agentes de aprendizagem e muito mais.
Vinod Chugani's photo

Vinod Chugani

14 min

blog

Competições da Kaggle: O guia completo

Saiba tudo sobre as competições da Kaggle. Descubra o que são, como ter sucesso e quando e por que você deve fazê-las.
Çağlar Uslu's photo

Çağlar Uslu

15 min

blog

Como aprender IA do zero em 2026: Um guia completo feito por especialistas

Descubra tudo o que você precisa saber sobre aprender IA em 2026, desde dicas para começar, recursos úteis e insights de especialistas do setor.
Adel Nehme's photo

Adel Nehme

15 min

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

cursor ai code editor

Tutorial

AI do cursor: Um guia com 10 exemplos práticos

Saiba como instalar o Cursor AI no Windows, macOS e Linux e descubra como usá-lo em 10 casos de uso diferentes.

Tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

Ver maisVer mais