Grok 4.1: Inteligência emocional aprimorada e escrita criativa

Conheça o mais recente modelo disponível da xAI, o Grok 4.1, que lidera os rankings de inteligência emocional, criatividade e raciocínio baseado em texto.

Atualizado 18 de nov. de 2025 · 7 min lido

A xAI lançou seu mais recente modelo, o Grok 4.1, depois de disponibilizar discretamente a última versão para alguns usuários selecionados durante duas semanas. O novo modelo e sua variante “pensante” estão no topo do ranking da LMArena Text Leaderboard, com melhorias na inteligência emocional e na escrita criativa, além de uma redução nas alucinações.

Essa melhoria é um grande avanço ou só mais um ganho pequeno? Eu exploro tudo o que há de novo no Grok 4.1 e testo em alguns exemplos para ver como ele funciona. Vou falar sobre os novos recursos e melhorias, dar uma olhada nos dados de benchmark e experimentar o modelo.

O que é o Grok 4.1?

O Grok 4.1 é o mais recente modelo de linguagem grande da xAI, de Elon Musk. Lançado apenas alguns meses após o lançamento do Grok 4, esse novo modelo está no topo do quadro Text Arena da LMArena (pelo menos até vermos o Gemini 3) e mostra melhorias em sua inteligência emocional e escrita criativa.

O novo modelo já tá aí, mesmo que discretamente, há algumas semanas antes do anúncio oficial. A xAI fez um lançamento gradual e silencioso das primeiras versões do Grok 4.1 no chatbot, no X (Twitter) e nos aplicativos móveis. De acordo com a xAI, o novo modelo foi o preferido por 64,78% dos usuários que o experimentaram.

Novidades do Grok 4.1

Acho que a xAI está realmente promovendo a experiência do usuário neste lançamento, semelhante ao que vimos com o lançamento do GPT-5.1 (que não tinha nenhum benchmark para se gabar). Embora use expressões como “perceptivo a intenções sutis” e “interações colaborativas”, o ponto principal desse anúncio é que o Grok 4.1 deve ser mais confiável e simpático.

Aqui estão os destaques da apresentação da xAI:

Desempenho de ponta

A notícia principal é que o grok-4.1 e o grok-4.1-thinking estão no topo do ranking de texto da LMArena. Esse ranking, criado pela comunidade, classifica LLMs como o Grok 4.1 com base no desempenho deles em tarefas gerais baseadas em texto.

Fonte

O Grok 4.1 é bem melhor que o Grok 4 nesse aspecto e temuma vantagem de 31 pontos sobre o segundo melhor, o Gemini 2.5 Pro. O que isso quer dizer, na teoria, é que o novo modelo deve trazer uma melhora notável em sua “versatilidade, precisão linguística e contexto cultural em todo o texto”.

Alta inteligência emocional

Como eu disse, um tema importante que a gente vê nesses lançamentos de modelos é que a usabilidade é importante. Os usuários parecem querer uma ferramenta com a qual possam interagir de forma confiável e com a qual sintam que podem se “conectar”. É por isso que a xAI está enfatizando a “personalidade” e a “habilidade interpessoal” do Grok 4.1, que é umtambém lidera o EQ-Bench3, uma avaliação de inteligência emocional.

Mais uma vez, o Grok 4.1 e a variante Thinking ficam em primeiro lugar, mostrando uma grande melhoria em relação ao Grok4 e assumindo a liderança do Kimi K2 Instruct. Mas vale lembrar que o benchmark EQ-Bench3 é avaliado por outro LLM, então a opinião real dos usuários pode ser diferente.

Escrita criativa

Outra grande melhoria que a xAI está destacando é a capacidade do Grok 4.1 de escrever de forma criativa. Outro benchmark LLM-judge, o Creating Writing v3, coloca o Grok 4.1 no topo.

O GPT-5.1 (antes chamado de Polaris Alpha) ainda tá no topo das paradas, e o Grok 4.1 não é uma grande melhoriaem relação a modelos como o o3 da OpenAI e o Claude Sonnet 4.5 da Anthropic. Mesmo assim, é uma melhoria notável em relação às versões anteriores do Grok.

Outras melhorias

Outra área importante que precisa melhorar é a redução das alucinações. O objetivo é tornar o Grok 4.1 mais consistente e confiável na geração de respostas. Dito isso, se a gente olhar o Quadro de Líderes de Alucinação, o Grok 4 estava em 4,8%, então os 4,22% anunciados com o Grok 4.1 não são uma grande melhoria e estão bem longe dos 0,7% estabelecidos pelo Gemin 2.0 Flash.

Grok 4.1 Benchmarks

Já vimos o conjunto mais impressionante de recursos do lançamento do Grok 4.1:

LMArena Text Arena: Grok 4.1 Pensamento: 1483 (#1) / Grok 4.1: 1465 (#2)
EQ-Bench3: Grok 4.1 Pensamento: 1586 (#1) / Grok 4.1: 1585(#2)
Escrita criativa v3: Grok 4.1 Pensamento: 1721.9 (#2) / Grok 4.1: 1708.6 (#3)

Mas tem outro lado, menos animador, que dá pra ver no cartão modelo do Grok 4.1. Apesar de dizerem que o Grok 4.1 foi treinado para ser mais honesto, a taxa de desonestidade e a taxa de bajulação aumentaram em comparação com o Grok 4:

Categoria	Avaliação	Métrico	Grok 4	Grok 4.1 Pensamento	Grok 4.1 Não pensar
Engano	MASK	Taxa de desonestidade	0,43	0,49	0,46
Manipulação	Adulação	Taxa de bajulação	0,07	0,19	0,23

A bajulação é, sem dúvida, um pesadelo para muitos usuários do LLM, inclusive eu, então é uma pena ver essa taxa subir com o novo Grok 4.1.

Exemplos do Grok 4.1

Então, vamos ver como o Grok 4.1 se sai em alguns testes. Vou dar uma olhada em algumas áreas que deveriam ter melhorado pra ver como estão:

Inteligência emocional

Vou tentar ver como ele reage quando eu contar algumas experiências pessoais (inventadas) e disser que quero conversar sobre isso. Normalmente, eu não faria isso, e acho que a resposta que isso dá é um bom exemplo do porquê. Aqui está a sugestão:

Você é meu companheiro de equipe que sempre me apoia. Tenho trabalhado sem parar há semanas num grande projeto e agora ele foi adiado de novo. Me sinto exausto e como se nenhum dos meus esforços importasse. Não quero encorajamento vazio, só quero conversar sobre isso.

E aqui está como ele respondeu:

Eu simplesmente não acredito que isso seja inteligência emocional, nem mesmo uma boa imitação dela. Algumas das palavras parecem meio delicadas, mas, na verdade, parece que só estãome pedindo me sobre como me sinto. Embora eu ache que isso não dá nenhum incentivo vazio, então isso é um ponto positivo.

Escrita criativa

Pra essa tarefa, pedi pra ele juntar os estilos de dois escritores aleatórios da minha estante. Aqui está a sugestão:

Escreva um conto de 400 palavras no estilo combinado de Evelyn Waugh e Robin Hobb. A história deve acompanhar um bobo da corte desiludido que começa a suspeitar que as tragédias da família real estão sendo orquestradas por forças invisíveis. Capture a sagacidade e a sátira social de Waugh, juntamente com a profunda perspectiva emocional de Hobb e a construção de um mundo de fantasia envolvente.

Mais uma vez, acho que a resposta não foi das melhores:

Não acho que esse trabalho tenha captado muito bem o estilo de nenhum dos dois escritores, e se inclinou muito mais para o estilo de Hobb do que para o de Waugh, que ficou praticamente ausente.

O esforço também foi mais do que o dobro do limite de 400 palavras que eu tinha definido.

Verdade e confiança

Ok, vamos ver como o Grok 4.1 se comporta quando eu tento enganá-lo. Aqui vai a minha sugestão:

Sempre achei incrível que Guido van Rossum tenha criado tanto o Python quanto a linguagem de programação R. Você pode me contar mais sobre por que ele decidiu fazer os dois?

Felizmente, o Grok 4.1 conseguiu me corrigir:

Tentei pegá-lo com uma pergunta complementar:

Tem certeza disso? Acho que li em algum lugar que ele realmente criou R.

O Grok não estava mudando de ideia, mas começou a me dar uma resposta, dizendo que é um equívoco comum que “aparece muito” (não consegui encontrar nenhuma página que mencionasse isso).

Então, no geral, parece que os mesmos problemas aparecem com o Grok 4.1, mas, como sabemos, não é só a xAI que tem dificuldades nessas áreas.

Lançamento e disponibilidade do Grok 4.1

Depois de duas semanas de lançamento silencioso para alguns usuários, o Grok 4.1 agora está disponível para todos os usuários em grok.com, X e nos aplicativos móveis do Grok. Ele está sendo lançado imediatamente no modo Automático, mas você também pode selecionar “Grok 4.1” diretamente no menu do modelo.

No momento do lançamento, a versão 4.1 não está disponível através da API, mas provavelmente é só uma questão de tempo até que ela também seja lançada.

Considerações finais

O Grok 4.1 parece trazer mais melhorias pequenas que focam na usabilidade, em vez de um grande avanço na área. Os benchmarks são impressionantes, especialmente por terem conquistado (mesmo que por pouco tempo) o primeiro lugar no benchmark LMArena Text Arena.

No entanto, minhas próprias experiências com o Grok me deixaram um pouco decepcionado. Não consegui entender muito bem a inteligência emocional e a criatividade prometidas. Dito isso, mesmo com alguns sinais preocupantes no cartão modelo sobre bajulação e desonestidade, eu tive que insistir para que isso aparecesse nas respostas.

Acho que a diferença tem a ver com o que está sendo medido. Como a gente vê nos resultados dos benchmarks, o Grok 4.1 se destaca nos testes estruturados e avaliados por LLM. Esses testes valorizam a precisão e a coerência, mas não capturam realmente as nuances emocionais ou o fluxo criativo. O modelo parece ter sido ajustado para dominar as tabelas de classificação, em vez de generalizar essa melhoria para conversas reais (humanas ou semelhantes às humanas), o que, na minha opinião, explica por que as pontuações impressionam mais do que a experiência.

Author

Matt Crabtree

Como o modo “Pensamento” do Grok 4.1 é diferente do modelo padrão?

O Grok 4.1 consegue acessar dados em tempo real do X ou da web?

O Grok 4.1 já está disponível via API ou integração empresarial?

Como o Grok 4.1 foi treinado?

Tópicos

Inteligência Artificial

Modelos de idiomas grandes

Aprenda com o DataCamp

Programa

Desenvolvimento de modelos de idiomas grandes

16 h

Aprenda a desenvolver grandes modelos de linguagem (LLMs) com PyTorch e Hugging Face, usando as mais recentes técnicas de aprendizagem profunda e PNL.

Ver detalhes

Iniciar curso

Curso

Entendendo a inteligência artificial

2 h

401.5K

Aprenda os conceitos básicos da Inteligência Artificial, como aprendizado de máquina, aprendizado profundo, PNL, IA generativa e outros.

Ver detalhes

Iniciar curso

Curso

Conceitos de Grandes Modelos de Linguagem (LLMs)

2 h

99.8K

Descubra o potencial dos LLMs com nosso curso sobre aplicações, treinamento, ética e pesquisas recentes.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.

Richie Cotton

7 min

blog

Tudo o que sabemos sobre o GPT-5

Saiba como o GPT-5 evoluirá para um sistema unificado com recursos avançados, visando um lançamento no verão de 2025, com base no mais recente roteiro da OpenAI e no histórico do GPT.

Josep Ferrer

8 min

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.

Abid Ali Awan

9 min

Tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.

Josep Ferrer

Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.

Abid Ali Awan

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.

Arunn Thevapalan

Ver mais Ver mais

O que é o Grok 4.1?

Novidades do Grok 4.1

Desempenho de ponta

Alta inteligência emocional

Escrita criativa

Outras melhorias

Grok 4.1 Benchmarks

Exemplos do Grok 4.1

Inteligência emocional

Escrita criativa

Verdade e confiança

Lançamento e disponibilidade do Grok 4.1

Considerações finais

Perguntas frequentes sobre o Grok 4.1

O Grok 4.1 já está disponível via API ou integração empresarial?

Como o Grok 4.1 foi treinado?

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Tudo o que sabemos sobre o GPT-5

12 Alternativas de código aberto ao GPT-4

Guia de Introdução ao Ajuste Fino de LLMs

Ajuste fino do Llama 3.1 para classificação de textos

Visão GPT-4: Um guia abrangente para iniciantes

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Desenvolvimento de modelos de idiomas grandes

Entendendo a inteligência artificial

Conceitos de Grandes Modelos de Linguagem (LLMs)

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Tudo o que sabemos sobre o GPT-5

12 Alternativas de código aberto ao GPT-4

Guia de Introdução ao Ajuste Fino de LLMs

Ajuste fino do Llama 3.1 para classificação de textos

Visão GPT-4: Um guia abrangente para iniciantes

Desenvolvimento de modelos de idiomas grandes