Programa
Depois de lançar uma oferta para comprar a OpenAI na semana passada, Elon Musk lançou o Grok 3 por meio de sua empresa, a xAI, chamando-o de "a IA mais poderosa do mundo atualmente". Se os benchmarks da demonstração ao vivo se mantiverem, ele pode estar certo.
O Grok 3 entra no crescente campo dos modelos de raciocínio, competindo com o o1 da OpenAI da OpenAI e o R1 do DeepSeek. Ao contrário dos modelos de uso geral, como o ChatGPT, que geram respostas de imediato, os modelos de raciocínio mostram seu processo de raciocínio, analisando os problemas passo a passo antes de chegar a uma conclusão.
No entanto, parece que a xAI está posicionando o Grok 3 como um modelo de raciocínio e uma IA generalista. Com o modo Think desativado (falaremos mais sobre isso daqui a pouco), ele funciona como o GPT-4o ou o Claude 3.5 Sonnet: rápido, conversacional e desenvolvido para tarefas gerais. Mas a ativação do modo Pensar o transforma em um modelo de raciocínio.
Se você não teve tempo de assistir à demonstração ao vivo de uma hora do Grok 3, não se preocupe.
Aprimoramento de IA para iniciantes
O que é o Grok 3?
O Grok 3 é o modelo de IA mais recente da xAI, posicionado como concorrente direto do o1 da OpenAI e do R1 da DeepSeek. A equipe da xAI afirma que ele é de 10 a 15 vezes mais potente do que o Grok 2 e, com base nos benchmarks apresentados na demonstração, ele pode realmente se equiparar aos melhores modelos do mercado.
Fonte: xAI
Como os modelos de raciocínio são diferentes?
Se você já usou o ChatGPT, o Claude ou o Gemini, está familiarizado com o funcionamento da maioria dos modelos de IA: você faz uma pergunta, eles geram uma resposta e pronto.
Modelos de raciocínio como o Grok 3 adotam uma abordagem diferente. Em vez de dar uma resposta imediata, eles analisam os problemas passo a passo, mostram seus pensamentos intermediários e até refinam o resultado antes de apresentar uma resposta final. Isso os torna especialmente avançados para tarefas como matemática, codificação e solução de problemas do mundo real.
Fonte: xAI
Grok 3 Mini
Nem todas as tarefas exigem o raciocínio em grande escala do Grok 3. O Grok 3 mini é otimizado para velocidade e menor uso de computação, mas ainda mantém os recursos de raciocínio do Grok 3.
O Grok 3 mini pode ser especialmente útil para os desenvolvedores que desejam otimizar seus gastos com o uso de tokens ao usar a API.
Você também pode mudar para o Grok 3 Mini para obter uma resposta mais rápida na interface de bate-papo. Com base nos benchmarks, não haverá muitas perguntas que ele não possa resolver.
Grok 3 Modo Pensar
O modo Pensar é uma configuração opcional que ativa o processo de raciocínio em várias etapas do Grok 3. Em vez de ir direto para uma resposta, ele divide os problemas em etapas menores, avalia diferentes soluções e refina sua resposta antes de emitir um resultado final.
Esse modo é particularmente útil para a solução de problemas complexos, provas matemáticas, desafios de codificação e tarefas baseadas em lógica. Ele imita o pensamento estruturado semelhante ao humano, tornando-o ideal para situações em que a qualidade do raciocínio é mais importante do que a velocidade.
Pelo que pude perceber, a xAI está posicionando o Grok 3 como um modelo de raciocínio e um modelo generalista. Quando o modo Think está desativado, ele se comporta mais como o GPT-4o ou o Claude 3.5 Sonnet-rápido, conversacional e otimizado para uso geral. Mas quando o modo Pensar é ativado, ele passa para o modo de raciocínio, analisando problemas complexos passo a passo.
A xAI não comparou o Grok 3 apenas com modelos de raciocínio, como o O1 da OpenAI ou o DeepSeek R1, mas também com modelos generalistas, como o GPT-4o, o DeepSeek-V3 e o Claude 3.5 Sonnet. Isso sugere que eles querem que ele concorra em ambas as categorias, em vez de se limitar a apenas uma.
Fonte: xAI
Grok 3 Modo Big Brain
O modo Big Brain é a configuração de alto desempenho do Grok 3, alocando recursos computacionais extras para lidar com tarefas exigentes.
Quando ativado, o Grok 3 leva mais tempo para processar as consultas, mas oferece maior precisão, insights mais profundos e respostas mais detalhadas. Esse modo é particularmente útil para pesquisas científicas, tarefas de IA com várias camadas e cenários de solução de problemas altamente complexos, em que a inferência padrão pode não ser suficiente.
Grok 3 DeepSearch
O DeepSearch é a ferramenta de pesquisa integrada da xAI, permitindo que o Grok 3 navegue na Web, verifique fontes e sintetize informações em tempo real antes de gerar uma resposta.
Diferentemente dos modelos de IA padrão que dependem de dados pré-treinados, o DeepSearch obtém informações novas, o que o torna ideal para notícias, tendências de mercado, pesquisa técnica e verificação de fatos. Esse modo posiciona o Grok 3 como concorrente do Deep Research da Gemini e do Pesquisa profunda da OpenAI.
Fonte: xAI
Como o Grok 3 foi desenvolvido?
O Grok 3 foi desenvolvido com base em grandes atualizações de infraestrutura, novas técnicas de treinamento e um grande aumento na capacidade de computação. Ao contrário de seus antecessores, que foram treinados em um hardware relativamente limitado, a xAI construiu um dos maiores clusters de treinamento de IA do mundo para dar suporte ao desenvolvimento do Grok 3.
Fonte: xAI
Colossus: o supercomputador personalizado da xAI
Um dos maiores desafios no treinamento de modelos de IA em grande escala é a disponibilidade de computação. Para contornar isso, a xAI construiu seu próprio cluster de supercomputadores chamado Colossus (você pode ver o armazém na imagem acima).
A primeira fase, concluída em apenas 122 dias, implantou 100.000 GPUs H100, tornando-a um dos maiores clusters de treinamento de IA do mundo.
Na segunda fase, a xAI dobrou a capacidade de computação em mais 92 dias. Essa infraestrutura permite o treinamento contínuo, o que significa que o Grok 3 continua melhorando em tempo real à medida que mais usuários interagem com ele.
Do Grok 0 ao Grok 3
O Grok 1 foi lançado em novembro de 2023 e, embora tivesse personalidade, não chegava nem perto do nível do GPT-4o ou do Claude 3.5 Sonnet. O Grok 2 foi lançado apenas alguns meses depois, apresentando grandes melhorias, mas ainda assim ficou atrás dos principais modelos.
Fonte: xAI
O Grok 3, no entanto, representa um salto muito maior. A equipe afirma que o Grok 3 é de 10 a 15 vezes mais potente do que o Grok 2, graças aos aprimoramentos do modelo e a um aumento drástico na computação de treinamento.
Benchmarks do Grok 3
A xAI afirma que o Grok 3 é um dos modelos de IA mais avançados até o momento, e os benchmarks de sua demonstração ao vivo sugerem que ele pode realmente competir com os melhores. Vamos analisar os resultados em matemática, ciências e codificação para ver como ele se compara ao GPT-4o, Claude 3.5 Sonnet, Gemini-2 Pro e DeepSeek-V3, bem como a outros modelos de raciocínio como O1 e DeepSeek-R1.
Desempenho em relação a modelos generalistas
O primeiro conjunto de benchmarks compara o Grok 3 e o Grok 3 Mini com outros modelos de uso geral.
Fonte: xAI
O Grok 3 lidera em todas as categorias por uma grande margem, mas matemática, ciências e codificação representam apenas uma fração dos casos de uso de modelos generalistas - as pessoas também confiam nele para escrever, analisar relatórios, fornecer suporte ao cliente e muito mais.
Seria interessante ver o desempenho do Grok 3 em benchmarks como MMLU (amplo conhecimento em 57 assuntos), BBH (raciocínio complexo e solução de problemas abstratos) ou TruthfulQA (precisão na resposta a perguntas ambíguas ou controversas) para obter uma visão mais completa de suas capacidades no mundo real.
Desempenho em relação aos modelos de raciocínio
Quando os recursos de raciocínio do Grok 3 são totalmente utilizados, ou seja, quando o modo Pensar e o modo Big Brain estão ativados, o desempenho do modelo aumenta significativamente. Esse segundo conjunto de benchmarks compara o Grok 3 Reasoning Beta e o Grok 3 mini Reasoning com outros modelos de raciocínio avançado, incluindo O1, DeepSeek-R1 e Gemini-2 Flash Thinking.
Fonte: xAI
As habilidades de raciocínio do Grok 3 elevam seu desempenho em matemática para 93-96, um salto enorme em relação ao seu modo generalista (52).
As pontuações de ciências e codificação também melhoraram significativamente, superando o o1, o DeepSeek-R1 e o Gemini-2 Flash Thinking.
O Grok 3 mini Reasoning tem o mesmo desempenho que o Grok 3 completo em tarefas de raciocínio (ou até melhor - tenho que admitir que o gráfico é um pouco confuso com essas camadas de cores), o que significa que mesmo a variante menor continua competitiva na solução de problemas complexos.
Como acessar o Grok 3?
A xAI está implementando o Grok 3 gradualmente, com uma disponibilidade mais ampla prevista para os próximos meses. Poderemos usar o Grok 3 em uma interface baseada em bate-papo e por meio da API.
Interface baseada em bate-papo
O modelo está atualmente integrado ao X (antigo Twitter) e disponível para assinantes Premium+. Os usuários podem conversar com ele diretamente na plataforma, como nas versões anteriores do Grok. Você pode encontrar o botão Grok no menu do lado esquerdo:
Além do X, a xAI foi lançada grok.comuma interface da Web independente na qual os usuários podem interagir com o modelo fora da plataforma de mídia social. O acesso ao Grok por meio deste site ainda não está disponível na UE e no Reino Unido.
Há também um aplicativo móvel dedicadomas ele só está disponível para iOS.
API do Grok 3
Até a publicação deste artigo, o Grok 3 ainda não havia sido lançado por meio da API, mas provavelmente estará disponível em breve. Fique de olho na página de página de modelos para ver as últimas atualizações.
Conclusão
O Grok 3 é sem dúvida o lançamento mais ambicioso da xAI até o momento, mas estou esperando para ver como ele se comporta fora de seus próprios benchmarks de demonstração. No momento, ele parece ser um modelo de raciocínio sólido, competindo com o OpenAI e o DeepSeek na solução de problemas em várias etapas.
A abordagem híbrida, na qual você pode alternar entre respostas rápidas e conversacionais e um raciocínio mais profundo com o modo Think, faz sentido no papel. Mas eu gostaria de ver como isso se generaliza além da matemática, da codificação e da ciência, especialmente em tarefas como redação, resumo e pesquisa no mundo real.
Perguntas frequentes
Quais desenvolvimentos futuros estão planejados para o Grok 3?
A xAI anunciou planos para introduzir um recurso de voz sintetizada no Grok 3, aprimorando sua interatividade. Além disso, há planos para abrir o código-fonte do Grok-2 nos próximos meses. Esses desenvolvimentos visam expandir os recursos e a acessibilidade do Grok 3.
Você tem alguma restrição geográfica para acessar o Grok 3?
Atualmente, o acesso ao Grok 3 por meio do grok.com não está disponível na União Europeia e no Reino Unido. Os usuários dessas regiões podem enfrentar restrições e devem verificar se há atualizações sobre a disponibilidade.
Quais são as opções de assinatura para acessar o Grok 3?
O Grok 3 está disponível em diferentes níveis de assinatura. Na plataforma X (antigo Twitter), ele é acessível aos assinantes Premium+. Além disso, a xAI oferece uma interface da Web independente e um aplicativo móvel dedicado com um nível de assinatura SuperGrok, que fornece recursos avançados. Até o momento, não há uma API pública disponível para o Grok 3.
O Grok 3 é capaz de lidar com entradas multimodais?
Sim, o Grok 3 oferece suporte a recursos multimodais, incluindo compreensão e geração de imagens.