Programa
A Baidu anunciou recentemente dois novos modelos de IA: ERNIE 4.5 e ERNIE X1.
O ERNIE 4.5 é um modelo multimodal generalista útil para tarefas cotidianas, competindo com o GPT-4o da OpenAI e o V3 da DeepSeek.
O ERNIE X1, por outro lado, é um modelo de raciocínio especializado projetado para tarefas avançadas, como matemática e codificação complexa. Ele entrará em um mercado altamente competitivo, juntamente com o DeepSeek-R1 e o OpenAI's o3-mini.
O maior argumento de venda da Baidu para o modelo X1 é que ele é duas vezes mais barato que o DeepSeek-R1 e, supostamente, oferece desempenho semelhante. Até o momento, porém, não vimos nenhum benchmark do X1, portanto, essa afirmação ainda não foi verificada.
Por outro lado, o ERNIE 4.5 apresenta bons resultados de benchmark, mas não parece ser particularmente fácil de usar para públicos fora da China, o que, na minha opinião, afetará significativamente sua adoção.
Os novos lançamentos ERNIE do Baidu constituirão outro "momento DeepSeek"? Minha impressão inicial é que não. Mas vamos saber mais sobre esses novos modelos. Neste blog, vou analisar os detalhes essenciais do ERNIE 4.5 e do X1.
Aprimoramento de IA para iniciantes
O que é o ERNIE 4.5 do Baidu?
O ERNIE 4.5 é o mais recente sistema de IA multimodal multimodal do Baidu, um generalista versátil projetado para tarefas e interações cotidianas. Como um sistema multimodal, o ERNIE 4.5 lida com vários tipos de dados ao mesmo tempo, integrando texto, imagens, áudio e vídeo.
Na breve demonstração oficial, vemos um exemplo do ERNIE 4.5 trabalhando com texto e vídeo:
Esse não é o primeiro passo da Baidu na IA. A empresa, originalmente fundada em 2000 como o principal mecanismo de pesquisa da China (geralmente chamado de "Google da China"), começou a investir seriamente em inteligência artificial há vários anos. A Baidu vem desenvolvendo o ERNIE (Enhanced Representation through Knowledge Integration) desde 2019, e lançou o ERNIE Bot em 2023.
No entanto, o domínio do Baidu no mercado asiático de IA foi recentemente pressionado pelos modelos Qwen do Alibaba e por novos concorrentes inovadores, como o DeepSeek.
Com o ERNIE 4.5, o Baidu concorre diretamente com o V3 do DeepSeek, Qwen 2.5 Maxou o GPT-4o da OpenAI.
O que é o ERNIE X1 da Baidu?
O ERNIE X1 é um modelo de raciocínio especializado projetado para tarefas avançadas, como matemática e codificação complexa. Semelhante ao DeepSeek-R1 ou o1 da OpenAIesse tipo de modelo mostra explicitamente seu processo de pensamento para o usuário, facilitando a compreensão de como ele chega a uma resposta ou solução específica.
As empresas continuam investindo pesadamente em modelos focados no raciocínio, como o ERNIE X1, porque esses modelos visam diretamente às tarefas que trazem um claro valor comercial. De acordo com dados recentes da Anthropic, as tarefas de raciocínio e codificação são os principais casos de uso corporativo, constituindo uma parte significativa da adoção da IA.
Fonte: O Índice Econômico Antrópico
Apesar do rápido desenvolvimento da IA, a adoção corporativa continua baixa em todo o mundo, e os modelos que se destacam em domínios de raciocínio intensivo (matemática, codificação, análise avançada) têm maior probabilidade de oferecer valor comercial tangível, gerando receita e acelerando a adoção da IA no mercado corporativo.
O principal argumento de venda da Baidu para o ERNIE X1 é sua estratégia agressiva de preços. Aqui está uma comparação rápida com o DeepSeek-R1 (as informações de preço são precisas em 17 de março de 2025):
Modelo |
Custo de entrada (mais baixo) por 1 milhão de tokens |
Custo de produção por 1 milhão de tokens |
DeepSeek-R1 |
US$ 0,135 (com desconto) - US$ 0,55 (padrão) |
US$ 0,55 (com desconto) - US$ 2,19 (padrão) |
ERNIE X1 |
$0.28 |
$1.10 |
Nas taxas padrão (e excluindo o cache de conteúdo), a afirmação da Baidu - de que o ERNIE X1 corresponde ao desempenho do DeepSeek-R1 pela metade do preço - é verdadeira, especialmente em relação ao preço do token de saída.
No entanto, com as tarifas com desconto do DeepSeek (que se aplicam entre 16:30 e 00:30 UTC todos os dias), aplica-se a alegação inversa: O ERNIE X1 fica duas vezes mais caro.
Apesar do preço atraente, a Baidu ainda não forneceu benchmarks detalhados que confirmem o desempenho do ERNIE X1 em relação ao DeepSeek-R1, o que deixa algumas incertezas sobre sua competitividade no mundo real.
Enquanto aguardamos os benchmarks do ERNIE X1, vamos encontrar mais detalhes sobre o desempenho do ERNIE 4.5.
Benchmarks do ERNIE 4.5
A Baidu divulgou benchmarks comparando o ERNIE 4.5 com os principais modelos multimodais e baseados em texto, incluindo o GPT-4o da OpenAI, GPT-4.5da OpenAI, e o V3 da DeepSeek. Vamos analisar os principais resultados, começando pelos recursos multimodais.
Referências multimodais
Nos benchmarks multimodais, o ERNIE 4.5 superou o GPT-4o, alcançando uma pontuação média de 77,77, em comparação com os 73,92 do GPT-4o - uma vantagem de 3,85 pontos.
Fonte: Baidu
Especificamente, o ERNIE 4.5 superou o GPT-4o em seis dos sete benchmarks avaliados:
- CCBench: Avalia o raciocínio de senso comum em textos e imagens. O ERNIE 4.5 obteve aproximadamente 81 pontos, superando ligeiramente os ~79 do GPT-4o.
- OCRBench: Avalia os recursos de reconhecimento óptico de caracteres, com foco na extração de texto de imagens. O ERNIE 4.5 atingiu cerca de 88, superando os ~81 do GPT-4o.
- ChartQA: Testa a compreensão dos dados apresentados em gráficos. O ERNIE 4.5 obteve uma pontuação de ~82, um pouco acima da pontuação de ~81 do GPT-4o.
- MMMU: Mede o raciocínio multimodal em vários tópicos. Aqui, o GPT-4o liderou com ~70, enquanto o ERNIE 4.5 marcou ~64, indicando uma área para aprimoramento.
- MathVista: Avalia o raciocínio matemático em contextos visuais. O ERNIE 4.5 obteve uma pontuação de ~69, superando a pontuação de ~61 do GPT-4o.
- DocVQA: Avalia a capacidade de responder a perguntas com base em imagens de documentos. O ERNIE 4.5 se destacou com uma pontuação de ~91, em comparação com a pontuação de ~85 do GPT-4o.
- MVBench: Concentra-se na compreensão temporal em tarefas de vídeo dinâmico, exigindo raciocínio sobre sequências de quadros. O ERNIE 4.5 obteve uma pontuação de ~72, superando significativamente a pontuação de ~63 do GPT-4o.
Benchmarks somente de texto
Em tarefas somente de texto, o ERNIE 4.5 obteve uma pontuação média de 79.6um pouco à frente da média do GPT-4.5, de 79,14, e também superando o DeepSeek-V3 (~77).
Fonte: Baidu
Esses resultados sugerem que o ERNIE 4.5 é particularmente competitivo em benchmarks de compreensão de documentos multimodais, matemática e idioma chinês. No entanto, seu desempenho mais fraco em benchmarks de codificação específicos, como o LiveCodeBench, destaca as possíveis limitações em tarefas de codificação especializadas.
Vamos analisar rapidamente alguns benchmarks importantes:
- MMLU-Pro: Avalia a aprendizagem multitarefa em várias disciplinas. O ERNIE 4.5 obteve uma pontuação de ~78, um pouco abaixo dos ~79 do GPT-4.5.
- GPQA: Avalia a resposta a perguntas de uso geral. O ERNIE 4.5 atingiu ~57, ficando atrás do GPT-4.5, que atingiu ~61.
- C-Eval: Mede o conhecimento geral e o raciocínio dos chineses. O ERNIE 4.5 liderou com ~88, superando os ~80 do GPT-4.5.
- CMMLU: Testa a compreensão de multitarefas no idioma chinês. O ERNIE 4.5 obteve uma pontuação de ~88, à frente dos ~80 do GPT-4.5.
- Math-500: Mede a capacidade de um modelo de resolver problemas matemáticos desafiadores de nível de ensino médio. O ERNIE 4.5 (~82) está atrás do líder DeepSeek-V3 (~88) e do GPT-4.5 (~84).
- CMath: Avalia a resolução de problemas de matemática em chinês. O ERNIE 4.5 liderou com ~95, superando os ~85 do DeepSeek-V3.
- LiveCodeBench: Mede as habilidades de codificação em tempo real. O ERNIE 4.5 obteve uma pontuação de ~35, abaixo da pontuação de ~45 do GPT-4.5, indicando que há espaço para melhorias nas tarefas de codificação.
Como acessar o ERNIE 4.5 e o ERNIE X1
Você pode experimentar diretamente o ERNIE 4.5 e o X1 da Baidu por meio do aplicativo oficial de chatbot disponível no site da empresa: yiyan.baidu.com.
Entretanto, com base em minha experiência pessoal, há alguns problemas de usabilidade. No momento, a interface está disponível principalmente em chinês, o que a torna desafiadora para quem não fala chinês. Embora você possa usar o recurso de tradução automática do navegador, a tradução não é fácil e a experiência do usuário é prejudicada.
Fonte: Baidu
Além disso, o login do Google ou do GitHub não está disponível, um problema que não encontrei em concorrentes como o DeepSeek ou o Qwen. Ainda tentei criar uma conta, mas não consegui preencher o formulário de registro com meu número de telefone europeu.
Como acessar o ERNIE via API
Para os desenvolvedores interessados em integrar o ERNIE 4.5, o acesso à API já está disponível por meio da plataforma oficial da Baidu, Qianfan. O preço começa em US$ 0,55 por 1 milhão de tokens de entrada e US$ 2,20 por 1 milhão de tokens de saída.
Em 17 de março de 2024, o ERNIE X1 ainda não estava disponível por meio da API, mas a Baidu mencionou que isso acontecerá em breve.
Além disso, a Baidu anunciou planos para abrir o código-fonte do ERNIE 4.5 a partir de 30 de junho de 2025. Essa etapa poderia melhorar a adoção internacionalmente, tornando o modelo mais acessível e adaptável.
A Baidu também pretende integrar o ERNIE 4.5 e o X1 em vários produtos de seu ecossistema - incluindo o Baidu Search e o aplicativo Wenxiaoyan - embora os cronogramas e os detalhes ainda não tenham sido confirmados.
Impacto do ERNIE no mercado de IA
O lançamento do ERNIE 4.5 e do ERNIE X1 da Baidu dá continuidade a um padrão notável que tenho visto surgir no setor de IA da China - uma estratégia de priorizar a interrupção em detrimento da usabilidade imediata.
Ao contrário de empresas como Google, OpenAI ou Mistral, que normalmente passam longos períodos (geralmente de 8 a 12 meses ou mais) garantindo que seus produtos atendam a rigorosos padrões de estabilidade, segurança, privacidade e proteção, as empresas chinesas de IA parecem favorecer a implantação rápida de produtos atraentes, mas que ainda estão em um estado inicial e não aperfeiçoado.
Assim como o ManusAI e o DeepSeek, os modelos ERNIE do Baidu seguem uma tendência semelhante. Elas entram no mercado de forma agressiva, com o objetivo principal de desestabilizar as estruturas de preços e as premissas da concorrência. O modelo ERNIE X1, em particular, posiciona-se explicitamente como comparável em desempenho ao DeepSeek-R1 pela metade do custo, embora a Baidu ainda não tenha apoiado publicamente essas afirmações com benchmarks detalhados.
E, embora o ERNIE 4.5 apresente resultados de benchmark genuinamente competitivos, os usuários internacionais, como eu, ainda encontram barreiras, principalmente um processo de inscrição desafiador e problemas de acessibilidade de idioma.
De modo geral, os lançamentos do ERNIE 4.5 e do X1 reforçam a ideia de que as empresas chinesas de IA se sentem confortáveis em sacrificar um pouco a estabilidade e a experiência do usuário no curto prazo, desde que consigam impulsionar rapidamente o mercado e provocar conversas em todo o setor.
Ainda não se sabe se essa abordagem é sustentável, mas não há como negar que ela é eficaz para forçar o mercado global de IA a se mover mais rapidamente e pensar de forma diferente sobre o que significa competir no mercado atual.
Conclusão
O lançamento do ERNIE 4.5 e do ERNIE X1 pela Baidu representa mais uma etapa ambiciosa no competitivo cenário de IA da China. O ERNIE 4.5 demonstra pontos fortes claros, especialmente em tarefas de compreensão multimodal, matemática e idioma chinês, posicionando-o fortemente contra rivais globais como o GPT-4o e o DeepSeek V3.
Por outro lado, a promessa do ERNIE X1 de fornecer recursos avançados de raciocínio pela metade do custo do DeepSeek-R1 é intrigante, mas, sem benchmarks, continua sendo especulativa.
À medida que esses modelos amadurecem, será interessante ver se o Baidu e outras empresas chinesas semelhantes ajustam sua abordagem para obter um melhor equilíbrio entre a interrupção e a estabilidade.
Perguntas frequentes
O Ernie 4.5 é compatível com outros idiomas além do chinês?
Atualmente, o Ernie 4.5 suporta principalmente chinês e inglês, embora seu melhor desempenho seja em tarefas no idioma chinês. O suporte oficial para outros idiomas ainda não foi anunciado.
Quando exatamente o Ernie X1 estará disponível por meio da API do Baidu?
A Baidu ainda não forneceu uma data exata, mas mencionou que o Ernie X1 estará disponível por meio de APIs em sua plataforma Qianfan MaaS em breve.
Quais recursos de hardware são necessários para executar o Ernie 4.5 localmente depois que ele se tornar de código aberto?
O Baidu ainda não divulgou os requisitos detalhados de hardware, mas, normalmente, modelos multimodais grandes exigem GPUs potentes (como Nvidia A100s ou H100s) e recursos substanciais de RAM.
Existe um limite para o uso gratuito do Ernie Bot por usuários individuais?
O Baidu ainda não esclareceu os limites específicos de uso, mas é comum que esses chatbots imponham limites diários ou mensais para gerenciar a carga do servidor.
As empresas fora da China podem acessar e integrar facilmente o Ernie 4.5 em seus sistemas via API?
Tecnicamente sim, por meio da plataforma Qianfan MaaS da Baidu; no entanto, barreiras práticas - como problemas de registro ou suporte ao idioma - podem complicar a adoção internacional.
Qual é a segurança do Ernie 4.5 e do X1 em relação à privacidade dos dados?
O Baidu ainda não divulgou documentação detalhada sobre privacidade de dados ou certificações de conformidade, o que dificulta avaliações completas por enquanto, especialmente para empresas fora da China.
Existem alternativas ao Ernie 4.5 e ao X1 na China que possam oferecer experiências de usuário internacionais mais tranquilas?
Sim, os modelos Qwen da Alibaba e DeepSeek atualmente oferecem acessibilidade internacional mais suave, incluindo processos de registro mais simples e melhor suporte em inglês.
Sou editor e redator de blogs, tutoriais e notícias sobre IA, garantindo que tudo se encaixe em uma estratégia de conteúdo sólida e nas práticas recomendadas de SEO. Escrevi cursos de ciência de dados em Python, estatística, probabilidade e visualização de dados. Também publiquei um romance premiado e passo meu tempo livre escrevendo roteiros e dirigindo filmes.