Programa
A atual revolução da IA generativa não seria possível sem os chamados modelos de linguagem grandes (LLMs). Com base em transformadores, uma arquitetura neural avançada, os LLMs são sistemas de IA usados para modelar e processar a linguagem humana. Eles são chamados de "grandes" porque têm centenas de milhões ou até bilhões de parâmetros, que são pré-treinados usando um corpus maciço de dados de texto.
Inicie nossoCurso de Conceitos de Modelos de Linguagem Grandes (LLMs) hoje para que você saiba mais sobre como os LLMs funcionam.
Os LLM são os modelos de base de chatbots populares e amplamente usados, como o ChatGPT e o Google Bard. Em particular, o ChatGPT é alimentado pelo GPT-4, um LLM desenvolvido e de propriedade da OpenAI, enquanto o Google Bard é baseado no modelo PaLM 2 do Google.
O ChatGPT e o Bard, assim como muitos outros chatbots populares, têm em comum o fato de seus LLMs subjacentes serem proprietários. Isso significa que eles são de propriedade de uma empresa e só podem ser usados pelos clientes após a compra de uma licença. Essa licença vem com direitos, mas também com possíveis restrições sobre como usar o LLM, além de informações limitadas sobre os mecanismos por trás da tecnologia.
No entanto, um movimento paralelo no espaço do LLM está ganhando ritmo rapidamente: LLMs de código aberto. Após as crescentes preocupações com a falta de transparência e a acessibilidade limitada dos LLMs proprietários, controlados principalmente pelas grandes empresas de tecnologia, como Microsoft, Google e Meta, os LLMs de código aberto prometem tornar o campo de rápido crescimento dos LMMs e da IA generativa mais acessível, transparente e inovador.
Este artigo tem o objetivo de explorar os principais LLMs de código aberto disponíveis em 2023. Embora tenha se passado apenas um ano desde o lançamento do ChatGPT e a popularização dos LLMs (proprietários), a comunidade de código aberto já alcançou marcos importantes, com um bom número de LLMs de código aberto disponíveis para diferentes finalidades. Continue lendo para ver os mais populares!
Desenvolver aplicativos de IA
Benefícios do uso de LLMs de código aberto
Há vários benefícios de curto e longo prazo ao escolher LLMs de código aberto em vez de LLMs proprietários. Abaixo, você encontra uma lista dos motivos mais convincentes:
Segurança e privacidade de dados aprimoradas
Uma das maiores preocupações quanto ao uso de LLMs proprietários é o risco de vazamento de dados ou de acesso não autorizado a dados confidenciais pelo provedor de LLM. De fato, já houve várias controvérsias sobre o suposto uso de dados pessoais e confidenciais para fins de treinamento.
Ao usar o LLM de código aberto, as empresas serão as únicas responsáveis pela proteção dos dados pessoais, pois manterão controle total sobre eles.
Economia de custos e redução da dependência de fornecedores
A maioria dos LLMs proprietários exige uma licença para que você possa usá-los. A longo prazo, essa pode ser uma despesa importante que algumas empresas, especialmente as PMEs, talvez não consigam arcar. Esse não é o caso dos LLMs de código aberto, pois normalmente eles são de uso gratuito.
No entanto, é importante observar que a execução de LLMs requer recursos consideráveis, mesmo apenas para inferência, o que significa que você normalmente terá que pagar pelo uso de serviços em nuvem ou de uma infraestrutura poderosa.
Transparência de código e personalização do modelo de linguagem
As empresas que optarem por LLMs de código aberto terão acesso ao funcionamento dos LLMs, incluindo seu código-fonte, arquitetura, dados de treinamento e mecanismo de treinamento e inferência. Essa transparência é a primeira etapa para o escrutínio, mas também para a personalização.
Como os LLMs de código aberto são acessíveis a todos, incluindo seu código-fonte, as empresas que os utilizam podem personalizá-los para seus casos de uso específicos.
Suporte ativo à comunidade e incentivo à inovação
O movimento de código aberto promete democratizar o uso e o acesso às tecnologias de LLM e IA generativa. Permitir que os desenvolvedores inspecionem o funcionamento interno dos LLMs é fundamental para o desenvolvimento futuro dessa tecnologia. Ao reduzir as barreiras de entrada para codificadores de todo o mundo, os LLMs de código aberto podem promover a inovação e aprimorar os modelos, reduzindo os vieses e aumentando a precisão e o desempenho geral.
Como lidar com a pegada ambiental da IA
Após a popularização dos LLMs, os pesquisadores e os defensores do meio ambiente estão levantando preocupações sobre a pegada de carbono e o consumo de água necessários para operar essas tecnologias. Os LLMs proprietários raramente publicam informações sobre os recursos necessários para treinar e operar os LLMs, nem sobre a pegada ambiental associada.
Com o LLM de código aberto, os pesquisadores têm mais chances de conhecer essas informações, o que pode abrir a porta para novos aprimoramentos destinados a reduzir a pegada ambiental da IA.
9 principais modelos de idiomas grandes de código aberto para 2024
1. LLaMA 3.1

A maioria dos principais participantes do mercado de LLM optou por desenvolver seu LLM a portas fechadas. No entanto, o Meta continua a ser uma exceção com sua série de LLMs de código aberto, que agora inclui o LLaMA 3.1 mais recente.
Lançado em 23 de julho de 2024, o LLaMA 3.1 inclui modelos com parâmetros de 8B, 70B e, pela primeira vez, 405B, o que o torna o maior da série. Esses modelos foram projetados para lidar com uma variedade de tarefas de processamento de linguagem natural em vários idiomas, incluindo inglês, espanhol, português, alemão, tailandês, francês, italiano e hindi.
Os modelos LLaMA 3.1 suportam um comprimento de contexto muito maior, de 128.000 tokens, o que aumenta sua capacidade de processar e compreender textos longos, melhorando significativamente o desempenho em tarefas de raciocínio complexas e mantendo o contexto em conversas mais longas.
O modelo 405B, em particular, é uma potência para a geração de dados sintéticos, que podem ser usados para treinar outros modelos, e para a destilação de conhecimento, permitindo que o conhecimento desse modelo grande seja transferido para modelos menores e mais eficientes. Esse recurso abre novas possibilidades para a implementação de IA avançada em ambientes com recursos limitados.
Além disso, o LLaMA 3.1 continua a aproveitar o aprendizado por reforço a partir do feedback humano (RLHF), garantindo que os modelos se alinhem às preferências humanas de utilidade e segurança.
Para saber mais sobre o LLaMA, confira nossa Introdução ao LLaMA do Meta AI e nosso artigo Fine-Tuning LLaMA 3.1.
2. BLOOM

Lançado em 2022 após um projeto colaborativo de um ano com voluntários de mais de 70 países e pesquisadores da Hugging Face, o BLOOM é um LLM autorregressivo treinado para continuar o texto de um prompt em grandes quantidades de dados de texto usando recursos computacionais em escala industrial.
O lançamento do BLOOM foi um marco importante na democratização da IA generativa. Com 176 bilhões de parâmetros, o BLOOM é um dos LLMs de código aberto mais avançados, com recursos para fornecer texto coerente e preciso em 46 idiomas e 13 linguagens de programação.
A transparência é a espinha dorsal do BLOOM, um projeto em que todos podem acessar o código-fonte e os dados de treinamento para executá-lo, estudá-lo e aprimorá-lo.
O BLOOM pode ser usado gratuitamente por meio do ecossistema Hugging Face.
3. BERT

A tecnologia subjacente do LLM é um tipo de arquitetura neural chamada de transformador. Ele foi desenvolvido em 2017 por pesquisadores do Google no artigo Attention is All You Need. Um dos primeiros experimentos para testar o potencial dos transformadores foi o BERT.
Lançado em 2018 pelo Google como um LLM de código aberto, o BERT (sigla para Bidirectional Encoder Representations from Transformers) alcançou rapidamente um desempenho de ponta em muitas tarefas de processamento de linguagem natural.
Graças aos seus recursos inovadores nos primórdios dos LLMs e à sua natureza de código aberto, o Bert é um dos LLMs mais populares e amplamente usados. Por exemplo, em 2020, o Google anunciou que havia adotado o Bert por meio da Pesquisa Google em mais de 70 idiomas.
Atualmente, há milhares de modelos Bert de código aberto, gratuitos e pré-treinados disponíveis para casos de uso específicos, como análise de sentimentos, análise de notas clínicas e detecção de comentários tóxicos.
Você está interessado nas possibilidades do BERT? Confira nosso artigo Introdução ao BERT.
4. Falcon 180B

Se o Falcon 40B já impressionou a comunidade de LLMs de código aberto (ficou em primeiro lugar na tabela de classificação da Hugging Face para modelos de linguagem grande de código aberto), o novo Falcon 180B sugere que a lacuna entre LLMs proprietários e de código aberto está diminuindo rapidamente.
Lançado pelo Instituto de Inovação Tecnológica dos Emirados Árabes Unidos em setembro de 2023, o Falcon 180B está sendo treinado com 180 bilhões de parâmetros e 3,5 trilhões de tokens. Com essa impressionante capacidade de computação, o Falcon 180B já superou o LLaMA 2 e o GPT-3.5 em várias tarefas de PNL, e o Hugging Face sugere que ele pode rivalizar com o PaLM 2 do Google, o LLM que alimenta o Google Bard.
Embora seja gratuito para uso comercial e de pesquisa, é importante observar que o Falcon 180B requer recursos de computação importantes para funcionar.
5. OPT-175B

O lançamento do Open Pre-trained Transformers Language Models (OPT) em 2022 foi outro marco importante na estratégia da Meta de liberar a corrida do LLM por meio de código aberto.
O OPT inclui um conjunto de transformadores pré-treinados somente para decodificadores, variando de 125M a 175B parâmetros. O OPT-175B, um dos LLMs de código aberto mais avançados do mercado, é o irmão mais potente, com desempenho semelhante ao do GPT-3. Tanto os modelos pré-treinados quanto o código-fonte estão disponíveis para o público.
No entanto, se você estiver pensando em desenvolver uma empresa orientada por IA com LLMs, é melhor pensar em outra, pois o OPT-175B é lançado sob uma licença não comercial, permitindo apenas o uso do modelo para casos de uso de pesquisa.
6. XGen-7B

Mais e mais empresas estão entrando na corrida do LLM. Uma das últimas a entrar no ringue foi a Salesforce, que lançou seu LLM XGen-7B em julho de 2023.
De acordo com os autores, a maioria dos LLMs de código aberto se concentra em fornecer respostas amplas com informações limitadas (ou seja, solicitações curtas com pouco contexto). A ideia por trás do XGen-7B é criar uma ferramenta que ofereça suporte a janelas de contexto mais longas. Em particular, a variação mais avançada do XGen (XGen-7B-8K-base) permite uma janela de contexto de 8K, ou seja, o tamanho cumulativo do texto de entrada e saída.
A eficiência é outra prioridade importante no XGen, que usa apenas 7B parâmetros para treinamento, muito menos do que os LLMs de código aberto mais avançados, como o LLaMA 2 ou o Falcon.
Apesar de seu tamanho relativamente pequeno, o XGen ainda pode oferecer ótimos resultados. O modelo está disponível para fins comerciais e de pesquisa, exceto a varianteXGen-7B-{4K,8K}-inst, que foi treinada com dados de instrução e RLHF e é liberada sob uma licença não comercial.
7. GPT-NeoX e GPT-J

Desenvolvidos por pesquisadores da EleutherAI, um laboratório de pesquisa de IA sem fins lucrativos, o GPT-NeoX e o GPT-J são duas excelentes alternativas de código aberto ao GPT.
O GPT-NeoX tem 20 bilhões de parâmetros, enquanto o GPT-J tem 6 bilhões de parâmetros. Embora os LLMs mais avançados possam ser treinados com mais de 100 bilhões de parâmetros, esses dois LLMs ainda podem fornecer resultados com alta precisão.
Eles foram treinados com 22 conjuntos de dados de alta qualidade de um conjunto diversificado de fontes que permitem seu uso em vários domínios e muitos casos de uso. Em contraste com a GPT-3, a GPT-NeoX e a GPT-J não foram treinadas com RLHF.
Qualquer tarefa de processamento de linguagem natural pode ser realizada com o GPT-NeoX e o GPT-J, desde a geração de texto e análise de sentimentos até a pesquisa e o desenvolvimento de campanhas de marketing.
Ambos os LLMs estão disponíveis gratuitamente por meio da API do NLP Cloud.
8. Vicuna 13-B

O Vicuna-13B é um modelo de conversação de código aberto treinado a partir do ajuste fino do modelo LLaMa 13B usando conversações compartilhadas por usuários reunidas no ShareGPT.
Como um chatbot inteligente, as aplicações do Vicuna-13B são inúmeras, e algumas delas são ilustradas abaixo em diferentes setores, como atendimento ao cliente, saúde, educação, finanças e viagens/hospitalidade.
Uma avaliação preliminar usando o GPT-4 como juiz mostrou que o Vicuna-13B alcançou mais de 90% de qualidade do ChatGPT e do Google Bard e, em seguida, superou outros modelos como o LLaMa e o Alpaca em mais de 90% dos casos.
9. Magistral Small

Lançado pela Mistral AI em junho de 2025, o Magistral Small é um LLM de código aberto com parâmetro 24B criado para tarefas de raciocínio avançado. Ele é excelente em lógica de cadeia de raciocínio e de várias etapas em vários idiomas, incluindo inglês, francês, árabe, chinês e outros.
Diferentemente dos modelos de uso geral, o Magistral Small se concentra na precisão lógica e na interoperabilidade. Em nossa opinião, isso o torna ideal para domínios como direito, finanças e campos STEM em geral. Agora ele está disponível sob a licença Apache 2.0 e pode ser acessado via Hugging Face.
Escolhendo o LLM de código aberto certo para suas necessidades
O espaço do LLM de código aberto está se expandindo rapidamente. Atualmente, há muito mais LLMs de código aberto do que proprietários, e a lacuna de desempenho poderá ser superada em breve, à medida que os desenvolvedores de todo o mundo colaborarem para atualizar os LLMs atuais e projetar outros mais otimizados.
Nesse contexto vibrante e empolgante, pode ser difícil escolher o LLM de código aberto certo para você. Aqui está uma lista de alguns dos fatores que você deve considerar antes de optar por um LLM de código aberto específico:
- O que você quer fazer? Essa é a primeira coisa que você deve se perguntar. Os LLM de código aberto estão sempre abertos, mas alguns deles são liberados apenas para fins de pesquisa. Portanto, se você estiver planejando abrir uma empresa, esteja ciente das possíveis limitações de licenciamento.
- Por que você precisa de um LLM? Isso também é extremamente importante. Atualmente, os LLMs estão em voga. Todos estão falando sobre eles e suas infinitas oportunidades. Mas se você puder desenvolver sua ideia sem precisar de LLMs, então não os use. Não é obrigatório (e você provavelmente economizará muito dinheiro e evitará o uso de mais recursos).
- De quanta precisão você precisa? Esse é um aspecto importante. Há uma relação direta entre o tamanho e a precisão dos LLMs de última geração. Isso significa, em geral, que quanto maior o LLM em termos de parâmetros e dados de treinamento, mais preciso será o modelo. Portanto, se precisar de alta precisão, você deve optar por LLMs maiores, como o LLaMA ou o Falcon.
- Quanto dinheiro você quer investir? Isso está intimamente ligado à pergunta anterior. Quanto maior o modelo, mais recursos serão necessários para treinar e operar o modelo. Isso se traduz em infraestrutura adicional a ser usada ou em uma conta mais alta dos provedores de nuvem, caso você queira operar seu LLM na nuvem. Os LLMs são ferramentas poderosas, mas exigem recursos consideráveis para serem usados, mesmo os de código aberto.
- Você pode atingir seus objetivos com um modelo pré-treinado? Por que investir dinheiro e energia para treinar seu LLM do zero se você pode simplesmente usar um modelo pré-treinado? Existem muitas versões de LLMs de código aberto treinadas para um caso de uso específico. Se a sua ideia se enquadra em um desses casos de uso, faça isso.
Capacite sua equipe com IA e LLMs
Os LLMs de código aberto não são apenas para projetos ou interesses individuais. À medida que a revolução da IA generativa continua a se acelerar, as empresas estão reconhecendo a importância fundamental de compreender e implementar essas ferramentas. Os LLMs já se tornaram fundamentais para alimentar aplicativos avançados de IA, desde chatbots até tarefas complexas de processamento de dados. Garantir que sua equipe seja proficiente em tecnologias de IA e LLM não é mais apenas uma vantagem competitiva - é uma necessidade para preparar sua empresa para o futuro.
Se você é líder de equipe ou proprietário de uma empresa e deseja capacitar sua equipe com conhecimentos de IA e LLM, a DataCamp for Business oferece programas de treinamento abrangentes que podem ajudar seus funcionários a adquirir as habilidades necessárias para aproveitar essas ferramentas poderosas. Nós fornecemos:
- Trilhas de aprendizagem direcionadas para IA e LLM: Personalizável para se alinhar ao conhecimento atual da sua equipe e às necessidades específicas da sua empresa, abrangendo desde conceitos básicos de IA até o desenvolvimento avançado de LLM.
- Prática de IA: Projetos reais que se concentram na criação e implementação de modelos de IA, incluindo o trabalho com LLMs populares, como o GPT-4, e alternativas de código aberto.
- Acompanhamento do progresso nas habilidades de IA: Ferramentas para monitorar e avaliar o progresso da sua equipe, garantindo que ela adquira as habilidades necessárias para desenvolver e implementar soluções de IA de forma eficaz.
Investir na capacitação em IA e LLM não apenas aprimora os recursos da sua equipe, mas também posiciona sua empresa na vanguarda da inovação, permitindo que você aproveite todo o potencial dessas tecnologias transformadoras. Entre em contato com a nossa equipe para solicitar uma demonstração e começar a criar sua força de trabalho pronta para IA hoje mesmo.
Conclusão
Os LLMs de código aberto estão em um movimento empolgante. Com sua rápida evolução, parece que o espaço da IA generativa não será necessariamente monopolizado pelas grandes empresas que podem se dar ao luxo de criar e usar essas ferramentas poderosas.
Vimos apenas oito LLMs de código aberto, mas o número é muito maior e está crescendo rapidamente. Nós, da DataCamp, continuaremos a fornecer informações sobre as últimas notícias no espaço do LLM, oferecendo cursos, artigos e tutoriais sobre LLMs. Por enquanto, confira nossa lista de materiais com curadoria:
Perguntas frequentes
O que são LLMs de código aberto?
Os modelos de linguagem de grande porte (LLMs) de código aberto são modelos cujo código-fonte e arquitetura estão disponíveis publicamente para uso, modificação e distribuição. Eles são criados usando algoritmos de machine learning que processam e geram texto semelhante ao humano e, por serem de código aberto, promovem a transparência, a inovação e a colaboração da comunidade em seu desenvolvimento e aplicação.
Por que os LLMs de código aberto são importantes?
Os LLMs de código aberto democratizam o acesso à IA de ponta, permitindo que os desenvolvedores de todo o mundo contribuam e se beneficiem dos avanços da IA sem os altos custos associados aos modelos proprietários. Eles aumentam a transparência, promovendo a confiança e permitindo a personalização para atender a necessidades específicas.
Quais são os desafios comuns dos LLMs de código aberto?
Os desafios incluem altas demandas computacionais para execução e treinamento, o que pode ser uma barreira para indivíduos ou pequenas organizações. A manutenção e a atualização dos modelos para que se mantenham atualizados com as pesquisas e os padrões de segurança mais recentes também podem ser exigentes sem um suporte estruturado.
Existem recursos GRATUITOS para você aprender LLMs de código aberto?
Sim! Se você é um professor universitário ou estudante, pode usar o DataCamp Classrooms para você para obter nosso catálogo completo de cursos GRATUITAMENTE, que inclui cursos de LLMs de código aberto.
Obtenha uma das melhores certificações de IA

Sou analista de dados freelancer, colaborando com empresas e organizações em todo o mundo em projetos de ciência de dados. Também sou instrutor de ciência de dados com mais de 2 anos de experiência. Escrevo regularmente artigos relacionados à ciência de dados em inglês e espanhol, alguns dos quais foram publicados em sites consagrados, como DataCamp, Towards Data Science e Analytics Vidhya Como cientista de dados com formação em ciência política e direito, meu objetivo é trabalhar na interação de políticas públicas, direito e tecnologia, aproveitando o poder das ideias para promover soluções e narrativas inovadoras que possam nos ajudar a enfrentar desafios urgentes, como a crise climática. Eu me considero uma pessoa autodidata, um aprendiz constante e um firme defensor da multidisciplinaridade. Nunca é tarde demais para aprender coisas novas.
