Pular para o conteúdo principal
InicioBlogInteligência Artificial (IA)

8 principais LLMs de código aberto para 2024 e seus usos

Descubra alguns dos LLMs de código aberto mais avançados e por que eles serão cruciais para o futuro da IA generativa
Actualizado 18 de jul. de 2024  · 13 min leer

A atual revolução da IA generativa não seria possível sem os chamados modelos de linguagem grandes (LLMs). Com base em transformadores, uma arquitetura neural avançada, os LLMs são sistemas de IA usados para modelar e processar a linguagem humana. Eles são chamados de "grandes" porque têm centenas de milhões ou até bilhões de parâmetros, que são pré-treinados usando um corpus maciço de dados de texto.

Inicie nossoCurso de Conceitos de Modelos de Linguagem Grandes (LLMs) hoje para que você saiba mais sobre como os LLMs funcionam.

Os LLM são os modelos básicos de chatbots populares e amplamente usados, como o ChatGPT e o Google Bard. Em particular, o ChatGPT é alimentado pelo GPT-4, um LLM desenvolvido e de propriedade da OpenAI, enquanto o Google Bard é baseado no modelo PaLM 2 do Google.

O ChatGPT e o Bard, assim como muitos outros chatbots populares, têm em comum o fato de seus LLMs subjacentes serem proprietários. Isso significa que eles são de propriedade de uma empresa e só podem ser usados pelos clientes após a compra de uma licença. Essa licença vem com direitos, mas também com possíveis restrições sobre como usar o LLM, além de informações limitadas sobre os mecanismos por trás da tecnologia.

No entanto, um movimento paralelo no espaço do LLM está ganhando ritmo rapidamente: LLMs de código aberto. Após as crescentes preocupações com a falta de transparência e a acessibilidade limitada dos LLMs proprietários, controlados principalmente pelas grandes empresas de tecnologia, como Microsoft, Google e Meta, os LLMs de código aberto prometem tornar o campo de rápido crescimento dos LMMs e da IA generativa mais acessível, transparente e inovador.

O objetivo deste artigo é explorar os principais LLMs de código aberto disponíveis em 2023. Embora tenha se passado apenas um ano desde o lançamento do ChatGPT e a popularização dos LLMs (proprietários), a comunidade de código aberto já alcançou marcos importantes, com um bom número de LLMs de código aberto disponíveis para diferentes finalidades. Continue lendo para ver os mais populares!

Benefícios do uso de LLMs de código aberto

Há vários benefícios de curto e longo prazo ao escolher LLMs de código aberto em vez de LLMs proprietários. Abaixo, você encontra uma lista dos motivos mais convincentes:

Segurança e privacidade de dados aprimoradas

Uma das maiores preocupações quanto ao uso de LLMs proprietários é o risco de vazamento de dados ou de acesso não autorizado a dados confidenciais pelo provedor de LLM. De fato, já houve várias controvérsias sobre o suposto uso de dados pessoais e confidenciais para fins de treinamento.

Ao usar o LLM de código aberto, as empresas serão as únicas responsáveis pela proteção dos dados pessoais, pois manterão controle total sobre eles.

Economia de custos e redução da dependência de fornecedores

A maioria dos LLMs proprietários exige uma licença para que você possa usá-los. A longo prazo, essa pode ser uma despesa importante que algumas empresas, especialmente as PMEs, talvez não consigam arcar. Esse não é o caso dos LLMs de código aberto, pois normalmente eles são de uso gratuito.

No entanto, é importante observar que a execução de LLMs requer recursos consideráveis, mesmo apenas para inferência, o que significa que você normalmente terá que pagar pelo uso de serviços em nuvem ou de uma infraestrutura avançada.

Transparência de código e personalização do modelo de linguagem

As empresas que optarem por LLMs de código aberto terão acesso ao funcionamento dos LLMs, incluindo seu código-fonte, arquitetura, dados de treinamento e mecanismo de treinamento e inferência. Essa transparência é a primeira etapa para o escrutínio, mas também para a personalização.

Como os LLMs de código aberto são acessíveis a todos, incluindo seu código-fonte, as empresas que os utilizam podem personalizá-los para seus casos de uso específicos.

Suporte ativo à comunidade e incentivo à inovação

O movimento de código aberto promete democratizar o uso e o acesso às tecnologias de LLM e IA generativa. Permitir que os desenvolvedores inspecionem o funcionamento interno dos LLMs é fundamental para o desenvolvimento futuro dessa tecnologia. Ao reduzir as barreiras de entrada para codificadores de todo o mundo, os LLMs de código aberto podem promover a inovação e aprimorar os modelos, reduzindo os vieses e aumentando a precisão e o desempenho geral.

Como lidar com a pegada ambiental da IA

Após a popularização dos LLMs, os pesquisadores e os defensores do meio ambiente estão levantando preocupações sobre a pegada de carbono e o consumo de água necessários para operar essas tecnologias. Os LLMs proprietários raramente publicam informações sobre os recursos necessários para treinar e operar os LLMs, nem sobre a pegada ambiental associada.

Com o LLM de código aberto, os pesquisadores têm mais chances de conhecer essas informações, o que pode abrir a porta para novos aprimoramentos destinados a reduzir a pegada ambiental da IA.

8 principais modelos de idiomas grandes de código aberto para 2024

1. LLaMA 2

llama 2

A maioria dos principais participantes do mercado de LLM optou por desenvolver seu LLM a portas fechadas. Mas o Meta está tomando medidas para se tornar uma exceção. Com o lançamento de seu poderoso e de código aberto Large Language Model Meta AI (LLaMA) e sua versão aprimorada (LLaMA 2), a Meta está enviando um sinal significativo ao mercado.

Disponibilizado para pesquisa e uso comercial em julho de 2023, o LLaMA 2 é um modelo de texto generativo pré-treinado com 7 a 70 bilhões de parâmetros. Ele foi ajustado com o aprendizado por reforço a partir de feedback humano (RLHF). É um modelo de texto generativo que pode ser usado como um chatbot e pode ser adaptado para uma variedade de tarefas de geração de linguagem natural, incluindo tarefas de programação. A Meta já lançou versões abertas e personalizadas do LLaMA 2, do Llama Chat e do Code Llama.

Para saber mais sobre o LLaMA, confira nossa Introdução ao LLaMA do Meta AI e nosso artigo Fine-Tuning LLaMA 2.

2. BLOOM

image6.png

Lançado em 2022 após um projeto colaborativo de um ano com voluntários de mais de 70 países e pesquisadores da Hugging Face, o BLOOM é um LLM autorregressivo treinado para continuar o texto de um prompt em grandes quantidades de dados de texto usando recursos computacionais em escala industrial.

O lançamento do BLOOM foi um marco importante na democratização da IA generativa. Com 176 bilhões de parâmetros, o BLOOM é um dos LLMs de código aberto mais avançados, com recursos para fornecer texto coerente e preciso em 46 idiomas e 13 linguagens de programação.

A transparência é a espinha dorsal do BLOOM, um projeto em que todos podem acessar o código-fonte e os dados de treinamento para executá-lo, estudá-lo e aprimorá-lo.

O BLOOM pode ser usado gratuitamente por meio do ecossistema Hugging Face.

3. BERT

image5.png

A tecnologia subjacente do LLM é um tipo de arquitetura neural chamada de transformador. Ele foi desenvolvido em 2017 por pesquisadores do Google no artigo Attention is All You Need. Um dos primeiros experimentos para testar o potencial dos transformadores foi o BERT.

Lançado em 2018 pelo Google como um LLM de código aberto, o BERT (sigla para Bidirectional Encoder Representations from Transformers) alcançou rapidamente um desempenho de ponta em muitas tarefas de processamento de linguagem natural.

Graças aos seus recursos inovadores nos primórdios dos LLMs e à sua natureza de código aberto, o Bert é um dos LLMs mais populares e amplamente usados. Por exemplo, em 2020, o Google anunciou que havia adotado o Bert por meio da Pesquisa Google em mais de 70 idiomas.

Atualmente, há milhares de modelos Bert de código aberto, gratuitos e pré-treinados disponíveis para casos de uso específicos, como análise de sentimentos, análise de notas clínicas e detecção de comentários tóxicos.

Você está interessado nas possibilidades do BERT? Confira nosso artigo Introdução ao BERT.

4. Falcon 180B

image2.png

Se o Falcon 40B já impressionou a comunidade de LLMs de código aberto (ficou em primeiro lugar na tabela de classificação da Hugging Face para modelos de linguagem grande de código aberto), o novo Falcon 180B sugere que a lacuna entre LLMs proprietários e de código aberto está diminuindo rapidamente.

Lançado pelo Instituto de Inovação Tecnológica dos Emirados Árabes Unidos em setembro de 2023, o Falcon 180B está sendo treinado com 180 bilhões de parâmetros e 3,5 trilhões de tokens. Com essa impressionante capacidade de computação, o Falcon 180B já superou o LLaMA 2 e o GPT-3.5 em várias tarefas de PNL, e o Hugging Face sugere que ele pode rivalizar com o PaLM 2 do Google, o LLM que alimenta o Google Bard.

Embora seja gratuito para uso comercial e de pesquisa, é importante observar que o Falcon 180B requer recursos de computação importantes para funcionar.

5. OPT-175B

image9.png

O lançamento do Open Pre-trained Transformers Language Models (OPT) em 2022 foi outro marco importante na estratégia da Meta de liberar a corrida do LLM por meio de código aberto.

O OPT inclui um conjunto de transformadores pré-treinados somente para decodificadores, variando de 125M a 175B parâmetros. O OPT-175B, um dos LLMs de código aberto mais avançados do mercado, é o irmão mais potente, com desempenho semelhante ao do GPT-3. Tanto os modelos pré-treinados quanto o código-fonte estão disponíveis para o público.

No entanto, se você estiver pensando em desenvolver uma empresa orientada por IA com LLMs, é melhor pensar em outra, pois o OPT-175B é lançado sob uma licença não comercial, permitindo apenas o uso do modelo para casos de uso de pesquisa.

6. XGen-7B

image8.png

Mais e mais empresas estão entrando na corrida do LLM. Uma das últimas a entrar no ringue foi a Salesforce, que lançou seu LLM XGen-7B em julho de 2023.

De acordo com os autores, a maioria dos LLMs de código aberto se concentra em fornecer respostas amplas com informações limitadas (ou seja, solicitações curtas com pouco contexto). A ideia por trás do XGen-7B é criar uma ferramenta que ofereça suporte a janelas de contexto mais longas. Em particular, a variação mais avançada do XGen (XGen-7B-8K-base) permite uma janela de contexto de 8K, ou seja, o tamanho cumulativo do texto de entrada e saída.

A eficiência é outra prioridade importante no XGen, que usa apenas 7B parâmetros para treinamento, muito menos do que os LLMs de código aberto mais avançados, como o LLaMA 2 ou o Falcon.

Apesar de seu tamanho relativamente pequeno, o XGen ainda pode oferecer ótimos resultados. O modelo está disponível para fins comerciais e de pesquisa, exceto a varianteXGen-7B-{4K,8K}-inst, que foi treinada com dados de instrução e RLHF e é liberada sob uma licença não comercial.

7. GPT-NeoX e GPT-J

image1.png

Desenvolvidos por pesquisadores da EleutherAI, um laboratório de pesquisa de IA sem fins lucrativos, o GPT-NeoX e o GPT-J são duas excelentes alternativas de código aberto ao GPT.

O GPT-NeoX tem 20 bilhões de parâmetros, enquanto o GPT-J tem 6 bilhões de parâmetros. Embora os LLMs mais avançados possam ser treinados com mais de 100 bilhões de parâmetros, esses dois LLMs ainda podem fornecer resultados com alta precisão.

Eles foram treinados com 22 conjuntos de dados de alta qualidade de um conjunto diversificado de fontes que permitem seu uso em vários domínios e muitos casos de uso. Em contraste com a GPT-3, a GPT-NeoX e a GPT-J não foram treinadas com RLHF.

Qualquer tarefa de processamento de linguagem natural pode ser realizada com o GPT-NeoX e o GPT-J, desde a geração de texto e análise de sentimentos até a pesquisa e o desenvolvimento de campanhas de marketing.

Ambos os LLMs estão disponíveis gratuitamente por meio da API do NLP Cloud.

8. Vicuna 13-B

image3.jpg

O Vicuna-13B é um modelo de conversação de código aberto treinado a partir do ajuste fino do modelo LLaMa 13B usando conversações compartilhadas por usuários reunidas no ShareGPT.

Como um chatbot inteligente, as aplicações do Vicuna-13B são inúmeras, e algumas delas são ilustradas abaixo em diferentes setores, como atendimento ao cliente, saúde, educação, finanças e viagens/hospitalidade.

Uma avaliação preliminar usando o GPT-4 como juiz mostrou que o Vicuna-13B alcançou mais de 90% de qualidade do ChatGPT e do Google Bard e, em seguida, superou outros modelos, como o LLaMa e o Alpaca, em mais de 90% dos casos.

Escolhendo o LLM de código aberto certo para suas necessidades

O espaço do LLM de código aberto está se expandindo rapidamente. Atualmente, há muito mais LLMs de código aberto do que proprietários, e a lacuna de desempenho poderá ser superada em breve, à medida que os desenvolvedores de todo o mundo colaborarem para atualizar os LLMs atuais e projetar outros mais otimizados.

Nesse contexto vibrante e empolgante, pode ser difícil escolher o LLM de código aberto certo para você. Aqui está uma lista de alguns dos fatores que você deve considerar antes de optar por um LLM de código aberto específico:

  • O que você quer fazer? Essa é a primeira coisa que você deve se perguntar. Os LLM de código aberto estão sempre abertos, mas alguns deles são liberados apenas para fins de pesquisa. Portanto, se você estiver planejando abrir uma empresa, esteja ciente das possíveis limitações de licenciamento.
  • Por que você precisa de um LLM? Isso também é extremamente importante. Atualmente, os LLMs estão em voga. Todos estão falando sobre eles e suas infinitas oportunidades. Mas se você puder desenvolver sua ideia sem precisar de LLMs, então não os use. Não é obrigatório (e você provavelmente economizará muito dinheiro e evitará o uso de mais recursos).
  • De quanta precisão você precisa? Esse é um aspecto importante. Há uma relação direta entre o tamanho e a precisão dos LLMs de última geração. Isso significa, em geral, que quanto maior o LLM em termos de parâmetros e dados de treinamento, mais preciso será o modelo. Portanto, se precisar de alta precisão, você deve optar por LLMs maiores, como o LLaMA ou o Falcon.
  • Quanto dinheiro você quer investir? Isso está intimamente ligado à pergunta anterior. Quanto maior o modelo, mais recursos serão necessários para treinar e operar o modelo. Isso se traduz em infraestrutura adicional a ser usada ou em uma conta mais alta dos provedores de nuvem, caso você queira operar seu LLM na nuvem. Os LLMs são ferramentas poderosas, mas exigem recursos consideráveis para serem usados, mesmo os de código aberto.
  • Você pode atingir seus objetivos com um modelo pré-treinado? Por que investir dinheiro e energia para treinar seu LLM do zero se você pode simplesmente usar um modelo pré-treinado? Existem muitas versões de LLMs de código aberto treinadas para um caso de uso específico. Se a sua ideia se enquadra em um desses casos de uso, faça isso.

Conclusão

Os LLMs de código aberto estão em um movimento empolgante. Com sua rápida evolução, parece que o espaço da IA generativa não será necessariamente monopolizado pelas grandes empresas que podem se dar ao luxo de criar e usar essas ferramentas poderosas.

Vimos apenas oito LLMs de código aberto, mas o número é muito maior e está crescendo rapidamente. Nós, da DataCamp, continuaremos a fornecer informações sobre as últimas novidades no espaço do LLM, oferecendo cursos, artigos e tutoriais sobre LLMs. Por enquanto, confira nossa lista de materiais com curadoria:

Temas

Comece sua jornada de IA hoje mesmo!

Course

Generative AI Concepts

2 hr
37.2K
Discover how to begin responsibly leveraging generative AI. Learn how generative AI models are developed and how they will impact society moving forward.
See DetailsRight Arrow
Start Course
Ver maisRight Arrow
Relacionado

blog

12 projetos de LLM para todos os níveis

Descubra 12 ideias de projetos de LLM com guias visuais e códigos-fonte fáceis de seguir, adequados para iniciantes, alunos intermediários, acadêmicos do último ano e especialistas.

Abid Ali Awan

12 min

blog

Os 11 melhores assistentes de codificação de IA em 2024

Explore os melhores assistentes de codificação, incluindo ferramentas de código aberto, gratuitas e comerciais que podem aprimorar sua experiência de desenvolvimento.
Abid Ali Awan's photo

Abid Ali Awan

8 min

blog

Introdução ao LLaMA da Meta AI

O LLaMA, uma estrutura revolucionária de código aberto, tem como objetivo tornar mais acessível a pesquisa de modelos de linguagem de grande porte.
Abid Ali Awan's photo

Abid Ali Awan

8 min

blog

Entendendo e atenuando o viés em modelos de idiomas grandes (LLMs)

Mergulhe em um passo a passo abrangente sobre a compreensão do preconceito nos LLMs, o impacto que ele causa e como atenuá-lo para garantir a confiança e a justiça.
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

12 min

tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.
Josep Ferrer's photo

Josep Ferrer

12 min

tutorial

Como criar aplicativos LLM com o tutorial LangChain

Explore o potencial inexplorado dos modelos de linguagem grandes com o LangChain, uma estrutura Python de código aberto para criar aplicativos avançados de IA.
Moez Ali's photo

Moez Ali

12 min

See MoreSee More