Pular para o conteúdo principal

O que é o Llama 3.1 405B da Meta? Como funciona, casos de uso e muito mais

A Meta está lançando o Llama 3.1 405B, um grande modelo de linguagem de código aberto projetado para competir com modelos fechados como o GPT-4o e o Claude 3.5 Sonnet.
Actualizado 21 de ago. de 2024  · 8 min de leitura

Na terça-feira, 23 de julho de 2024, a Meta anunciou o Llama 3.1, a versão mais recente da série Llama de grandes modelos de linguagem (LLMs).

Embora seja uma pequena atualização do modelo Llama 3, ela introduz notavelmente o Llama 3.1 405B – um modelo com 405 bilhões de parâmetros, o maior LLM de código aberto do mundo até o momento, superando o LLM Nemotron-4-340B-Instruct da NVIDIA.

Avaliações experimentais sugerem que ele rivaliza com modelos líderes como o GPT-4, GPT-4o e Claude 3.5 Sonnet em várias tarefas.

No entanto, com concorrentes como Mistral e Falcon optando por modelos menores, surgem dúvidas sobre a relevância dos LLMs grandes de pesos abertos no cenário atual.

Continue lendo para saber nossa opinião, além de informações sobre as atualizações do ecossistema da Llama.

O que é o Llama 3.1 405B?

O Llama 3.1 é uma atualização pontual do Llama 3 (anunciada em abril de 2024). O Llama 3.1 405B é a versão principal do modelo, que, como o nome sugere, tem 405 bilhões de parâmetros.

O Llama 3.1 vem em três tamanhos de modelo: 8B, 70B e 405B

Fonte: Meta AI

Llama3.1 405B na tabela de classificação do LMSys Chatbot Arena

Ter 405 bilhões de parâmetros o coloca na disputa por uma posição de destaque na tabela de classificação do LMSys Chatbot Arena, uma medida de desempenho avaliada por usuários com votação às cegas.

Nos últimos meses, houve um revezamento no primeiro lugar entre versões do GPT-4 da OpenAI, Anthropic Claude 3 e Google Gemini. Atualmente, o GPT-4o detém a coroa, mas o compacto Claude 3.5 Sonnet ocupa o segundo lugar, e o iminente Claude 3.5 Opus provavelmente assumirá a primeira posição se for ser lançado antes que a OpenAI atualize o GPT-4o.

Isso significa que a concorrência nos níveis mais altos é acirrada, e será interessante ver como o Llama 3.1 405B se comporta em relação a esses concorrentes. Enquanto esperamos que o Llama 3.1 405B apareça na tabela de classificação, alguns padrões de referência são fornecidos mais adiante neste artigo.

Recursos multilíngues

A principal atualização do Llama 3 para o Llama 3.1 é o melhor suporte a idiomas diferentes do inglês. Os dados de treinamento do Llama 3 eram 95% em inglês, portanto ele teve um desempenho ruim em outros idiomas. A atualização 3.1 oferece suporte para alemão, francês, italiano, português, hindi, espanhol e tailandês.

Contexto maior

Os modelos do Llama 3 tinham uma janela de contexto - a quantidade de texto que pode ser analisada de uma só vez – de 8 mil tokens (cerca de 6 mil palavras). O Llama 3.1 aumenta isso para um valor mais moderno, 128k, concorrendo com outros LLMs de última geração.

Isso corrige um ponto fraco importante da família Llama. Para casos de uso corporativo, como resumir documentos longos, gerar códigos que envolvam contexto de uma grande base de código ou conversas de chatbot com suporte estendido, é essencial contar com uma janela de contexto longo capaz de armazenar centenas de páginas de texto.

Contrato de licença de modelo aberto

Os modelos Llama 3.1 estão disponíveis nos termos do Contrato de Licença de Modelo Aberto personalizado da Meta. Essa licença permissiva concede a pesquisadores, desenvolvedores e empresas a liberdade de usar o modelo para aplicações comerciais e de pesquisa.

Em uma atualização expressiva, a Meta também expandiu a licença para permitir que os desenvolvedores utilizem os resultados dos modelos Llama, incluindo o modelo 405B, para aprimorar outros modelos.

Em essência, isso significa que qualquer pessoa pode utilizar os recursos do modelo para promover avanços em seu trabalho, criar novos aplicativos e explorar as possibilidades da IA, desde que cumpra os termos descritos no contrato.

Como o Llama 3.1 405B funciona?

Esta seção explica os detalhes técnicos do funcionamento do Llama 3.1 405B, incluindo sua arquitetura, processo de treinamento, preparação de dados, requisitos computacionais e técnicas de otimização.

Arquitetura de transformador com ajustes 

O Llama 3.1 405B foi desenvolvido com base em uma arquitetura de transformador somente com decodificador, um projeto que muitos grandes modelos de linguagem bem-sucedidos têm em comum.

Embora a estrutura principal continue a mesma, a Meta introduziu pequenas adaptações para aprimorar a estabilidade e o desempenho do modelo durante o treinamento. É notável que a arquitetura Mixture-of-Experts (MoE) tenha sido excluída de modo intencional, priorizando a estabilidade e a escalabilidade no processo de treinamento.

Fonte: Meta AI

O diagrama ilustra como o Llama 3.1 405B processa a linguagem. Ele começa com o texto de entrada sendo dividido em unidades menores chamadas tokens e depois convertido em representações numéricas chamadas incorporações de tokens (embeddings).

Essas incorporações são então processadas por meio de várias camadas de autoatenção, em que o modelo analisa as relações entre diferentes tokens para entender seu significado e contexto na entrada.

As informações coletadas das camadas de autoatenção são então passadas por uma rede de propagação direta (feedforward), que processa e combina as informações para extrair o significado. Esse processo de autoatenção e processamento de propagação direta é repetido várias vezes para aprofundar a compreensão do modelo.

Por fim, o modelo usa essas informações para gerar uma resposta token a token, aproveitando resultados anteriores para criar um texto coerente e relevante. Esse processo iterativo, conhecido como decodificação autorregressiva, permite que o modelo produza uma resposta fluente e contextualmente apropriada ao prompt de entrada.

Processo de treinamento em várias fases

O desenvolvimento do Llama 3.1 405B envolveu um processo de treinamento em várias fases. Inicialmente, o modelo foi submetido a um pré-treinamento com uma coleção vasta e diversificada de conjuntos de dados, abrangendo trilhões de tokens. Essa exposição a grandes quantidades de textos permite que o modelo aprenda gramática, fatos e habilidades de raciocínio com base nos padrões e estruturas que encontra.

Após o pré-treinamento, o modelo passa por rodadas iterativas de ajuste fino supervisionado (SFT, Supervised Fine-Tuning) e otimização com preferências diretas (DPO, Direct Preference Optimization). O SFT envolve o treinamento com tarefas e conjuntos de dados específicos e feedback humano, orientando o modelo para produzir os resultados desejados.

O DPO, por outro lado, concentra-se em refinar as respostas do modelo com base nas preferências obtidas de avaliadores humanos. Esse processo iterativo aprimora progressivamente a capacidade do modelo de seguir instruções, melhorar a qualidade de suas respostas e garantir a segurança.

Qualidade e quantidade de dados

A Meta afirma ter enfatizado muito a qualidade e a quantidade de dados de treinamento. No Llama 3.1 405B, isso envolveu um rigoroso processo de preparação de dados, incluindo filtragem e limpeza abrangentes para melhorar a qualidade geral dos conjuntos de dados.

É interessante notar que o próprio modelo 405B é usado para gerar dados sintéticos, que são incluídos no processo de treinamento para refinar ainda mais a capacidade do modelo.

Aumento da escala computacional

O treinamento de um modelo tão grande e complexo como o Llama 3.1 405B exige uma enorme capacidade de computação. Para colocar isso em perspectiva, a Meta usou mais de 16.000 GPUs poderosas da NVIDIA, a H100, para treinar esse modelo com eficiência.

Também fez melhorias consideráveis em toda a sua infraestrutura de treinamento para garantir que pudesse lidar com a imensa escala do projeto, permitindo que o modelo aprendesse e melhorasse de forma eficaz.

Quantização para inferência

Para tornar o Llama 3.1 405B mais utilizável em aplicações reais, a Meta aplicou uma técnica chamada quantização, que envolve converter os pesos do modelo com precisão de 16 bits (BF16) para precisão de 8 bits (FP8). Isso é como mudar de uma imagem de alta resolução para uma resolução um pouco menor: preserva os detalhes essenciais e reduz o tamanho do arquivo.

Da mesma forma, a quantização simplifica os cálculos internos do modelo, fazendo com que ele seja executado com muito mais rapidez e eficiência em um único servidor. Essa otimização torna mais fácil e econômico para outros utilizarem os recursos do modelo.

Casos de uso do Llama 3.1 405B

O Llama 3.1 405B oferece várias aplicações potenciais graças à sua natureza de código aberto e aos seus amplos recursos.

Geração de dados sintéticos

A capacidade do modelo de gerar textos que se assemelham muito à linguagem humana pode ser usada para criar grandes quantidades de dados sintéticos.

Esses dados sintéticos podem ser valiosos para treinar outros modelos de linguagem, aprimorar as técnicas de aumento de dados (tornando os dados existentes mais diversificados) e desenvolver simulações realistas para várias aplicações.

Destilação de modelos

O conhecimento incluído no modelo 405B pode ser transferido para modelos menores e mais eficientes por meio de um processo chamado destilação.

Pense na destilação de modelos como se você estivesse ensinando a um aluno (um modelo menor de IA) o conhecimento de um especialista (o modelo maior Llama 3.1 405B). Esse processo permite que o modelo menor aprenda e execute tarefas sem precisar do mesmo nível de complexidade ou de recursos computacionais que o modelo maior.

Isso possibilita a execução de recursos avançados de IA em dispositivos como smartphones ou notebooks, que têm capacidade limitada em comparação com os servidores potentes usados para treinar o modelo original.

Um exemplo recente de destilação de modelos é o mini GPT-4o da OpenAI, uma versão destilada do GPT-4o.

Pesquisa e experimentação

O Llama 3.1 405B serve como uma valiosa ferramenta de pesquisa, permitindo que cientistas e desenvolvedores explorem novas fronteiras no processamento de linguagem natural e na inteligência artificial.

Por ser de código aberto, incentiva a experimentação e a colaboração, acelerando o ritmo das descobertas.

Soluções específicas para setores

Ao adaptar o modelo a dados específicos de determinados setores, como saúde, finanças ou educação, é possível criar soluções de IA personalizadas que atendam aos desafios e requisitos exclusivos desses domínios.

Ênfase em segurança do Llama 3.1 405B

A Meta afirma que dá uma ênfase expressiva à garantia da segurança de seus modelos Llama 3.1.

Abordagem do Llama System para gerar respostas seguras e úteis

Fonte: Meta AI

Antes do lançamento do Llama 3.1 405B, foram feitos exercícios abrangentes de "equipe vermelha". Nesses exercícios, especialistas internos e externos atuam como adversários, tentando encontrar maneiras de fazer com que o modelo se comporte de forma prejudicial ou inadequada. Isso ajuda a identificar possíveis riscos ou vulnerabilidades no comportamento do modelo.

Além dos testes pré-implantação, o Llama 3.1 405B passa por um ajuste fino de segurança. Esse processo envolve técnicas como aprendizado por reforço com feedback humano (RLHF, Reinforcement Learning from Human Feedback), em que o modelo aprende a alinhar as respostas aos valores e preferências humanas. Isso ajuda a mitigar resultados prejudiciais ou tendenciosos, tornando o modelo mais seguro e confiável para uso no mundo real.

A Meta também apresentou o Llama Guard 3, um novo modelo de segurança multilíngue projetado para filtrar e sinalizar conteúdos nocivos ou inadequados gerados pelo Llama 3.1 405B. Essa camada adicional de proteção ajuda a garantir que os resultados do modelo sigam as diretrizes éticas e de segurança.

Recursos do Llama Guard 3 em comparação com versões anteriores

Fonte: Meta AI

Outro recurso de segurança é o Prompt Guard, que visa evitar ataques de injeção de prompts. Esses ataques envolvem a inclusão de instruções nocivas nos prompts do usuário para manipular o comportamento do modelo. O Prompt Guard filtra essas instruções, protegendo o modelo contra possíveis usos indevidos.

Fonte: Meta AI

Além disso, a Meta incorporou o Code Shield, recurso que se concentra na segurança dos códigos gerados pelo Llama 3.1 405B. O Code Shield filtra sugestões de códigos inseguros em tempo real durante o processo de inferência e oferece proteção segura para a execução de comandos em sete linguagens de programação, tudo isso com uma latência média de 200 ms. Isso ajuda a reduzir o risco de gerar códigos que podem ser explorados ou representar uma ameaça à segurança.

Fonte: Meta AI

Padrões de referência do Llama 3.1 405B

O Meta submeteu o Llama 3.1 405B a uma avaliação rigorosa em mais de 150 conjuntos de dados de referência diferentes. Esses padrões de referência abrangem um amplo espectro de tarefas e habilidades linguísticas, como conhecimentos gerais, raciocínio, programação, matemática e capacidade multilíngue.

Tabela mostrando os padrões de referência do Llama 3.1 405B em comparação com o Nemotron 4 340B Instruct, GPT-4, GPT-4 Omni e Claude 3.5 Sonnet

Fonte: Meta AI

O Llama 3.1 405B tem um desempenho competitivo em relação aos principais modelos de código fechado, como GPT-4, GPT-4o e Claude 3.5 Sonnet, em muitos padrões de referência. É de se notar que ele demonstra uma capacidade especial em tarefas de raciocínio, alcançando pontuações de 96,9 no ARC Challenge e 96,8 no GSM8K. Também se destaca na geração de códigos, com pontuação 89,0 no padrão de referência HumanEval.

Além dos padrões de referência automatizados, o Meta AI realizou avaliações humanas detalhadas para avaliar o desempenho do Llama 3.1 405B em situações reais.

Comparação da avaliação humana do Llama 3.1 405B com o GPT-4, GPT-4o e Claude 3.5 Sonnet.

Fonte: Meta AI

Embora o Llama 3.1 405B seja competitivo nessas avaliações, não supera os outros modelos com frequência. Tem o mesmo desempenho do GPT-4-0125-Preview (prévia do modelo GPT-4 da OpenAI lançado no início de 2024) e do Claude 3.5 Sonnet, ganhando e perdendo aproximadamente na mesma porcentagem de avaliações. Fica um pouco atrás do GPT-4o, ganhando apenas 19,1% das comparações.

Onde posso acessar o Llama 3.1 405B?

Você pode acessar o Llama 3.1 405B por meio de dois canais principais:

  1. Download direto do Meta: você pode fazer o download dos pesos do modelo diretamente no site oficial do Llama na Meta: llama.meta.com
  2. Hugging Face. o Llama 3.1 405B também está disponível na plataforma Hugging Face, um hub famoso de compartilhamento e acesso a modelos de machine learning.

Ao tornar o modelo prontamente disponível, a Meta visa permitir que pesquisadores, desenvolvedores e organizações usem seus recursos para várias aplicações e contribuam para o avanço contínuo da tecnologia de IA – leia mais sobre os princípios da Meta em relação à IA de código aberto na carta de Mark Zuckerberg.

Família de modelos Llama 3.1

Embora o Llama 3.1 405B ganhe as manchetes com seu tamanho, a família Llama 3.1 oferece outros modelos projetados para atender a diferentes casos de uso e restrições de recursos. Esses modelos compartilham os avanços da versão 405B, mas são adaptados para necessidades específicas.

Llama 3.1 70B: versátil

O modelo Llama 3.1 70B atinge um equilíbrio entre desempenho e eficiência, o que o torna um forte candidato para uma ampla gama de aplicações.

Ele se destaca em tarefas como resumo de textos longos, criação de agentes de conversação multilíngues e assistência à programação.

Embora seja menor que o modelo 405B, continua competitivo com outros modelos abertos e fechados de tamanho semelhante em vários padrões de referência. Seu tamanho reduzido também facilita a implementação e o gerenciamento em hardware padrão.

Tabela mostrando padrões de referência do Llama 3.1 8B em comparação com o Gemma 2 9B IT e o Mistral 7B Instruct. Também compara o Llama 70B com o Mixtral 8x22B Instruct e o GPT 3.5 Turbo.

Fonte: Meta AI

Llama 3.1 8B: leve e eficiente

O modelo Llama 3.1 8B prioriza a velocidade e o baixo consumo de recursos. É ideal para situações em que esses fatores são cruciais, como a implantação em dispositivos de ponta, plataformas móveis ou em ambientes com recursos computacionais limitados.

Mesmo com seu tamanho menor, ele oferece desempenho competitivo em comparação com modelos de tamanho semelhante em várias tarefas (consulte a tabela acima).

Se estiver interessado em fazer o ajuste fino do Llama 3.1 8B, leia mais neste tutorial sobre Ajuste fino do Llama 3.1 para classificação de textos.

Aprimoramentos comuns a todos os modelos Llama 3.1

Todos os modelos Llama 3.1 receberam vários aprimoramentos importantes:

  • Janela de contexto estendida (128 mil tokens): a janela de contexto, que representa a quantidade de texto que o modelo consegue considerar de uma só vez, teve um aumento expressivo para 128 mil tokens. Isso permite que os modelos processem entradas muito maiores e mantenham o contexto em conversas ou documentos extensos.
  • Suporte multilíngue: agora todos os modelos são compatíveis com oito idiomas – inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. Esse suporte mais amplo a idiomas amplia sua aplicabilidade a um público internacional.
  • Uso de ferramentas e raciocínio aprimorados: os modelos foram aperfeiçoados com melhor capacidade de uso de ferramentas e raciocínio, tornando-os mais versáteis e hábeis ao lidar com tarefas complexas.
  • Segurança aprimorada: rigorosos testes de segurança e ajustes finos foram aplicados a todos os modelos Llama 3.1 para reduzir os riscos potenciais e promover o uso responsável da IA. Isso inclui esforços para reduzir vieses e resultados prejudiciais.

LLMs grandes x pequenos: o debate

O lançamento do Llama 3.1 405B, embora seja impressionante em escala, suscita uma discussão sobre o tamanho ideal dos modelos de linguagem no atual cenário de IA.

Conforme mencionado brevemente na introdução, concorrentes como Mistral e Falcon optaram por modelos menores, argumentando que eles oferecem uma abordagem mais prática e acessível. Esses modelos menores geralmente exigem menos recursos computacionais, o que facilita a implantação e o ajuste fino para tarefas específicas.

No entanto, os defensores de modelos grandes, como o Llama 3.1 405B, argumentam que seu tamanho permite capturar uma maior profundidade e amplitude de conhecimentos, o que leva a um desempenho superior em uma variedade maior de tarefas. Também indicam a possibilidade de esses modelos grandes servirem de "modelos de base" para a criação de modelos menores e especializados por meio da destilação.

O debate entre LLMs grandes e pequenos acaba se resumindo a um equilíbrio entre capacidade e praticidade. Embora os modelos maiores ofereçam mais potencial de desempenho avançado, também apresentam maiores demandas computacionais e possíveis impactos ambientais devido ao seu consumo de energia. Os modelos menores, por outro lado, podem sacrificar um pouco do desempenho para aumentar a acessibilidade e a facilidade de implementação.

O lançamento do Llama 3.1 405B pela Meta, juntamente com variantes menores, como os modelos 70B e 8B, parece reconhecer esses prós e contras. Ao oferecer uma variedade de tamanhos de modelos, a empresa atende a diferentes necessidades e preferências da comunidade de IA.

Em última análise, a escolha entre LLMs grandes e pequenos vai depender do caso de uso específico, dos recursos disponíveis e das características de desempenho desejadas. À medida que a área continua evoluindo, é provável que ambas as abordagens coexistam e cada uma encontre seu nicho no cenário diversificado de aplicações da IA.

Conclusão

O lançamento da família Llama 3.1, em especial do modelo 405B, representa uma contribuição notável para a área de grandes modelos de linguagem de código aberto.

Embora o desempenho talvez não supere com frequência todos os modelos fechados, sua capacidade e o compromisso da Meta com a transparência e a colaboração oferecem um novo caminho para o desenvolvimento da IA.

A disponibilidade de vários tamanhos de modelos e aprimoramentos em comum amplia as possibilidades de aplicações para pesquisadores, desenvolvedores e organizações.

Ao compartilhar abertamente essa tecnologia, a Meta está promovendo um ambiente colaborativo que pode acelerar os progressos na área, tornando a IA avançada mais acessível.

Ainda não se sabe qual será o impacto do Llama 3.1 no futuro da IA, mas seu lançamento ressalta a importância crescente das iniciativas de código aberto na busca de tecnologias de IA responsáveis e benéficas.

Perguntas frequentes

O Llama 3.1 405B é melhor do que o GPT-4o e o GPT-4?

O Llama 3.1 405B tem desempenho competitivo com relação ao GPT-4 e o GPT-4o, destacando-se em determinados padrões de referência, como tarefas de raciocínio e geração de códigos. No entanto, as avaliações humanas indicam que fica um pouco atrás do GPT-4o em termos de desempenho geral.

O Llama 3.1 405B é melhor do que o Claude 3.5 Sonnet?

O Llama 3.1 405B e o Claude 3.5 Sonnet demonstram desempenho comparável em muitos padrões de referência e avaliações humanas, sendo que cada modelo tem pontos fortes em diferentes áreas.

O Llama 3.1 405B é melhor do que o Gemini?

As comparações diretas entre o Llama 3.1 405B e o Gemini são limitadas, pois não foram feitas comparações detalhadas entre eles. No entanto, o desempenho do Llama 3.1 405B em vários padrões de referência sugere que pode concorrer com o Gemini.

O Llama 3.1 405B é de código aberto?

Sim, o Llama 3.1 405B foi lançado nos termos do Contrato de Licença de Modelo Aberto personalizado da Meta, que permite o uso comercial e para pesquisas.

Quantos tamanhos diferentes estão disponíveis na família de modelos Llama 3.1?

A família Llama 3.1 consiste em vários modelos com tamanhos variados, incluindo o modelo principal, 405B, o modelo 70B e o modelo 8B.

Temas

Aprenda IA com estes cursos!

curso

Working with Llama 3

4 hr
1.4K
Explore the latest techniques for running the Llama LLM locally, fine-tuning it, and integrating it within your stack.
Ver DetalhesRight Arrow
Iniciar Curso
Ver maisRight Arrow
Relacionado

blog

Introdução ao LLaMA da Meta AI

O LLaMA, uma estrutura revolucionária de código aberto, tem como objetivo tornar mais acessível a pesquisa de modelos de linguagem de grande porte.
Abid Ali Awan's photo

Abid Ali Awan

8 min

blog

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

O Mistral Large 2 é o modelo de idioma mais recente da Mistral AI, competindo com modelos como GPT-4o, Llama 3.1 e Claude 3 Opus.
Ryan Ong's photo

Ryan Ong

8 min

An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

8 principais LLMs de código aberto para 2024 e seus usos

Descubra alguns dos LLMs de código aberto mais avançados e por que eles serão cruciais para o futuro da IA generativa

tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.
Josep Ferrer's photo

Josep Ferrer

12 min

tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.
Moez Ali's photo

Moez Ali

11 min

See MoreSee More