O que é o Meta's Llama 3.3 70B? Como funciona, casos de uso e muito mais

O Meta apresenta o Llama 3.3, um modelo de parâmetros 70B que oferece desempenho comparável ao Llama 3.1 405B, mas com demandas computacionais significativamente menores.

Atualizado 6 de dez. de 2024 · 8 min lido

A Meta AI acaba de apresentar o Llama 3.3, um modelo de 70 bilhões de parâmetros que oferece desempenho comparável ao Llama 3.1 405B, muito maior, mas com demandas computacionais muito menores.

Achamos isso especialmente interessante porque torna a IA de alta qualidade mais acessível aos desenvolvedores que não têm acesso a hardware caro.

Projetado para tarefas baseadas em texto, como bate-papo multilíngue, assistência à codificação e geração de dados sintéticos, o Llama 3.3 se concentra apenas em entradas e saídas de texto - não foi desenvolvido para lidar com imagens ou áudio.

Neste blog, mostraremos a você o que faz esse modelo se destacar e o ajudaremos a decidir se ele é adequado para seus projetos.

Desenvolver aplicativos de IA

Aprenda a criar aplicativos de IA usando a API OpenAI.

Comece a treinar gratuitamente

O que é o Llama 3.3?

O Llama 3.3 é o mais recente modelo de linguagem grande do Meta AI e o consideramos um passo para tornar a IA avançada mais acessível para uma variedade de projetos. Com 70 bilhões de parâmetros, ele oferece desempenho equivalente ao do Llama 3.1 405B, muito maior, mas com requisitos de hardware significativamente reduzidos. Isso significa que podemos explorar aplicativos sofisticados de IA sem precisar de configurações caras e especializadas.

O modelo foi projetado especificamente para entradas e saídas de texto, portanto, não lida com imagens, áudio ou outras mídias. Descobrimos que ele é particularmente eficaz para tarefas como bate-papo multilíngue, assistência de codificação e geração de dados sintéticos. Com suporte para oito idiomas, incluindo inglês, espanhol, hindi e alemão, ele é uma opção interessante para projetos que exigem recursos multilíngues.

O que mais se destaca para nós é o foco na eficiência. O Llama 3.3 foi otimizado para ser executado em GPUs comuns, o que o torna prático para implementações locais e mais fácil de experimentar. Ele também incorpora técnicas de alinhamento para garantir que suas respostas sejam úteis e seguras, o que sabemos ser essencial para aplicativos confidenciais.

Nesta seção, descrevemos os conceitos básicos do que é o Llama 3.3, mas vamos nos aprofundar nas próximas seções. Abordaremos como ele funciona, como começar a usá-lo e seu desempenho em benchmarks, para que você possa determinar se ele é adequado para o seu trabalho.

Como o Llama 3.3 funciona?

Veja como a Llama 3.3 funciona, dividida de uma forma que esperamos que faça sentido, quer você esteja familiarizado com modelos de linguagem grandes ou esteja apenas começando a explorá-los.

Arquitetura: Eficiente e dimensionável

No centro do Llama 3.3 está uma arquitetura baseada em transformadores com 70 bilhões de parâmetros. Se você não estiver familiarizado, os parâmetros são essencialmente os "botões" que o modelo ajusta durante o treinamento para aprender padrões e relacionamentos no texto. É isso que permite à Llama 3.3 gerar respostas coerentes e contextualmente relevantes.

O que há de diferente no Llama 3.3 é o uso do GQA (Grouped-Query Attention). Isso torna o modelo mais eficiente, permitindo que ele processe o texto mais rapidamente e com menos recursos computacionais. É por isso que ele pode atingir um desempenho semelhante ao do Llama 3.1 405B, que é muito maior, embora exija muito menos do hardware.

Treinamento e ajuste fino

O treinamento de um modelo como o Llama 3.3 começa com a exposição a um vasto conjunto de dados - 15 trilhões de tokens de texto de fontes disponíveis publicamente. Isso dá ao modelo uma ampla compreensão da linguagem e do conhecimento.

Mas sabemos que o treinamento bruto não é suficiente para tornar um modelo útil em cenários do mundo real. É aí que entra o ajuste fino:

Ajuste fino supervisionado (SFT): Aqui, o modelo aprende com exemplos cuidadosamente selecionados de boas respostas. Pense nisso como um "padrão ouro" de como você deve se comportar.
Aprendizagem por reforço com feedback humano (RLHF): Isso envolve a coleta de feedback de humanos sobre o desempenho do modelo e o uso desse feedback para refinar seu comportamento.

Essa abordagem dupla garante que a Llama 3.3 se alinhe às expectativas humanas, tanto em termos de utilidade quanto de segurança.

Projetado para hardware acessível

O Llama 3.3 foi projetado para ser executado localmente em estações de trabalho comuns de desenvolvedores, tornando-o acessível para desenvolvedores sem infraestrutura de nível empresarial. Ao contrário de modelos maiores, como o Llama 3.1 405B, ele requer uma potência computacional significativamente menor, mantendo um bom desempenho.

Essa eficiência se deve em grande parte ao Grouped-Query Attention (GQA), que otimiza a forma como o modelo processa o texto, reduzindo o uso da memória e acelerando a inferência.

O modelo também oferece suporte a técnicas de quantização, como precisão de 8 e 4 bits, por meio de ferramentas como bitsandbytes. Essas técnicas reduzem consideravelmente os requisitos de memória sem sacrificar muito o desempenho.

Além disso, ele é bem dimensionado em configurações de hardware, desde GPUs individuais até sistemas distribuídos, oferecendo flexibilidade tanto para experimentos locais quanto para implementações maiores.

Na prática, isso significa que podemos experimentar ou implementar a Llama 3.3 em configurações de hardware mais acessíveis, evitando os altos custos normalmente associados a modelos avançados de IA. Isso o torna uma opção prática para desenvolvedores e equipes que buscam equilibrar desempenho e acessibilidade.

Benchmarks do Llama 3.3

O Llama 3.3 apresenta um bom desempenho em vários benchmarks, com resultados de destaque em acompanhamento de instruções, codificação e raciocínio multilíngue. Embora não supere consistentemente os modelos maiores, como o Llama 3.1 405B ou o Claude 3.5 Sonnet, ele oferece resultados confiáveis e competitivos na maioria das categorias. Para os desenvolvedores que procuram um modelo equilibrado que lide com diversas tarefas de forma eficaz, o Llama 3.3 é uma boa opção.

Conhecimento geral e raciocínio

Em tarefas de conhecimento geral, o Llama 3.3 oferece resultados sólidos. Ele atinge umapontuação de 86,0 no MMLU Chat (0-shot, CoT), igualando seu antecessor Llama 3.1 70B e permanecendo competitivo com o Amazon Nova Pro (85,9). No entanto, ele fica um pouco abaixo dos maiores Llama 3.1 405B (88,6) e Claude 3.5 Sonnet (88,9).

No mais desafiador MMLU PRO (5 disparos, CoT) a Llama 3.3 melhorou em relação à Llama 3.1 70B com uma pontuação de 68.9mas continua atrás do Llama 3.1 405B (73,4) e do Claude 3.5 Sonnet (77,8).

Para tarefas de raciocínio, a Llama 3.3 obteve 50,5pontos no GPQA Diamond (0-shot, CoT), uma ligeira melhora em relação à Llama 3.1 70B (48,0). Embora isso o coloque atrás de alguns concorrentes, como o Claude 3.5 Sonnet (65,0), ele demonstra algum progresso no raciocínio estruturado.

Instruções a seguir

A Llama 3.3 é excelente em tarefas de acompanhamento de instruções, com pontuação de 92,1 no IFEval, que mede a aderência de um modelo às instruções do usuário. Esse resultado o coloca à frente do Llama 3.1 405B (88,6) e do GPT-4o (84,6), e próximo do Claude 3.5 Sonnet (89,3). Seu desempenho nessa categoria destaca seus recursos de alinhamento, que são cruciais para aplicativos como chatbots e assistentes para tarefas específicas.

Recursos de codificação

Os benchmarks de codificação são um ponto forte do Llama 3.3. No HumanEval (0-shot), ele obteve 88,4 pontos, um pouco atrás do Llama 3.1 405B (89,0) e no mesmo nível do Gemini Pro 1.5. Da mesma forma, no MBPP EvalPlus (base), você obtém 87,6, uma ligeira melhoria em relação ao Llama 3.1 70B (86,0). Esses resultados confirmam sua eficácia na geração de código e na solução de tarefas relacionadas à programação.

Raciocínio matemático e simbólico

No raciocínio simbólico, o Llama 3.3 mostra um progresso significativo. Ele pontua 77,0 no benchmarkMATH (0-shot, CoT), superando o Llama 3.1 70B (67,8) e o Amazon Nova Pro (76,6). No entanto, ele fica atrás do Gemini Pro 1.5 (82,9). Embora não seja o líder nessa categoria, ele tem um desempenho suficientemente bom para muitas tarefas de raciocínio estruturado.

Recursos multilíngues

A Llama 3.3 demonstra uma força significativa no raciocínio multilíngue, com pontuação de 91,1 no MGSM (0-shot). Essa é uma melhoria substancial em relação ao Llama 3.1 70B (86,9) e o coloca próximo ao Claude 3.5 Sonnet (92,8). Seu desempenho nessa categoria o torna uma ótima opção para aplicativos multilíngues, como tradução e suporte global ao cliente.

Uso de ferramentas e desempenho em contextos longos

Para o uso de ferramentas, a Llama 3.3 alcança 77,3 no BFCL v2 (0-shot), comparável à Llama 3.1 70B (77,5), mas não chega perto da Llama 3.1 405B (81,1). Ao lidar com entradas de contexto longo, ele pontua 97,5 no NIH/Multi-Needle, igualando-se ao Llama 3.1 70B e ligeiramente atrás do Llama 3.1 405B (98,1). Esses resultados indicam recursos sólidos para fluxos de trabalho assistidos por ferramentas e cenários de entrada estendidos.

Casos de uso do Llama 3.3

O Llama 3.3 abre uma ampla gama de possibilidades para desenvolvedores e pesquisadores, graças ao seu equilíbrio entre alto desempenho e eficiência de hardware. Gostamos do fato de ele ser executado com eficiência em estações de trabalho padrão para desenvolvedores, o que o torna uma opção acessível para quem não tem acesso à infraestrutura de nível empresarial. Aqui estão algumas das áreas em que ele pode ser útil.

1. Chatbots e assistentes multilíngues

Um dos pontos fortes do Llama 3.3 é sua capacidade de lidar com vários idiomas. Com suporte para oito idiomas principais, incluindo inglês, espanhol, francês e hindi, é ideal para criar chatbots ou assistentes virtuais multilíngues.

O que nos chama a atenção é que você não precisa de um data center para começar. Os desenvolvedores podem criar protótipos e implementar esses sistemas em seu próprio hardware, seja para suporte ao cliente, ferramentas educacionais ou outros aplicativos de conversação.

Por exemplo, podemos usar o Llama 3.3 para criar um chatbot de atendimento ao cliente que responda a consultas em vários idiomas, tudo isso executado com eficiência em uma única GPU.

2. Suporte à codificação e desenvolvimento de software

Com pontuações fortes em benchmarks de codificação como o HumanEval e o MBPP EvalPlus, o Llama 3.3 é um assistente confiável para gerar código, depurar ou até mesmo concluir scripts parcialmente escritos.

O que consideramos particularmente valioso é o fato de ele funcionar bem em hardware pessoal. Em vez de depender de sistemas de nuvem caros, você pode executar o Llama 3.3 localmente para automatizar tarefas repetitivas, gerar código padrão ou criar testes de unidade. Para equipes ou desenvolvedores individuais, isso torna o suporte avançado à codificação de IA prático e acessível.

3. Geração de dados sintéticos

Outra área em que a Llama 3.3 se destaca é na geração de conjuntos de dados sintéticos. Se você estiver criando um chatbot, treinando um classificador ou trabalhando em um projeto de PNL, a capacidade de gerar dados rotulados e de alta qualidade pode economizar muito tempo e esforço.

Acreditamos que esse caso de uso é especialmente valioso para equipes menores que precisam de dados específicos do domínio, mas não têm os recursos para coletá-los manualmente. Como o Llama 3.3 é executado em hardware de nível de desenvolvedor, você pode gerar dados localmente, reduzindo custos e simplificando o fluxo de trabalho.

4. Criação e localização de conteúdo multilíngue

Os recursos multilíngues do Llama 3.3 também o tornam um forte candidato para a criação de conteúdo. Vemos seu potencial na produção de materiais de marketing localizados, na tradução de documentos técnicos ou na criação de blogs multilíngues. Os desenvolvedores podem fazer o ajuste fino do modelo para adaptar seu tom ou estilo, garantindo que o resultado corresponda ao público-alvo.

Por exemplo, você pode usar a Llama 3.3 para redigir uma descrição de produto em vários idiomas, melhorando o processo de localização sem precisar de uma equipe dedicada de tradutores.

5. Pesquisa e experimentação

Para os pesquisadores, a Llama 3.3 oferece uma plataforma sólida para explorar técnicas de modelagem de linguagem, alinhamento ou ajuste fino. O que o torna particularmente atraente é sua eficiência - você não precisa de acesso a uma infraestrutura de nuvem maciça para fazer experiências com IA avançada.

Isso o torna uma excelente ferramenta para projetos acadêmicos ou pesquisas do setor, especialmente ao explorar áreas como alinhamento de segurança ou treinamento de modelos menores e especializados por meio de destilação.

6. Aplicativos baseados em conhecimento

Os sólidos recursos de processamento de texto do Llama 3.3 também se prestam a aplicativos como resposta a perguntas, resumo e geração de relatórios. Essas tarefas geralmente exigem o manuseio eficiente de grandes volumes de texto, algo que o Llama 3.3 consegue gerenciar bem, mesmo em hardware pessoal.

Por exemplo, poderíamos usá-lo para resumir automaticamente o feedback do cliente ou gerar documentação interna, economizando tempo e mantendo a precisão.

7. Implementação flexível para equipes pequenas

Por fim, acreditamos que o Llama 3.3 é uma ótima opção para startups, desenvolvedores individuais ou pequenas equipes que desejam recursos avançados de IA sem os custos de uma infraestrutura de nível empresarial. Sua capacidade de ser executado em servidores locais ou até mesmo em uma única estação de trabalho o torna uma solução prática para sistemas de produção leves.

Como acessar o Llama 3.3

A Meta fornece acesso ao Llama 3.3 por meio de seu site dedicado: Llama Downloads. Aqui, você encontrará links para o cartão de modelo oficial, detalhes de licenciamento e documentação adicional para ajudá-lo a começar.

Para obter orientações mais detalhadas, recomendamos que você explore os recursos oficiais:

Cartão de modelo e instruções de uso no GitHub: Meta GitHub Repository.
Página do modelo Hugging Face: Llama 3.3-70B em Hugging Face.

Essas plataformas fornecem documentação detalhada e fóruns da comunidade onde você pode fazer perguntas ou solucionar problemas.

Preços do Llama 3.3

Do nosso ponto de vista, esse preço torna a Llama 3.3 particularmente atraente para os desenvolvedores que trabalham com orçamento limitado ou projetos de dimensionamento com altas demandas de token. Independentemente de você estar executando a IA localmente ou por meio de uma plataforma, essas taxas competitivas garantem que a IA de alta qualidade seja acessível sem gastar muito.

Custos de tokens de entrada

Para processar 1 milhão de tokens de entrada, o preço do Llama 3.3 é de US$ 0,1, o que corresponde ao seu antecessor, o Llama 3.1 70B. Em comparação com outros modelos, essa é uma das taxas mais baixas:

O Amazon Nova Pro cobra US$ 0,80, o que o torna oito vezes mais caro para o mesmo volume.
O GPT-4o e o Claude 3.5 Sonnet custam US$ 2,5 e US$ 3,0, respectivamente, o que os coloca significativamente acima do Llama 3.3.

Esse baixo custo de entrada torna o Llama 3.3 particularmente adequado para aplicativos que exigem o processamento de grandes quantidades de texto, como chatbots ou ferramentas de análise de texto.

Custos de token de saída

Para 1 milhão de tokens de saída, o preço da Llama 3.3 é de US$ 0,4, novamente igual ao custo da Llama 3.1 70B. Veja como você se compara:

O preço do Amazon Nova Pro é de US$ 1,8, quatro vezes mais alto que o do Llama 3.3.
O GPT-4o cobra US$ 10,0 e o Claude 3.5 Sonnet cobra US$ 15,0, tornando o Llama 3.3 uma opção econômica por uma ampla margem.

Para aplicativos que geram um grande volume de texto, como a criação de dados sintéticos ou a geração de conteúdo, o Llama 3.3 oferece uma economia significativa de custos.

Conclusão

Para nós, o Llama 3.3 é um exemplo convincente de como modelos de linguagem grandes podem equilibrar capacidade e acessibilidade.

Como um modelo de 70 bilhões de parâmetros, ele oferece desempenho comparável ao do Llama 3.1 405B, muito maior, mas com requisitos computacionais muito menores.

Para os desenvolvedores sem acesso a hardware de nível empresarial, esse modelo representa uma maneira prática de integrar IA de alta qualidade em seus fluxos de trabalho.

Qual é a diferença entre a Llama 3.3 e a Llama 3.2?

Qual é a diferença entre a Llama 3.3 e a Llama 405B?

Quais idiomas são compatíveis com o Llama 3.3?

Em quais benchmarks o Llama 3.3 se destaca?

A Llama 3.3 pode ser executada no hardware padrão do desenvolvedor?

Author

Josef Waples

Tópicos

Inteligência Artificial

Modelos de idiomas grandes

Aprenda IA com o DataCamp

Programa

Engenheiro associado de IA para cientistas de dados

0 min

Treine e faça o ajuste fino dos modelos de IA mais recentes para produção, incluindo LLMs como o Llama 3. Comece sua jornada para se tornar um engenheiro de IA hoje mesmo!

Ver detalhes

Iniciar curso

Curso

Conceitos de IA Generativa

2 h

82.3K

Descubra como usar IA generativa de forma responsável e seu impacto futuro na sociedade.

Ver detalhes

Iniciar curso

Curso

Working with Llama 3

2 h

10.9K

Explore the latest techniques for running the Llama LLM locally and integrating it within your stack.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

O Mistral Large 2 é o modelo de idioma mais recente da Mistral AI, competindo com modelos como GPT-4o, Llama 3.1 e Claude 3 Opus.

Ryan Ong

8 min

blog

Introdução ao LLaMA da Meta AI

O LLaMA, uma estrutura revolucionária de código aberto, tem como objetivo tornar mais acessível a pesquisa de modelos de linguagem de grande porte.

Abid Ali Awan

8 min

Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.

Abid Ali Awan

Tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.

Josep Ferrer

Tutorial

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

Aprenda a criar um aplicativo RAG com o Llama 3.1 8B usando Ollama e Langchain, configurando o ambiente, processando documentos, criando embeddings e integrando um retriever.

Ryan Ong

Ver mais Ver mais

Desenvolver aplicativos de IA

O que é o Llama 3.3?

Como o Llama 3.3 funciona?

Arquitetura: Eficiente e dimensionável

Treinamento e ajuste fino

Projetado para hardware acessível

Benchmarks do Llama 3.3

Conhecimento geral e raciocínio

Instruções a seguir

Recursos de codificação

Raciocínio matemático e simbólico

Recursos multilíngues

Uso de ferramentas e desempenho em contextos longos

Casos de uso do Llama 3.3

1. Chatbots e assistentes multilíngues

2. Suporte à codificação e desenvolvimento de software

3. Geração de dados sintéticos

4. Criação e localização de conteúdo multilíngue

5. Pesquisa e experimentação

6. Aplicativos baseados em conhecimento

7. Implementação flexível para equipes pequenas

Como acessar o Llama 3.3

Preços do Llama 3.3

Custos de tokens de entrada

Custos de token de saída

Conclusão

Perguntas frequentes

Quais idiomas são compatíveis com o Llama 3.3?

Em quais benchmarks o Llama 3.3 se destaca?

A Llama 3.3 pode ser executada no hardware padrão do desenvolvedor?

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

Introdução ao LLaMA da Meta AI

Ajuste fino do Llama 3.1 para classificação de textos

Guia de Introdução ao Ajuste Fino de LLMs

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Engenheiro associado de IA para cientistas de dados

Conceitos de IA Generativa

Working with Llama 3

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

Introdução ao LLaMA da Meta AI

Ajuste fino do Llama 3.1 para classificação de textos

Guia de Introdução ao Ajuste Fino de LLMs

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

Engenheiro associado de IA para cientistas de dados