Os 15 principais modelos de idiomas pequenos para 2024

Saiba mais sobre os 15 principais modelos de linguagens pequenas de 2024, incluindo Llama 3.1 8B, Gemma2, Qwen 2, Mistral Nemo, Phi-3.5 e muito mais.

Atualizado 14 de nov. de 2024 · 8 min lido

Os modelos de linguagem pequenos (SLMs) são compactos, eficientes e não precisam de servidores enormes, ao contrário dos modelos de linguagem grandes (LLMs). Eles são desenvolvidos para velocidade e desempenho em tempo real e podem ser executados em nossos smartphones, tablets ou smartwatches.

Neste artigo, examinaremos os 15 principais SLMs de 2024 e exploraremos seus pontos fortes e fracos e o que torna cada modelo único.

Fonte: Lu et al., 2024

Vou pular direto para a discussão dos modelos, mas se você precisar de uma introdução sobre modelos de idiomas pequenos, escrevi um artigo separado aqui: Modelos de idiomas pequenos: Um guia com exemplos.

1. Qwen2: 0,5B, 1B e 7B

Qwen2 é uma família de modelos, com tamanhos que vão de 0,5 bilhão a 7 bilhões de parâmetros. Se você estiver trabalhando em um aplicativo que precisa de um modelo superleve, a versão 0,5B é perfeita.

No entanto, se você precisar de algo mais robusto para tarefas como resumo ou geração de texto, o modelo 7B é onde você obterá o melhor desempenho. Ele é dimensionável e pode ser adaptado às suas necessidades específicas.

Os modelos Qwen2 podem não se equiparar às amplas habilidades dos grandes modelos de IA no pensamento complexo, mas são ótimos para muitos usos práticos em que a velocidade e a eficiência são mais importantes. Eles são particularmente úteis para aplicativos que exigem respostas rápidas ou recursos limitados.

Parâmetros: Versões de 0,5 bilhão, 1 bilhão e 7 bilhões
Acesso: https://huggingface.co/Qwen
Código aberto: Sim, com uma licença de código aberto

2. Mistral Nemo 12B

Com 12 bilhões de parâmetros, o modelo Mistral Nemo 12B é excelente para tarefas complexas de NLP, como tradução de idiomas e sistemas de diálogo em tempo real. Ele concorre com modelos como o Falcon 40B e o Chinchilla 70B, mas ainda pode ser executado localmente sem uma configuração de infraestrutura maciça. É um daqueles modelos que equilibram complexidade e praticidade.

Parâmetros: 12 bilhões
Acesso: https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2
Código aberto: Sim, com uma licença Apache 2.0

Desenvolver aplicativos de IA

Aprenda a criar aplicativos de IA usando a API OpenAI.

Comece a treinar gratuitamente

3. Llama 3.1 8B

Passando para o Llama 3.1 8B, esse modelo tem 8 bilhões de parâmetros e oferece um equilíbrio incrível entre potência e eficiência. Ele é ótimo para tarefas como resposta a perguntas e análise de sentimentos.

O Llama 3.1 8B oferece um desempenho razoavelmente bom se você precisar de resultados rápidos sem grande capacidade de computação. Ele é perfeito para quem deseja velocidade sem sacrificar a precisão.

Para obter experiência prática com esse modelo, leia este tutorial sobre RAG com Llama 3.1 8B, Ollama e Langchain.

Parâmetros: 8 bilhões
Acesso: https://ollama.com/library/llama3
Código aberto: Sim, mas com restrições de uso

4. Pythia

Vamos falar sobre a série Pythia, um conjunto de modelos que variam de 160 milhões a 2,8 bilhões de parâmetros, projetados para tarefas de raciocínio e habilidades de codificação. Se você trabalha com desenvolvimento de software, o Pythia é ótimo para lidar com tarefas estruturadas e baseadas em lógica, nas quais a precisão e a lógica são fundamentais. É perfeito para ambientes de codificação em que você precisa que o modelo pense de forma estruturada e lógica.

Agora, em comparação com outros modelos como o GPT-Neo, o Pythia tem um desempenho melhor em tarefas como codificação e raciocínio, pois foi desenvolvido para esses aplicativos específicos. No entanto, quando você o coloca em tarefas de linguagem mais gerais, as coisas podem ficar um pouco instáveis - o Phi 3.5 e o Llama 3.1 8B podem ter um desempenho mais consistente nessas áreas mais amplas. Um aspecto a ser observado é que as opções de transparência e personalização do treinamento público do Pythia são bastante impressionantes. Você pode ajustá-lo para atender às suas necessidades específicas, o que o torna uma ferramenta incrivelmente flexível.

Parâmetros: 160 MILHÕES - 2,8 BILHÕES
Access: https://github.com/EleutherAI/pythia
Código aberto: Sim

5. Cerebras-GPT

O Cerebras-GPT é um modelo eficiente e rápido. Com parâmetros que variam de 111 milhões a 2,7 bilhões, ele foi projetado para ambientes em que os recursos computacionais são limitados, mas você ainda precisa de um ótimo desempenho. O Cerebras-GPT traz ótimos resultados sem consumir todos os seus recursos.

Agora, em comparação com modelos maiores, como o GPT-3 ou o LLaMA 13B, o Cerebras-GPT pode não ter o mesmo treinamento extensivo, mas segue as leis de escala de Chinchilla, o que significa que é incrivelmente eficiente em termos de computação. Modelos como GPT-J e GPT-NeoX podem ser mais volumosos, mas o Cerebras-GPT maximiza o desempenho e mantém o uso de recursos baixo. Se você precisa de escalabilidade e eficiência, este modelo é otimizado para oferecer o melhor dos dois mundos.

Parâmetros: 111 MILHÕES - 2,7 BILHÕES
Acesso: https://github.com/Cerebras
Código aberto: Sim

6. Phi-3.5

Esse modelo tem 3,8 bilhões de parâmetros, mas é isso que o torna único: 128 mil tokens de comprimento de contexto. O que isso significa? Ele pode lidar com documentos longos ou tarefas que envolvem conversas com várias voltas sem perder o contexto. Ele também é multilíngue, o que o torna um forte concorrente de modelos como o Llama 13B e o GPT-3.5, mas com demandas computacionais muito menores. Esse modelo é excelente para resumo de documentos, tarefas multilíngues e raciocínio lógico.

Parâmetros: 3,8 bilhões
Acesso: https://huggingface.co/microsoft/phi-2
Código aberto: Sim, apenas para fins de pesquisa.

7. StableLM-zephyr

O StableLM-Zephyr é um modelo de linguagem pequeno com 3 bilhões de parâmetros que é ótimo quando você deseja precisão e velocidade. Esse modelo fornece uma inferência rápida e tem um desempenho incrivelmente bom em ambientes em que a tomada rápida de decisões é fundamental, como sistemas de borda ou dispositivos com poucos recursos. Se você precisa de algo que seja nítido e rápido, o StableLM-Zephyr é uma ótima opção.

O StableLM-Zephyr se destaca em tarefas que envolvem raciocínio e até mesmo interpretação de papéis. Embora seja mais leve e mais rápido, ele pode não lidar com tarefas mais complexas, como escrever ou codificar, tão bem quanto os modelos maiores, mas, pelo seu tamanho, ele tem um ótimo desempenho. Se você prioriza a velocidade e a eficiência, o StableLM-Zephyr é uma opção sólida.

Parâmetros: 3B
Acesso: https://github.com/StabilityAI/stablelm
Código aberto: Sim

8. TinyLlama

Vamos falar sobre o TinyLlama, um modelo compacto com 1,1 bilhão de parâmetros que tem um desempenho muito bom para seu tamanho. Ele foi projetado para ser eficiente e é perfeito para dispositivos que não suportam a carga computacional pesada de modelos maiores.

Em tarefas do mundo real, a TinyLlama realmente se sai melhor do que modelos como o Pythia-1.4B, especialmente para o raciocínio de senso comum. Ele não tem a potência bruta de modelos como o LLaMA 13B, mas tem um ótimo equilíbrio entre desempenho e eficiência de recursos. Isso o torna ideal para cenários em que você precisa de recursos avançados de IA sem sobrecarregar o sistema, especialmente em dispositivos móveis e de borda.

Parâmetros: 1.1B
Access: https://github.com/tinyLlama
Código aberto: Sim

9. MobileLLaMA

O MobileLLaMA é uma versão especializada do LLaMA criada para ter um desempenho muito bom em dispositivos móveis e de baixo consumo de energia. Com 1,4 bilhão de parâmetros, ele foi projetado para oferecer a você um equilíbrio entre desempenho e eficiência, especialmente em dispositivos com recursos limitados.

O MobileLLaMA é otimizado para velocidade e aplicativos de IA de baixa latência em movimento. Com versões como MobileLLaMA-1.4B e MobileLLaMA-2.7B, ele supera facilmente modelos menores, como o TinyLLaMA 1.1B, e compete de perto com o OpenLLaMA 3B, sendo cerca de 40% mais rápido. Se você precisa de IA em tempo real diretamente no seu dispositivo, o MobileLLaMA é perfeito. Esse modelo foi criado para levar IA de alto desempenho diretamente para seus sistemas móveis ou de borda. sistemas de borda sem a necessidade de uma infraestrutura pesada.

Parâmetros: 1.4B
Access: https://github.com/mobileLLaMA
Código aberto: Sim

10. LaMini-GPT

O LaMini-GPT é um modelo compacto, porém eficiente, que varia de 774 milhões a 1,5 bilhão de parâmetros e foi projetado especificamente para tarefas multilíngues. Ele é particularmente forte em ambientes com recursos limitados, o que significa que pode lidar com vários idiomas sem precisar de muita potência computacional, o que é uma ótima opção para dispositivos ou sistemas com recursos limitados.

Algo interessante sobre o LaMini-GPT é que ele foi desenvolvido por meio da destilação de conhecimento de modelos maiores da família GPT, o que permite que ele tenha um desempenho muito bom em tarefas de acompanhamento de instruções. Com mais de 2,58 milhões de pares instrução-resposta em seu conjunto de dados, ele é otimizado para lidar com tarefas e instruções específicas com mais eficiência do que os modelos maiores. No entanto, embora seja incrivelmente eficiente e leve, especialmente para tarefas específicas, ele não é tão bom para aplicativos mais amplos que exigem compreensão contextual profunda ou geração de texto mais geral. Se você estiver procurando algo rápido e eficiente, especialmente em cenários multilíngues, o LaMini-GPT é uma opção sólida.

Parâmetros: 774 MILHÕES - 1,5 BILHÃO
Access: https://github.com/LaMiniGPT
Código aberto: Sim

11. Gemma2

Vamos falar agora sobre a Gemma2. Esse modelo tem 2 bilhões de parâmetros e funciona muito bem se você estiver pensando em uma implantação local. Ele é leve e eficiente, ideal para coisas como geração de texto ou tradução.

Quando você o compara com pesos pesados como OpenAI o1-previewo Gemma2 se concentra em aplicativos em tempo real, não em raciocínio complexo. Para computação de borda, é a alternativa perfeita para modelos como GPT-3.5 ou Llama 65B, que consomem muitos recursos.

Se você quiser colocar a mão na massa com esse SLM, leia este tutorial sobre como fazer o ajuste fino do Gemma 2 e usá-lo localmente.

Parâmetros: Versões de 9 bilhões e 27 bilhões
Access: https://ai.google.dev/gemma
Código aberto: Sim, com uma licença permissiva que permite a redistribuição, o ajuste fino e o uso comercial.

12. MiniCPM

O MiniCPM é um modelo com um sólido equilíbrio entre desempenho e eficiência de recursos, com tamanhos de parâmetros que variam de 1 bilhão a 4 bilhões. Ele foi projetado para lidar facilmente com tarefas gerais de linguagem e oferece desempenho confiável em muitos aplicativos, o que o torna uma excelente opção para todos os fins.

O MiniCPM é dimensionável e eficiente. Apesar de seu tamanho menor, seu desempenho é equivalente ao de modelos muito maiores, como o Mistral-7B e o LLaMA 7B. Ele é especialmente otimizado para o processamento de idiomas em inglês e chinês, o que o torna uma alternativa leve e altamente capaz para ambientes em que os recursos computacionais são limitados. Se você estiver trabalhando em um ambiente com recursos limitados, mas ainda precisar de um processamento de linguagem sólido, o MiniCPM oferece uma excelente solução.

Parâmetros: 1B – 4B
Access: https://github.com/miniCPM
Código aberto: Sim

13. OpenELM

O OpenELM é um modelo flexível e adaptável com uma faixa de parâmetros de 270 milhões a 3 bilhões. Ele foi projetado para ambientes que exigem multitarefa e respostas de baixa latência. Isso é perfeito para tarefas que exigem desempenho em tempo real em dispositivos menores.

Desenvolvido pela Apple, o OpenELM se concentra na eficiência energética e nos aplicativos de IA no dispositivo. Ele compete bem com modelos como MobiLlama e OLMo, apresentando melhorias significativas quando ajustado para tarefas específicas. Com sua ampla variedade de tamanhos de parâmetros, o OpenELM é otimizado para ambientes menores e mais restritos, ao contrário de modelos mais pesados, como o GPT-4 ou o LLaMA, que precisam de mais recursos para oferecer um desempenho comparável. Se você estiver procurando por algo leve, mas capaz, especialmente para uso móvel ou de borda, o OpenELM é uma ótima opção.

Parâmetros: 270M – 3B
Access: https://github.com/OpenELM
Código aberto: Sim

14. DCLM

Vamos analisar o DCLM, um modelo com 1 bilhão de parâmetros projetado especificamente para o raciocínio de senso comum. Ele tem um bom desempenho em tarefas do mundo real em que a compreensão e as deduções lógicas são fundamentais.

O DCLM é bom para a compreensão e o raciocínio de idiomas, especialmente com sua versão de 7 bilhões de parâmetros. Ele compete com modelos como o LLaMA 2 (7B) e o Mistral 7B, com o mesmo desempenho em tarefas como raciocínio de senso comum e dedução lógica. Definitivamente, ele não é tão potente quanto os modelos maiores, como o LLaMA 13B, mas o DCLM é altamente otimizado para aplicativos do mundo real que exigem eficiência e menos recursos computacionais, portanto, quando você tem ambientes em que precisa de um desempenho forte sem a infraestrutura pesada, o DCLM é uma ótima opção.

Parâmetros: 1B
Acesso: https://github.com/DCLM
Código aberto: Sim

15. Raposa

E o último, o modelo Fox, um modelo de 1,6 bilhão de parâmetros projetado especificamente para velocidade e eficiência. Ele é otimizado para aplicativos móveis, nos quais é fundamental manter a latência baixa. O Fox foi desenvolvido para fornecer respostas rápidas sem consumir muita energia computacional.

O Fox funciona muito bem em ambientes onde você precisa de velocidade. Ele lida com tarefas de baixa latência muito rapidamente, o que é ótimo para dispositivos móveis ou de borda. Ele não tem um desempenho tão bom em raciocínios complexos, mas o Fox é perfeito para situações em que você precisa de respostas de IA rápidas e eficientes e não pode se dar ao luxo de usar recursos pesados. É o modelo ideal quando a potência computacional é limitada, mas a velocidade é uma prioridade.

Parâmetros: 1.6B
Acesso: https://github.com/foxmodel
Código aberto: Sim

Comparação de modelos de idiomas pequenos

Vamos resumir o que abordamos por meio desta tabela:

Nome do modelo	Parâmetros	Código aberto	Principais recursos
Qwen2	0,5B, 1B, 7B	Sim	Escalável, adequado para várias tarefas
Mistral Nemo 12B	12B	Sim	Tarefas complexas de NLP, implementação local
Llama 3.1 8B	8B	Sim*	Potência e eficiência equilibradas
Pythia	160 MILHÕES - 2,8 BILHÕES	Sim	Focado em raciocínio e codificação
Cerebras-GPT	111 MILHÕES - 2,7 BILHÕES	Sim	Eficiente em termos de computação, segue as leis de escala de Chinchilla
Phi-3.5	3.8B	Sim**	Longo comprimento de contexto (128 mil tokens), multilíngue
StableLM-zephyr	3B	Sim	Inferência rápida, eficiente para sistemas de borda
TinyLlama	1.1B	Sim	Eficiente para dispositivos móveis e de borda
MobileLLaMA	1.4B	Sim	Otimizado para dispositivos móveis e de baixo consumo de energia
LaMini-GPT	774 MILHÕES - 1,5 BILHÃO	Sim	Tarefas multilíngues e de acompanhamento de instruções
Gemma2	9B, 27B	Sim	Implementação local, aplicativos em tempo real
MiniCPM	1B - 4B	Sim	Desempenho equilibrado, otimizado para inglês e chinês
OpenELM	270M - 3B	Sim	Multitarefa, baixa latência, eficiência energética
DCLM	1B	Sim	Raciocínio de senso comum, dedução lógica
Raposa	1.6B	Sim	Velocidade otimizada para aplicativos móveis

*Com restrições de uso

**Apenas para fins de pesquisa

Conclusão

E isso é tudo para este artigo, um pequeno tour pelo mundo dos modelos de idiomas pequenos em 2024. Vimos como esses modelos provam que menor não significa mais fraco - significa mais inteligente em muitos aspectos.

Espere ver esses SLMs integrados em mais experiências tecnológicas diárias. Lembre-se de que se trata dos modelos certos para o trabalho e, em muitos casos, o modelo certo pode ser pequeno e ágil.

Para saber mais sobre modelos de linguagem pequenos, recomendo a você estes dois recursos:

Tópicos

Inteligência Artificial

IA generativa

Aprenda IA com estes cursos!

Programa

Fundamentos de negócios de IA

0 min

Acelere sua jornada de IA, conquiste o ChatGPT e desenvolva uma estratégia abrangente de Inteligência Artificial.

Ver detalhes

Iniciar curso

Programa

Desenvolvimento de aplicativos de IA

0 min

Aprenda a criar aplicativos com tecnologia de IA com as mais recentes ferramentas de desenvolvimento de IA, incluindo a API OpenAI, Hugging Face e LangChain.

Ver detalhes

Iniciar curso

Curso

Ética em IA

1 h

54.1K

Explore a ética da IA, com foco em princípios, justiça, redução de vieses e confiança no design de IA.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

O Mistral Large 2 é o modelo de idioma mais recente da Mistral AI, competindo com modelos como GPT-4o, Llama 3.1 e Claude 3 Opus.

Ryan Ong

8 min

blog

As 30 principais perguntas e respostas da entrevista sobre IA generativa para 2024

Este blog oferece um conjunto abrangente de perguntas e respostas de entrevistas sobre IA generativa, desde conceitos básicos até tópicos avançados.

Hesam Sheikh Hassani

15 min

blog

Entendendo e atenuando o viés em modelos de idiomas grandes (LLMs)

Mergulhe em um passo a passo abrangente sobre a compreensão do preconceito nos LLMs, o impacto que ele causa e como atenuá-lo para garantir a confiança e a justiça.

Nisha Arya Ahmed

12 min

Tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.

Josep Ferrer

Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.

Abid Ali Awan

Ver mais Ver mais

1. Qwen2: 0,5B, 1B e 7B

2. Mistral Nemo 12B

Desenvolver aplicativos de IA

3. Llama 3.1 8B

4. Pythia

5. Cerebras-GPT

6. Phi-3.5

7. StableLM-zephyr

8. TinyLlama

9. MobileLLaMA

10. LaMini-GPT

11. Gemma2

12. MiniCPM

13. OpenELM

14. DCLM

15. Raposa

Comparação de modelos de idiomas pequenos

Conclusão

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

As 30 principais perguntas e respostas da entrevista sobre IA generativa para 2024

Entendendo e atenuando o viés em modelos de idiomas grandes (LLMs)

Guia de Introdução ao Ajuste Fino de LLMs

Ajuste fino do Llama 3.1 para classificação de textos

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de negócios de IA

Desenvolvimento de aplicativos de IA

Ética em IA

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

As 30 principais perguntas e respostas da entrevista sobre IA generativa para 2024

Entendendo e atenuando o viés em modelos de idiomas grandes (LLMs)

Guia de Introdução ao Ajuste Fino de LLMs

Ajuste fino do Llama 3.1 para classificação de textos

Fundamentos de negócios de IA