programa
Os 15 principais modelos de idiomas pequenos para 2024
Os modelos de linguagem pequenos (SLMs) são compactos, eficientes e não precisam de servidores enormes, ao contrário dos modelos de linguagem grandes (LLMs). Eles são desenvolvidos para velocidade e desempenho em tempo real e podem ser executados em nossos smartphones, tablets ou smartwatches.
Neste artigo, examinaremos os 15 principais SLMs de 2024 e exploraremos seus pontos fortes e fracos e o que torna cada modelo único.
Fonte: Lu et al., 2024
Vou pular direto para a discussão dos modelos, mas se você precisar de uma introdução sobre modelos de idiomas pequenos, escrevi um artigo separado aqui: Modelos de idiomas pequenos: Um guia com exemplos.
1. Qwen2: 0,5B, 1B e 7B
Qwen2 é uma família de modelos, com tamanhos que vão de 0,5 bilhão a 7 bilhões de parâmetros. Se você estiver trabalhando em um aplicativo que precisa de um modelo superleve, a versão 0,5B é perfeita.
No entanto, se você precisar de algo mais robusto para tarefas como resumo ou geração de texto, o modelo 7B é onde você obterá o melhor desempenho. Ele é dimensionável e pode ser adaptado às suas necessidades específicas.
Os modelos Qwen2 podem não se equiparar às amplas habilidades dos grandes modelos de IA no pensamento complexo, mas são ótimos para muitos usos práticos em que a velocidade e a eficiência são mais importantes. Eles são particularmente úteis para aplicativos que exigem respostas rápidas ou recursos limitados.
- Parâmetros: Versões de 0,5 bilhão, 1 bilhão e 7 bilhões
- Acesso: https://huggingface.co/Qwen
- Código aberto: Sim, com uma licença de código aberto
2. Mistral Nemo 12B
Com 12 bilhões de parâmetros, o modelo Mistral Nemo 12B é excelente para tarefas complexas de NLP, como tradução de idiomas e sistemas de diálogo em tempo real. Ele concorre com modelos como o Falcon 40B e o Chinchilla 70B, mas ainda pode ser executado localmente sem uma configuração de infraestrutura maciça. É um daqueles modelos que equilibram complexidade e praticidade.
- Parâmetros: 12 bilhões
- Acesso: https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2
- Código aberto: Sim, com uma licença Apache 2.0
Desenvolver aplicativos de IA
3. Llama 3.1 8B
Passando para o Llama 3.1 8B, esse modelo tem 8 bilhões de parâmetros e oferece um equilíbrio incrível entre potência e eficiência. Ele é ótimo para tarefas como resposta a perguntas e análise de sentimentos.
O Llama 3.1 8B oferece um desempenho razoavelmente bom se você precisar de resultados rápidos sem grande capacidade de computação. Ele é perfeito para quem deseja velocidade sem sacrificar a precisão.
Para obter experiência prática com esse modelo, leia este tutorial sobre RAG com Llama 3.1 8B, Ollama e Langchain.
- Parâmetros: 8 bilhões
- Acesso: https://ollama.com/library/llama3
- Código aberto: Sim, mas com restrições de uso
4. Pythia
Vamos falar sobre a série Pythia, um conjunto de modelos que variam de 160 milhões a 2,8 bilhões de parâmetros, projetados para tarefas de raciocínio e habilidades de codificação. Se você trabalha com desenvolvimento de software, o Pythia é ótimo para lidar com tarefas estruturadas e baseadas em lógica, nas quais a precisão e a lógica são fundamentais. É perfeito para ambientes de codificação em que você precisa que o modelo pense de forma estruturada e lógica.
Agora, em comparação com outros modelos como o GPT-Neo, o Pythia tem um desempenho melhor em tarefas como codificação e raciocínio, pois foi desenvolvido para esses aplicativos específicos. No entanto, quando você o coloca em tarefas de linguagem mais gerais, as coisas podem ficar um pouco instáveis - o Phi 3.5 e o Llama 3.1 8B podem ter um desempenho mais consistente nessas áreas mais amplas. Um aspecto a ser observado é que as opções de transparência e personalização do treinamento público do Pythia são bastante impressionantes. Você pode ajustá-lo para atender às suas necessidades específicas, o que o torna uma ferramenta incrivelmente flexível.
- Parâmetros: 160 MILHÕES - 2,8 BILHÕES
- Access: https://github.com/EleutherAI/pythia
- Código aberto: Sim
5. Cerebras-GPT
O Cerebras-GPT é um modelo eficiente e rápido. Com parâmetros que variam de 111 milhões a 2,7 bilhões, ele foi projetado para ambientes em que os recursos computacionais são limitados, mas você ainda precisa de um ótimo desempenho. O Cerebras-GPT traz ótimos resultados sem consumir todos os seus recursos.
Agora, em comparação com modelos maiores, como o GPT-3 ou o LLaMA 13B, o Cerebras-GPT pode não ter o mesmo treinamento extensivo, mas segue as leis de escala de Chinchilla, o que significa que é incrivelmente eficiente em termos de computação. Modelos como GPT-J e GPT-NeoX podem ser mais volumosos, mas o Cerebras-GPT maximiza o desempenho e mantém o uso de recursos baixo. Se você precisa de escalabilidade e eficiência, este modelo é otimizado para oferecer o melhor dos dois mundos.
- Parâmetros: 111 MILHÕES - 2,7 BILHÕES
- Acesso: https://github.com/Cerebras
- Código aberto: Sim
6. Phi-3.5
Esse modelo tem 3,8 bilhões de parâmetros, mas é isso que o torna único: 128 mil tokens de comprimento de contexto. O que isso significa? Ele pode lidar com documentos longos ou tarefas que envolvem conversas com várias voltas sem perder o contexto. Ele também é multilíngue, o que o torna um forte concorrente de modelos como o Llama 13B e o GPT-3.5, mas com demandas computacionais muito menores. Esse modelo é excelente para resumo de documentos, tarefas multilíngues e raciocínio lógico.
- Parâmetros: 3,8 bilhões
- Acesso: https://huggingface.co/microsoft/phi-2
- Código aberto: Sim, apenas para fins de pesquisa.
7. StableLM-zephyr
O StableLM-Zephyr é um modelo de linguagem pequeno com 3 bilhões de parâmetros que é ótimo quando você deseja precisão e velocidade. Esse modelo fornece uma inferência rápida e tem um desempenho incrivelmente bom em ambientes em que a tomada rápida de decisões é fundamental, como sistemas de borda ou dispositivos com poucos recursos. Se você precisa de algo que seja nítido e rápido, o StableLM-Zephyr é uma ótima opção.
O StableLM-Zephyr se destaca em tarefas que envolvem raciocínio e até mesmo interpretação de papéis. Embora seja mais leve e mais rápido, ele pode não lidar com tarefas mais complexas, como escrever ou codificar, tão bem quanto os modelos maiores, mas, pelo seu tamanho, ele tem um ótimo desempenho. Se você prioriza a velocidade e a eficiência, o StableLM-Zephyr é uma opção sólida.
- Parâmetros: 3B
- Acesso: https://github.com/StabilityAI/stablelm
- Código aberto: Sim
8. TinyLlama
Vamos falar sobre o TinyLlama, um modelo compacto com 1,1 bilhão de parâmetros que tem um desempenho muito bom para seu tamanho. Ele foi projetado para ser eficiente e é perfeito para dispositivos que não suportam a carga computacional pesada de modelos maiores.
Em tarefas do mundo real, a TinyLlama realmente se sai melhor do que modelos como o Pythia-1.4B, especialmente para o raciocínio de senso comum. Ele não tem a potência bruta de modelos como o LLaMA 13B, mas tem um ótimo equilíbrio entre desempenho e eficiência de recursos. Isso o torna ideal para cenários em que você precisa de recursos avançados de IA sem sobrecarregar o sistema, especialmente em dispositivos móveis e de borda.
- Parâmetros: 1.1B
- Access: https://github.com/tinyLlama
- Código aberto: Sim
9. MobileLLaMA
O MobileLLaMA é uma versão especializada do LLaMA criada para ter um desempenho muito bom em dispositivos móveis e de baixo consumo de energia. Com 1,4 bilhão de parâmetros, ele foi projetado para oferecer a você um equilíbrio entre desempenho e eficiência, especialmente em dispositivos com recursos limitados.
O MobileLLaMA é otimizado para velocidade e aplicativos de IA de baixa latência em movimento. Com versões como MobileLLaMA-1.4B e MobileLLaMA-2.7B, ele supera facilmente modelos menores, como o TinyLLaMA 1.1B, e compete de perto com o OpenLLaMA 3B, sendo cerca de 40% mais rápido. Se você precisa de IA em tempo real diretamente no seu dispositivo, o MobileLLaMA é perfeito. Esse modelo foi criado para levar IA de alto desempenho diretamente para seus sistemas móveis ou de borda. sistemas de borda sem a necessidade de uma infraestrutura pesada.
- Parâmetros: 1.4B
- Access: https://github.com/mobileLLaMA
- Código aberto: Sim
10. LaMini-GPT
O LaMini-GPT é um modelo compacto, porém eficiente, que varia de 774 milhões a 1,5 bilhão de parâmetros e foi projetado especificamente para tarefas multilíngues. Ele é particularmente forte em ambientes com recursos limitados, o que significa que pode lidar com vários idiomas sem precisar de muita potência computacional, o que é uma ótima opção para dispositivos ou sistemas com recursos limitados.
Algo interessante sobre o LaMini-GPT é que ele foi desenvolvido por meio da destilação de conhecimento de modelos maiores da família GPT, o que permite que ele tenha um desempenho muito bom em tarefas de acompanhamento de instruções. Com mais de 2,58 milhões de pares instrução-resposta em seu conjunto de dados, ele é otimizado para lidar com tarefas e instruções específicas com mais eficiência do que os modelos maiores. No entanto, embora seja incrivelmente eficiente e leve, especialmente para tarefas específicas, ele não é tão bom para aplicativos mais amplos que exigem compreensão contextual profunda ou geração de texto mais geral. Se você estiver procurando algo rápido e eficiente, especialmente em cenários multilíngues, o LaMini-GPT é uma opção sólida.
- Parâmetros: 774 MILHÕES - 1,5 BILHÃO
- Access: https://github.com/LaMiniGPT
- Código aberto: Sim
11. Gemma2
Vamos falar agora sobre a Gemma2. Esse modelo tem 2 bilhões de parâmetros e funciona muito bem se você estiver pensando em uma implantação local. Ele é leve e eficiente, ideal para coisas como geração de texto ou tradução.
Quando você o compara com pesos pesados como OpenAI o1-previewo Gemma2 se concentra em aplicativos em tempo real, não em raciocínio complexo. Para computação de borda, é a alternativa perfeita para modelos como GPT-3.5 ou Llama 65B, que consomem muitos recursos.
Se você quiser colocar a mão na massa com esse SLM, leia este tutorial sobre como fazer o ajuste fino do Gemma 2 e usá-lo localmente.
- Parâmetros: Versões de 9 bilhões e 27 bilhões
- Access: https://ai.google.dev/gemma
- Código aberto: Sim, com uma licença permissiva que permite a redistribuição, o ajuste fino e o uso comercial.
12. MiniCPM
O MiniCPM é um modelo com um sólido equilíbrio entre desempenho e eficiência de recursos, com tamanhos de parâmetros que variam de 1 bilhão a 4 bilhões. Ele foi projetado para lidar facilmente com tarefas gerais de linguagem e oferece desempenho confiável em muitos aplicativos, o que o torna uma excelente opção para todos os fins.
O MiniCPM é dimensionável e eficiente. Apesar de seu tamanho menor, seu desempenho é equivalente ao de modelos muito maiores, como o Mistral-7B e o LLaMA 7B. Ele é especialmente otimizado para o processamento de idiomas em inglês e chinês, o que o torna uma alternativa leve e altamente capaz para ambientes em que os recursos computacionais são limitados. Se você estiver trabalhando em um ambiente com recursos limitados, mas ainda precisar de um processamento de linguagem sólido, o MiniCPM oferece uma excelente solução.
- Parâmetros: 1B – 4B
- Access: https://github.com/miniCPM
- Código aberto: Sim
13. OpenELM
O OpenELM é um modelo flexível e adaptável com uma faixa de parâmetros de 270 milhões a 3 bilhões. Ele foi projetado para ambientes que exigem multitarefa e respostas de baixa latência. Isso é perfeito para tarefas que exigem desempenho em tempo real em dispositivos menores.
Desenvolvido pela Apple, o OpenELM se concentra na eficiência energética e nos aplicativos de IA no dispositivo. Ele compete bem com modelos como MobiLlama e OLMo, apresentando melhorias significativas quando ajustado para tarefas específicas. Com sua ampla variedade de tamanhos de parâmetros, o OpenELM é otimizado para ambientes menores e mais restritos, ao contrário de modelos mais pesados, como o GPT-4 ou o LLaMA, que precisam de mais recursos para oferecer um desempenho comparável. Se você estiver procurando por algo leve, mas capaz, especialmente para uso móvel ou de borda, o OpenELM é uma ótima opção.
- Parâmetros: 270M – 3B
- Access: https://github.com/OpenELM
- Código aberto: Sim
14. DCLM
Vamos analisar o DCLM, um modelo com 1 bilhão de parâmetros projetado especificamente para o raciocínio de senso comum. Ele tem um bom desempenho em tarefas do mundo real em que a compreensão e as deduções lógicas são fundamentais.
O DCLM é bom para a compreensão e o raciocínio de idiomas, especialmente com sua versão de 7 bilhões de parâmetros. Ele compete com modelos como o LLaMA 2 (7B) e o Mistral 7B, com o mesmo desempenho em tarefas como raciocínio de senso comum e dedução lógica. Definitivamente, ele não é tão potente quanto os modelos maiores, como o LLaMA 13B, mas o DCLM é altamente otimizado para aplicativos do mundo real que exigem eficiência e menos recursos computacionais, portanto, quando você tem ambientes em que precisa de um desempenho forte sem a infraestrutura pesada, o DCLM é uma ótima opção.
- Parâmetros: 1B
- Acesso: https://github.com/DCLM
- Código aberto: Sim
15. Raposa
E o último, o modelo Fox, um modelo de 1,6 bilhão de parâmetros projetado especificamente para velocidade e eficiência. Ele é otimizado para aplicativos móveis, nos quais é fundamental manter a latência baixa. O Fox foi desenvolvido para fornecer respostas rápidas sem consumir muita energia computacional.
O Fox funciona muito bem em ambientes onde você precisa de velocidade. Ele lida com tarefas de baixa latência muito rapidamente, o que é ótimo para dispositivos móveis ou de borda. Ele não tem um desempenho tão bom em raciocínios complexos, mas o Fox é perfeito para situações em que você precisa de respostas de IA rápidas e eficientes e não pode se dar ao luxo de usar recursos pesados. É o modelo ideal quando a potência computacional é limitada, mas a velocidade é uma prioridade.
- Parâmetros: 1.6B
- Acesso: https://github.com/foxmodel
- Código aberto: Sim
Comparação de modelos de idiomas pequenos
Vamos resumir o que abordamos por meio desta tabela:
Nome do modelo |
Parâmetros |
Código aberto |
Principais recursos |
Qwen2 |
0,5B, 1B, 7B |
Sim |
Escalável, adequado para várias tarefas |
Mistral Nemo 12B |
12B |
Sim |
Tarefas complexas de NLP, implementação local |
Llama 3.1 8B |
8B |
Sim* |
Potência e eficiência equilibradas |
Pythia |
160 MILHÕES - 2,8 BILHÕES |
Sim |
Focado em raciocínio e codificação |
Cerebras-GPT |
111 MILHÕES - 2,7 BILHÕES |
Sim |
Eficiente em termos de computação, segue as leis de escala de Chinchilla |
Phi-3.5 |
3.8B |
Sim** |
Longo comprimento de contexto (128 mil tokens), multilíngue |
StableLM-zephyr |
3B |
Sim |
Inferência rápida, eficiente para sistemas de borda |
TinyLlama |
1.1B |
Sim |
Eficiente para dispositivos móveis e de borda |
MobileLLaMA |
1.4B |
Sim |
Otimizado para dispositivos móveis e de baixo consumo de energia |
LaMini-GPT |
774 MILHÕES - 1,5 BILHÃO |
Sim |
Tarefas multilíngues e de acompanhamento de instruções |
Gemma2 |
9B, 27B |
Sim |
Implementação local, aplicativos em tempo real |
MiniCPM |
1B - 4B |
Sim |
Desempenho equilibrado, otimizado para inglês e chinês |
OpenELM |
270M - 3B |
Sim |
Multitarefa, baixa latência, eficiência energética |
DCLM |
1B |
Sim |
Raciocínio de senso comum, dedução lógica |
Raposa |
1.6B |
Sim |
Velocidade otimizada para aplicativos móveis |
*Com restrições de uso
**Apenas para fins de pesquisa
Conclusão
E isso é tudo para este artigo, um pequeno tour pelo mundo dos modelos de idiomas pequenos em 2024. Vimos como esses modelos provam que menor não significa mais fraco - significa mais inteligente em muitos aspectos.
Espere ver esses SLMs integrados em mais experiências tecnológicas diárias. Lembre-se de que se trata dos modelos certos para o trabalho e, em muitos casos, o modelo certo pode ser pequeno e ágil.
Para saber mais sobre modelos de linguagem pequenos, recomendo a você estes dois recursos:
Ana Rojo Echeburúa é cientista de dados e IA com doutorado em Matemática Aplicada. Ela adora transformar dados em insights acionáveis e tem ampla experiência na liderança de equipes técnicas. Ana gosta de trabalhar em estreita colaboração com os clientes para resolver seus problemas de negócios e criar soluções inovadoras de IA. Conhecida por suas habilidades de resolução de problemas e comunicação clara, ela é apaixonada por IA, especialmente por modelos de linguagem grandes e IA generativa. Como cofundadora e CTO da Simpli, uma empresa de IA para seguros tecnológicos, Ana se dedica ao aprendizado contínuo e ao desenvolvimento ético de IA, sempre ampliando os limites da tecnologia.
Aprenda IA com estes cursos!
programa
AI Business Fundamentals
curso
AI Ethics
blog
O que é o Mistral Large 2? Como funciona, casos de uso e muito mais
Ryan Ong
8 min
blog
As 30 principais perguntas e respostas da entrevista sobre IA generativa para 2024
Hesam Sheikh Hassani
15 min
blog
8 principais LLMs de código aberto para 2024 e seus usos
blog
Avaliação do LLM: Métricas, metodologias, práticas recomendadas
Stanislav Karzhev
9 min
tutorial
Guia de Introdução ao Ajuste Fino de LLMs
Josep Ferrer
12 min
tutorial