Pular para o conteúdo principal

Os 15 principais modelos de idiomas pequenos para 2024

Saiba mais sobre os 15 principais modelos de linguagens pequenas de 2024, incluindo Llama 3.1 8B, Gemma2, Qwen 2, Mistral Nemo, Phi-3.5 e muito mais.
Actualizado 14 de nov. de 2024  · 8 min de leitura

Os modelos de linguagem pequenos (SLMs) são compactos, eficientes e não precisam de servidores enormes, ao contrário dos modelos de linguagem grandes (LLMs). Eles são desenvolvidos para velocidade e desempenho em tempo real e podem ser executados em nossos smartphones, tablets ou smartwatches.

Neste artigo, examinaremos os 15 principais SLMs de 2024 e exploraremos seus pontos fortes e fracos e o que torna cada modelo único.

Cronograma de SLMs

Fonte: Lu et al., 2024

Vou pular direto para a discussão dos modelos, mas se você precisar de uma introdução sobre modelos de idiomas pequenos, escrevi um artigo separado aqui: Modelos de idiomas pequenos: Um guia com exemplos.

1. Qwen2: 0,5B, 1B e 7B

Qwen2 é uma família de modelos, com tamanhos que vão de 0,5 bilhão a 7 bilhões de parâmetros. Se você estiver trabalhando em um aplicativo que precisa de um modelo superleve, a versão 0,5B é perfeita.

No entanto, se você precisar de algo mais robusto para tarefas como resumo ou geração de texto, o modelo 7B é onde você obterá o melhor desempenho. Ele é dimensionável e pode ser adaptado às suas necessidades específicas. 

Os modelos Qwen2 podem não se equiparar às amplas habilidades dos grandes modelos de IA no pensamento complexo, mas são ótimos para muitos usos práticos em que a velocidade e a eficiência são mais importantes. Eles são particularmente úteis para aplicativos que exigem respostas rápidas ou recursos limitados.

  • Parâmetros: Versões de 0,5 bilhão, 1 bilhão e 7 bilhões
  • Acesso: https://huggingface.co/Qwen
  • Código aberto: Sim, com uma licença de código aberto

2. Mistral Nemo 12B

Com 12 bilhões de parâmetros, o modelo Mistral Nemo 12B é excelente para tarefas complexas de NLP, como tradução de idiomas e sistemas de diálogo em tempo real. Ele concorre com modelos como o Falcon 40B e o Chinchilla 70B, mas ainda pode ser executado localmente sem uma configuração de infraestrutura maciça. É um daqueles modelos que equilibram complexidade e praticidade.

Desenvolver aplicativos de IA

Aprenda a criar aplicativos de IA usando a API OpenAI.
Comece a Treinar Gratuitamente

3. Llama 3.1 8B

Passando para o Llama 3.1 8B, esse modelo tem 8 bilhões de parâmetros e oferece um equilíbrio incrível entre potência e eficiência. Ele é ótimo para tarefas como resposta a perguntas e análise de sentimentos.

O Llama 3.1 8B oferece um desempenho razoavelmente bom se você precisar de resultados rápidos sem grande capacidade de computação. Ele é perfeito para quem deseja velocidade sem sacrificar a precisão.

Para obter experiência prática com esse modelo, leia este tutorial sobre RAG com Llama 3.1 8B, Ollama e Langchain.

4. Pythia

Vamos falar sobre a série Pythia, um conjunto de modelos que variam de 160 milhões a 2,8 bilhões de parâmetros, projetados para tarefas de raciocínio e habilidades de codificação. Se você trabalha com desenvolvimento de software, o Pythia é ótimo para lidar com tarefas estruturadas e baseadas em lógica, nas quais a precisão e a lógica são fundamentais. É perfeito para ambientes de codificação em que você precisa que o modelo pense de forma estruturada e lógica.

Agora, em comparação com outros modelos como o GPT-Neo, o Pythia tem um desempenho melhor em tarefas como codificação e raciocínio, pois foi desenvolvido para esses aplicativos específicos. No entanto, quando você o coloca em tarefas de linguagem mais gerais, as coisas podem ficar um pouco instáveis - o Phi 3.5 e o Llama 3.1 8B podem ter um desempenho mais consistente nessas áreas mais amplas. Um aspecto a ser observado é que as opções de transparência e personalização do treinamento público do Pythia são bastante impressionantes. Você pode ajustá-lo para atender às suas necessidades específicas, o que o torna uma ferramenta incrivelmente flexível.

5. Cerebras-GPT

O Cerebras-GPT é um modelo eficiente e rápido. Com parâmetros que variam de 111 milhões a 2,7 bilhões, ele foi projetado para ambientes em que os recursos computacionais são limitados, mas você ainda precisa de um ótimo desempenho. O Cerebras-GPT traz ótimos resultados sem consumir todos os seus recursos.

Agora, em comparação com modelos maiores, como o GPT-3 ou o LLaMA 13B, o Cerebras-GPT pode não ter o mesmo treinamento extensivo, mas segue as leis de escala de Chinchilla, o que significa que é incrivelmente eficiente em termos de computação. Modelos como GPT-J e GPT-NeoX podem ser mais volumosos, mas o Cerebras-GPT maximiza o desempenho e mantém o uso de recursos baixo. Se você precisa de escalabilidade e eficiência, este modelo é otimizado para oferecer o melhor dos dois mundos.

6. Phi-3.5

Esse modelo tem 3,8 bilhões de parâmetros, mas é isso que o torna único: 128 mil tokens de comprimento de contexto. O que isso significa? Ele pode lidar com documentos longos ou tarefas que envolvem conversas com várias voltas sem perder o contexto. Ele também é multilíngue, o que o torna um forte concorrente de modelos como o Llama 13B e o GPT-3.5, mas com demandas computacionais muito menores. Esse modelo é excelente para resumo de documentos, tarefas multilíngues e raciocínio lógico.

7. StableLM-zephyr

O StableLM-Zephyr é um modelo de linguagem pequeno com 3 bilhões de parâmetros que é ótimo quando você deseja precisão e velocidade. Esse modelo fornece uma inferência rápida e tem um desempenho incrivelmente bom em ambientes em que a tomada rápida de decisões é fundamental, como sistemas de borda ou dispositivos com poucos recursos. Se você precisa de algo que seja nítido e rápido, o StableLM-Zephyr é uma ótima opção.

O StableLM-Zephyr se destaca em tarefas que envolvem raciocínio e até mesmo interpretação de papéis. Embora seja mais leve e mais rápido, ele pode não lidar com tarefas mais complexas, como escrever ou codificar, tão bem quanto os modelos maiores, mas, pelo seu tamanho, ele tem um ótimo desempenho. Se você prioriza a velocidade e a eficiência, o StableLM-Zephyr é uma opção sólida.

8. TinyLlama

Vamos falar sobre o TinyLlama, um modelo compacto com 1,1 bilhão de parâmetros que tem um desempenho muito bom para seu tamanho. Ele foi projetado para ser eficiente e é perfeito para dispositivos que não suportam a carga computacional pesada de modelos maiores.

Em tarefas do mundo real, a TinyLlama realmente se sai melhor do que modelos como o Pythia-1.4B, especialmente para o raciocínio de senso comum. Ele não tem a potência bruta de modelos como o LLaMA 13B, mas tem um ótimo equilíbrio entre desempenho e eficiência de recursos. Isso o torna ideal para cenários em que você precisa de recursos avançados de IA sem sobrecarregar o sistema, especialmente em dispositivos móveis e de borda.

9. MobileLLaMA

O MobileLLaMA é uma versão especializada do LLaMA criada para ter um desempenho muito bom em dispositivos móveis e de baixo consumo de energia. Com 1,4 bilhão de parâmetros, ele foi projetado para oferecer a você um equilíbrio entre desempenho e eficiência, especialmente em dispositivos com recursos limitados. 

O MobileLLaMA é otimizado para velocidade e aplicativos de IA de baixa latência em movimento. Com versões como MobileLLaMA-1.4B e MobileLLaMA-2.7B, ele supera facilmente modelos menores, como o TinyLLaMA 1.1B, e compete de perto com o OpenLLaMA 3B, sendo cerca de 40% mais rápido. Se você precisa de IA em tempo real diretamente no seu dispositivo, o MobileLLaMA é perfeito. Esse modelo foi criado para levar IA de alto desempenho diretamente para seus sistemas móveis ou de borda. sistemas de borda sem a necessidade de uma infraestrutura pesada.

10. LaMini-GPT

O LaMini-GPT é um modelo compacto, porém eficiente, que varia de 774 milhões a 1,5 bilhão de parâmetros e foi projetado especificamente para tarefas multilíngues. Ele é particularmente forte em ambientes com recursos limitados, o que significa que pode lidar com vários idiomas sem precisar de muita potência computacional, o que é uma ótima opção para dispositivos ou sistemas com recursos limitados.

Algo interessante sobre o LaMini-GPT é que ele foi desenvolvido por meio da destilação de conhecimento de modelos maiores da família GPT, o que permite que ele tenha um desempenho muito bom em tarefas de acompanhamento de instruções. Com mais de 2,58 milhões de pares instrução-resposta em seu conjunto de dados, ele é otimizado para lidar com tarefas e instruções específicas com mais eficiência do que os modelos maiores. No entanto, embora seja incrivelmente eficiente e leve, especialmente para tarefas específicas, ele não é tão bom para aplicativos mais amplos que exigem compreensão contextual profunda ou geração de texto mais geral. Se você estiver procurando algo rápido e eficiente, especialmente em cenários multilíngues, o LaMini-GPT é uma opção sólida.

11. Gemma2

Vamos falar agora sobre a Gemma2. Esse modelo tem 2 bilhões de parâmetros e funciona muito bem se você estiver pensando em uma implantação local. Ele é leve e eficiente, ideal para coisas como geração de texto ou tradução.

Quando você o compara com pesos pesados como OpenAI o1-previewo Gemma2 se concentra em aplicativos em tempo real, não em raciocínio complexo. Para computação de borda, é a alternativa perfeita para modelos como GPT-3.5 ou Llama 65B, que consomem muitos recursos.

Se você quiser colocar a mão na massa com esse SLM, leia este tutorial sobre como fazer o ajuste fino do Gemma 2 e usá-lo localmente.

  • Parâmetros: Versões de 9 bilhões e 27 bilhões
  • Access: https://ai.google.dev/gemma
  • Código aberto: Sim, com uma licença permissiva que permite a redistribuição, o ajuste fino e o uso comercial.

12. MiniCPM

O MiniCPM é um modelo com um sólido equilíbrio entre desempenho e eficiência de recursos, com tamanhos de parâmetros que variam de 1 bilhão a 4 bilhões. Ele foi projetado para lidar facilmente com tarefas gerais de linguagem e oferece desempenho confiável em muitos aplicativos, o que o torna uma excelente opção para todos os fins.

O MiniCPM é dimensionável e eficiente. Apesar de seu tamanho menor, seu desempenho é equivalente ao de modelos muito maiores, como o Mistral-7B e o LLaMA 7B. Ele é especialmente otimizado para o processamento de idiomas em inglês e chinês, o que o torna uma alternativa leve e altamente capaz para ambientes em que os recursos computacionais são limitados. Se você estiver trabalhando em um ambiente com recursos limitados, mas ainda precisar de um processamento de linguagem sólido, o MiniCPM oferece uma excelente solução.

13. OpenELM

O OpenELM é um modelo flexível e adaptável com uma faixa de parâmetros de 270 milhões a 3 bilhões. Ele foi projetado para ambientes que exigem multitarefa e respostas de baixa latência. Isso é perfeito para tarefas que exigem desempenho em tempo real em dispositivos menores. 

Desenvolvido pela Apple, o OpenELM se concentra na eficiência energética e nos aplicativos de IA no dispositivo. Ele compete bem com modelos como MobiLlama e OLMo, apresentando melhorias significativas quando ajustado para tarefas específicas. Com sua ampla variedade de tamanhos de parâmetros, o OpenELM é otimizado para ambientes menores e mais restritos, ao contrário de modelos mais pesados, como o GPT-4 ou o LLaMA, que precisam de mais recursos para oferecer um desempenho comparável. Se você estiver procurando por algo leve, mas capaz, especialmente para uso móvel ou de borda, o OpenELM é uma ótima opção.

14. DCLM

Vamos analisar o DCLM, um modelo com 1 bilhão de parâmetros projetado especificamente para o raciocínio de senso comum. Ele tem um bom desempenho em tarefas do mundo real em que a compreensão e as deduções lógicas são fundamentais.

O DCLM é bom para a compreensão e o raciocínio de idiomas, especialmente com sua versão de 7 bilhões de parâmetros. Ele compete com modelos como o LLaMA 2 (7B) e o Mistral 7B, com o mesmo desempenho em tarefas como raciocínio de senso comum e dedução lógica. Definitivamente, ele não é tão potente quanto os modelos maiores, como o LLaMA 13B, mas o DCLM é altamente otimizado para aplicativos do mundo real que exigem eficiência e menos recursos computacionais, portanto, quando você tem ambientes em que precisa de um desempenho forte sem a infraestrutura pesada, o DCLM é uma ótima opção.

15. Raposa

E o último, o modelo Fox, um modelo de 1,6 bilhão de parâmetros projetado especificamente para velocidade e eficiência. Ele é otimizado para aplicativos móveis, nos quais é fundamental manter a latência baixa. O Fox foi desenvolvido para fornecer respostas rápidas sem consumir muita energia computacional.

O Fox funciona muito bem em ambientes onde você precisa de velocidade. Ele lida com tarefas de baixa latência muito rapidamente, o que é ótimo para dispositivos móveis ou de borda. Ele não tem um desempenho tão bom em raciocínios complexos, mas o Fox é perfeito para situações em que você precisa de respostas de IA rápidas e eficientes e não pode se dar ao luxo de usar recursos pesados. É o modelo ideal quando a potência computacional é limitada, mas a velocidade é uma prioridade.

Comparação de modelos de idiomas pequenos

Vamos resumir o que abordamos por meio desta tabela:

Nome do modelo

Parâmetros

Código aberto

Principais recursos

Qwen2

0,5B, 1B, 7B

Sim

Escalável, adequado para várias tarefas

Mistral Nemo 12B

12B

Sim

Tarefas complexas de NLP, implementação local

Llama 3.1 8B

8B

Sim*

Potência e eficiência equilibradas

Pythia

160 MILHÕES - 2,8 BILHÕES

Sim

Focado em raciocínio e codificação

Cerebras-GPT

111 MILHÕES - 2,7 BILHÕES

Sim

Eficiente em termos de computação, segue as leis de escala de Chinchilla

Phi-3.5

3.8B

Sim**

Longo comprimento de contexto (128 mil tokens), multilíngue

StableLM-zephyr

3B

Sim

Inferência rápida, eficiente para sistemas de borda

TinyLlama

1.1B

Sim

Eficiente para dispositivos móveis e de borda

MobileLLaMA

1.4B

Sim

Otimizado para dispositivos móveis e de baixo consumo de energia

LaMini-GPT

774 MILHÕES - 1,5 BILHÃO

Sim

Tarefas multilíngues e de acompanhamento de instruções

Gemma2

9B, 27B

Sim

Implementação local, aplicativos em tempo real

MiniCPM

1B - 4B

Sim

Desempenho equilibrado, otimizado para inglês e chinês

OpenELM

270M - 3B

Sim

Multitarefa, baixa latência, eficiência energética

DCLM

1B

Sim

Raciocínio de senso comum, dedução lógica

Raposa

1.6B

Sim

Velocidade otimizada para aplicativos móveis

*Com restrições de uso

**Apenas para fins de pesquisa

Conclusão

E isso é tudo para este artigo, um pequeno tour pelo mundo dos modelos de idiomas pequenos em 2024. Vimos como esses modelos provam que menor não significa mais fraco - significa mais inteligente em muitos aspectos.

Espere ver esses SLMs integrados em mais experiências tecnológicas diárias. Lembre-se de que se trata dos modelos certos para o trabalho e, em muitos casos, o modelo certo pode ser pequeno e ágil.

Para saber mais sobre modelos de linguagem pequenos, recomendo a você estes dois recursos:


Photo of Dr Ana Rojo-Echeburúa
Author
Dr Ana Rojo-Echeburúa
LinkedIn
Twitter

Ana Rojo Echeburúa é cientista de dados e IA com doutorado em Matemática Aplicada. Ela adora transformar dados em insights acionáveis e tem ampla experiência na liderança de equipes técnicas. Ana gosta de trabalhar em estreita colaboração com os clientes para resolver seus problemas de negócios e criar soluções inovadoras de IA. Conhecida por suas habilidades de resolução de problemas e comunicação clara, ela é apaixonada por IA, especialmente por modelos de linguagem grandes e IA generativa. Como cofundadora e CTO da Simpli, uma empresa de IA para seguros tecnológicos, Ana se dedica ao aprendizado contínuo e ao desenvolvimento ético de IA, sempre ampliando os limites da tecnologia.

Temas

Aprenda IA com estes cursos!

programa

Developing AI Applications

23hrs hr
Learn to create AI-powered applications with the latest AI developer tools, including the OpenAI API, Hugging Face, and LangChain.
Ver DetalhesRight Arrow
Iniciar Curso
Ver maisRight Arrow
Relacionado

blog

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

O Mistral Large 2 é o modelo de idioma mais recente da Mistral AI, competindo com modelos como GPT-4o, Llama 3.1 e Claude 3 Opus.
Ryan Ong's photo

Ryan Ong

8 min

blog

As 30 principais perguntas e respostas da entrevista sobre IA generativa para 2024

Este blog oferece um conjunto abrangente de perguntas e respostas de entrevistas sobre IA generativa, desde conceitos básicos até tópicos avançados.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 min

blog

8 principais LLMs de código aberto para 2024 e seus usos

Descubra alguns dos LLMs de código aberto mais avançados e por que eles serão cruciais para o futuro da IA generativa

blog

Avaliação do LLM: Métricas, metodologias, práticas recomendadas

Saiba como avaliar modelos de linguagem grandes (LLMs) usando métricas importantes, metodologias e práticas recomendadas para tomar decisões informadas.
Stanislav Karzhev's photo

Stanislav Karzhev

9 min

tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.
Josep Ferrer's photo

Josep Ferrer

12 min

tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.
Abid Ali Awan's photo

Abid Ali Awan

13 min

See MoreSee More