programa
Los 15 mejores modelos de lenguas pequeñas para 2024
Los modelos lingüísticos pequeños (SLM) son compactos, eficientes y no necesitan servidores masivos, a diferencia de los modelos lingüísticos grandes (LLM). Están diseñados para ofrecer velocidad y rendimiento en tiempo real, y pueden ejecutarse en nuestros teléfonos inteligentes, tabletas o smartwatches.
En este artículo examinaremos los 15 mejores SLM de 2024 y exploraremos sus puntos fuertes y débiles, y lo que hace único a cada modelo.
Fuente: Lu et al., 2024
Pasaré directamente a hablar de los modelos, pero si necesitas una introducción a los pequeños modelos lingüísticos, escribí un artículo aparte aquí: Pequeños modelos lingüísticos: Guía con ejemplos.
1. Qwen2: 0,5B, 1B y 7B
Qwen2 es una familia de modelos, con tamaños que van de 0,5 mil millones a 7 mil millones de parámetros. Si estás trabajando en una aplicación que necesita un modelo superligero, la versión 0,5B es perfecta.
Sin embargo, si necesitas algo más robusto para tareas como el resumen o la generación de textos, el modelo 7B es donde obtendrás el mayor rendimiento. Es escalable y puede adaptarse a tus necesidades específicas.
Puede que los modelos Qwen2 no alcancen las amplias capacidades de los grandes modelos de IA en pensamiento complejo, pero son estupendos para muchos usos prácticos en los que la velocidad y la eficacia son lo más importante. Son especialmente útiles para aplicaciones que requieren respuestas rápidas o recursos limitados.
- Parámetros: Versiones de 0,5 mil millones, 1 mil millones y 7 mil millones
- Access: https://huggingface.co/Qwen
- Fuente abierta: Sí, con una licencia de código abierto
2. Mistral Nemo 12B
Con 12.000 millones de parámetros, el modelo Mistral Nemo 12B es magnífico para tareas de PLN complejas, como la traducción de idiomas y los sistemas de diálogo en tiempo real. Compite con modelos como el Falcon 40B y el Chinchilla 70B, pero aún puede funcionar localmente sin una configuración masiva de la infraestructura. Es uno de esos modelos que equilibran la complejidad con la practicidad.
- Parámetros: 12.000 millones
- Access: https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2
- Fuente abierta: Sí, con una licencia Apache 2.0
Desarrollar aplicaciones de IA
3. Llama 3.1 8B
Pasando a Llama 3.1 8B, este modelo tiene 8.000 millones de parámetros, y proporciona un equilibrio asombroso entre potencia y eficacia. Es ideal para tareas como la respuesta a preguntas y el análisis de sentimientos.
Llama 3.1 8B proporciona un rendimiento razonablemente bueno si necesitas resultados rápidos sin una enorme potencia de cálculo. Es perfecto para los que quieren velocidad sin sacrificar la precisión.
Para obtener experiencia práctica con este modelo, lee este tutorial sobre RAG con Llama 3.1 8B, Ollama y Langchain.
- Parámetros: 8.000 millones
- Access: https://ollama.com/library/llama3
- Fuente abierta: Sí, pero con restricciones de uso
4. Pythia
Hablemos de la serie Pythia, un conjunto de modelos que van de 160 millones a 2.800 millones de parámetros, diseñados para tareas de razonamiento y habilidades de codificación. Si te dedicas al desarrollo de software, Pythia es genial para manejar tareas estructuradas y basadas en la lógica, en las que la precisión y la lógica son fundamentales. Es perfecto para entornos de codificación en los que necesitas que el modelo piense de forma estructurada y lógica.
Ahora bien, en comparación con otros modelos como GPT-Neo, Pythia rinde mejor en tareas como la codificación y el razonamiento, ya que está construido para estas aplicaciones específicas. Sin embargo, cuando lo lanzas a tareas lingüísticas más generales, las cosas pueden ponerse un poco inestables: Phi 3.5 y Llama 3.1 8B podrían tener un rendimiento más consistente en esas áreas más amplias. Una cosa a destacar es que la transparencia y las opciones de personalización de la formación pública de Pythia son bastante impresionantes. Puedes adaptarla a tus necesidades específicas, lo que la convierte en una herramienta increíblemente flexible.
- Parámetros: 160M - 2,8B
- Access: https://github.com/EleutherAI/pythia
- Fuente abierta: Sí
5. Cerebras-GPT
Cerebras-GPT es un modelo eficaz y rápido. Con parámetros que van de 111 millones a 2.700 millones, está diseñado para entornos en los que los recursos informáticos son limitados, pero sigues necesitando un gran rendimiento. Cerebras-GPT ofrece grandes resultados sin consumir todos tus recursos.
Ahora bien, en comparación con modelos más grandes como GPT-3 o LLaMA 13B, Cerebras-GPT puede que no tenga el mismo entrenamiento extenso, pero sigue las leyes de escalado de Chinchilla, lo que significa que es increíblemente eficiente desde el punto de vista computacional. Los modelos como GPT-J y GPT-NeoX pueden ser más voluminosos, pero Cerebras-GPT maximiza el rendimiento manteniendo bajo el uso de recursos. Si necesitas escalabilidad y eficacia, este modelo está optimizado para ofrecerte lo mejor de ambos mundos.
- Parámetros: 111M - 2,7B
- Access: https://github.com/Cerebras
- Fuente abierta: Sí
6. Phi-3,5
Este modelo tiene 3.800 millones de parámetros, pero esto es lo que lo hace único: 128K tokens de longitud de contexto. ¿Qué significa eso? Puede manejar documentos largos o tareas que impliquen conversaciones de varios turnos sin perder el contexto. También es multilingüe, lo que lo convierte en un fuerte competidor frente a modelos como Llama 13B y GPT-3.5, pero con exigencias computacionales mucho menores. Este modelo es estupendo para resumir documentos, tareas multilingües y razonamiento lógico.
- Parámetros: 3.800 millones de euros
- Access: https://huggingface.co/microsoft/phi-2
- Fuente abierta: Sí, sólo con fines de investigación.
7. StableLM-zephyr
StableLM-Zephyr es un pequeño modelo lingüístico con 3.000 millones de parámetros que es estupendo cuando quieres precisión y velocidad. Este modelo proporciona una inferencia rápida y funciona increíblemente bien en entornos en los que la toma de decisiones rápida es clave, como los sistemas de borde o los dispositivos con pocos recursos. Si necesitas algo que sea nítido y rápido, StableLM-Zephyr es una gran opción.
StableLM-Zephyr destaca en tareas que implican razonamiento e incluso juegos de rol. Aunque es más ligero y rápido, puede que no realice tareas más complejas como escribir o codificar tan bien como los modelos más grandes, pero para su tamaño, tiene un gran rendimiento. Si la velocidad y la eficacia son tus prioridades, StableLM-Zephyr es una elección sólida.
- Parámetros: 3B
- Access: https://github.com/StabilityAI/stablelm
- Fuente abierta: Sí
8. TinyLlama
Hablemos de TinyLlama, un modelo compacto con 1.100 millones de parámetros que rinde realmente bien para su tamaño. Está diseñado para ser eficiente, y es perfecto para los dispositivos que no pueden soportar la pesada carga computacional de los modelos más grandes.
En las tareas del mundo real, TinyLlama obtiene mejores resultados que modelos como Pythia-1.4B, especialmente en el razonamiento de sentido común. No tiene la potencia bruta de modelos como el LLaMA 13B, pero tiene un gran equilibrio entre rendimiento y eficiencia de recursos. Eso lo hace ideal para escenarios en los que necesitas potentes capacidades de IA sin sobrecargar el sistema, especialmente en dispositivos móviles y de borde.
- Parámetros: 1.1B
- Access: https://github.com/tinyLlama
- Fuente abierta: Sí
9. MobileLLaMA
MobileLLaMA es una versión especializada de LLaMA construida para funcionar realmente bien en dispositivos móviles y de bajo consumo. Con 1.400 millones de parámetros, está diseñado para ofrecerte un equilibrio entre rendimiento y eficacia, especialmente en dispositivos con recursos limitados.
MobileLLaMA está optimizado para aplicaciones de IA rápidas y de baja latencia sobre la marcha. Con versiones como MobileLLaMA-1.4B y MobileLLaMA-2.7B, supera fácilmente a modelos más pequeños como TinyLLaMA 1.1B y compite de cerca con OpenLLaMA 3B, todo ello siendo un 40% más rápido. Si necesitas IA en tiempo real directamente en tu dispositivo, MobileLLaMA es perfecto. Este modelo está diseñado para llevar la IA de alto rendimiento directamente a tus sistemas móviles o sistemas periféricos sin necesidad de una infraestructura pesada.
- Parámetros: 1.4B
- Access: https://github.com/mobileLLaMA
- Fuente abierta: Sí
10. LaMini-GPT
LaMini-GPT es un modelo compacto pero potente que va de 774 millones a 1.500 millones de parámetros y que se ha diseñado específicamente para tareas multilingües. Es especialmente potente en entornos con recursos limitados, lo que significa que puede manejar varios idiomas sin necesidad de mucha potencia de cálculo, lo que es ideal para dispositivos o sistemas con recursos limitados.
Algo interesante de LaMini-GPT es que se desarrolló mediante la destilación de conocimientos de modelos más grandes de la familia GPT, lo que le permite rendir realmente bien en tareas de seguimiento de instrucciones. Con más de 2,58 millones de pares instrucción-respuesta en su conjunto de datos, está optimizado para manejar tareas e instrucciones específicas con más eficacia que los modelos más grandes. Sin embargo, aunque es increíblemente eficaz y ligero, especialmente para tareas específicas, no es tan bueno para aplicaciones más amplias que requieran una comprensión contextual profunda o una generación de texto más general. Si buscas algo rápido y eficaz, sobre todo en escenarios multilingües, LaMini-GPT es una opción sólida.
- Parámetros: 774M - 1,5B
- Access: https://github.com/LaMiniGPT
- Fuente abierta: Sí
11. Gemma2
Hablemos ahora de Gemma2. Este modelo tiene 2.000 millones de parámetros, y funciona muy bien si estás pensando en un despliegue local. Es ligero y eficaz, ideal para cosas como la generación de texto o la traducción.
Si lo comparas con pesos pesados como OpenAI o1-previewGemma2 se centra en aplicaciones en tiempo real, no en razonamientos complejos. Para la computación de borde, es la alternativa perfecta a modelos como GPT-3.5 o Llama 65B, que son devoradores de recursos.
Si quieres ponerte manos a la obra con este SLM, lee este tutorial sobre la puesta a punto de Gemma 2 y su uso local.
- Parámetros: versiones de 9.000 y 27.000 millones
- Access: https://ai.google.dev/gemma
- Fuente abierta: Sí, con una licencia permisiva que permite la redistribución, el ajuste y el uso comercial.
12. MiniCPM
MiniCPM es un modelo con un sólido equilibrio entre rendimiento y eficiencia de recursos, con tamaños de parámetros que van de 1.000 millones a 4.000 millones. Está diseñado para manejar con facilidad las tareas lingüísticas generales y ofrece un rendimiento fiable en muchas aplicaciones, lo que lo convierte en una gran opción polivalente.
MiniCPM es escalable y eficaz. A pesar de su menor tamaño, rinde a la par que modelos mucho más grandes como el Mistral-7B y el LLaMA 7B. Está especialmente optimizado para el procesamiento lingüístico tanto en inglés como en chino, lo que lo convierte en una alternativa muy capaz y ligera para entornos en los que los recursos informáticos son limitados. Si trabajas en un entorno con recursos limitados pero sigues necesitando un procesamiento lingüístico sólido, MiniCPM ofrece una solución excelente.
- Parámetros: 1B - 4B
- Access: https://github.com/miniCPM
- Fuente abierta: Sí
13. OpenELM
OpenELM es un modelo flexible y adaptable con un rango de parámetros de 270 millones a 3.000 millones. Está diseñado para entornos que necesitan multitarea y respuestas de baja latencia. Esto es perfecto para tareas que requieren un rendimiento en tiempo real en dispositivos más pequeños.
Desarrollado por Apple, OpenELM se centra en la eficiencia energética y las aplicaciones de IA en el dispositivo. Compite bien con modelos como MobiLlama y OLMo, mostrando mejoras significativas cuando se ajusta para tareas específicas. Con su amplia gama de tamaños de parámetros, OpenELM está optimizado para entornos más pequeños y con más restricciones, a diferencia de modelos más pesados como GPT-4 o LLaMA, que necesitan más recursos para ofrecer un rendimiento comparable. Si buscas algo ligero pero capaz, especialmente para uso móvil o de borde, OpenELM es una gran opción.
- Parámetros: 270M - 3B
- Access: https://github.com/OpenELM
- Fuente abierta: Sí
14. DCLM
Desglosemos el DCLM, un modelo con 1.000 millones de parámetros diseñado específicamente para el razonamiento de sentido común. Se desenvuelve bien en tareas del mundo real en las que la comprensión y la realización de deducciones lógicas son fundamentales.
El DCLM es bueno para la comprensión y el razonamiento lingüísticos, especialmente con su versión de 7.000 millones de parámetros. Compite con modelos como LLaMA 2 (7B) y Mistral 7B, rindiendo igual de bien en tareas como el razonamiento de sentido común y la deducción lógica. Definitivamente no es tan potente como modelos más grandes como LLaMA 13B, pero DCLM está muy optimizado para aplicaciones del mundo real que requieren eficiencia y menos recursos computacionales, así que cuando tengas entornos en los que necesites un gran rendimiento sin una infraestructura pesada, DCLM es una gran elección.
- Parámetros: 1B
- Access: https://github.com/DCLM
- Fuente abierta: Sí
15. Fox
Y por último, el modelo Fox, un modelo de 1.600 millones de parámetros diseñado específicamente para la velocidad y la eficacia. Está optimizado para aplicaciones móviles, donde mantener baja la latencia es crucial. Fox está diseñado para ofrecer respuestas rápidas sin consumir demasiada potencia de cálculo.
Fox se desenvuelve muy bien en entornos en los que necesitas velocidad. Maneja tareas de baja latencia realmente rápido, lo que es genial para dispositivos móviles o de borde. No rinde tan bien en razonamientos complejos, pero Fox es perfecto para situaciones en las que necesitas respuestas rápidas y eficientes de la IA y no puedes permitirte utilizar recursos pesados. Es el modelo al que acudir cuando la potencia de cálculo es limitada pero la velocidad es una prioridad.
- Parámetros: 1.6B
- Access: https://github.com/foxmodel
- Fuente abierta: Sí
Comparación de modelos de lenguas pequeñas
Resumamos lo que hemos tratado en esta tabla:
Nombre del modelo |
Parámetros |
Código abierto |
Características principales |
Qwen2 |
0,5B, 1B, 7B |
Sí |
Escalable, adecuado para diversas tareas |
Mistral Nemo 12B |
12B |
Sí |
Tareas complejas de PNL, despliegue local |
Llama 3.1 8B |
8B |
Sí*. |
Potencia y eficiencia equilibradas |
Pythia |
160M - 2,8B |
Sí |
Centrado en el razonamiento y la codificación |
Cerebras-GPT |
111M - 2,7B |
Sí |
Eficiente desde el punto de vista informático, sigue las leyes de escalado de Chinchilla |
Phi-3,5 |
3.8B |
Sí** |
Contexto de gran longitud (128K tokens), multilingüe |
StableLM-zephyr |
3B |
Sí |
Inferencia rápida, eficiente para sistemas de borde |
TinyLlama |
1.1B |
Sí |
Eficaz para dispositivos móviles y de borde |
MobileLLaMA |
1.4B |
Sí |
Optimizado para dispositivos móviles y de bajo consumo |
LaMini-GPT |
774M - 1,5B |
Sí |
Multilingüe, tareas de seguimiento de instrucciones |
Gemma2 |
9B, 27B |
Sí |
Despliegue local, aplicaciones en tiempo real |
MiniCPM |
1B - 4B |
Sí |
Rendimiento equilibrado, optimizado para inglés y chino |
OpenELM |
270M - 3B |
Sí |
Multitarea, baja latencia, eficiencia energética |
DCLM |
1B |
Sí |
Razonamiento de sentido común, deducción lógica |
Fox |
1.6B |
Sí |
Velocidad optimizada para aplicaciones móviles |
*Con restricciones de uso
**Sólo con fines de investigación
Conclusión
Y hasta aquí este artículo, un pequeño recorrido por el mundo de los pequeños modelos lingüísticos en 2024. Hemos visto cómo estos modelos demuestran que más pequeño no significa más débil, sino más inteligente en muchos sentidos.
Prepárate para ver estas SLM integradas en un mayor número de tus experiencias tecnológicas cotidianas. Recuerda, se trata de los modelos adecuados para el trabajo y, en muchos casos, el modelo adecuado puede ser pequeño y ágil.
Para saber más sobre los pequeños modelos lingüísticos, te recomiendo estos dos recursos:
Ana Rojo Echeburúa es una científica de IA y datos con un doctorado en Matemáticas Aplicadas. Le encanta convertir los datos en información práctica y tiene una amplia experiencia dirigiendo equipos técnicos. A Ana le gusta trabajar en estrecha colaboración con los clientes para resolver sus problemas empresariales y crear soluciones innovadoras de IA. Conocida por su capacidad para resolver problemas y su claridad de comunicación, es una apasionada de la IA, especialmente de los grandes modelos lingüísticos y la IA generativa. Como cofundadora y CTO de Simpli, una empresa de IA de seguros tecnológicos, Ana se dedica al aprendizaje continuo y al desarrollo ético de la IA, superando siempre los límites de la tecnología.
Aprende IA con estos cursos
programa
AI Business Fundamentals
curso
AI Ethics
blog
¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más
Ryan Ong
8 min
blog
Evaluación de un LLM: Métricas, metodologías y buenas prácticas
Stanislav Karzhev
9 min
blog
Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)
tutorial
Ajuste fino de LLaMA 2: Guía paso a paso para personalizar el modelo de lenguaje grande
tutorial
Guía introductoria para el ajuste preciso de los LLM
Josep Ferrer
12 min
tutorial
DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino
Dimitri Didmanidze
9 min