Saltar al contenido principal

Los 15 mejores modelos de lenguas pequeñas para 2024

Conoce los 15 mejores modelos de lenguas pequeñas de 2024, como Llama 3.1 8B, Gemma2, Qwen 2, Mistral Nemo, Phi-3.5 y otros.
Actualizado 14 nov 2024  · 8 min de lectura

Los modelos lingüísticos pequeños (SLM) son compactos, eficientes y no necesitan servidores masivos, a diferencia de los modelos lingüísticos grandes (LLM). Están diseñados para ofrecer velocidad y rendimiento en tiempo real, y pueden ejecutarse en nuestros teléfonos inteligentes, tabletas o smartwatches.

En este artículo examinaremos los 15 mejores SLM de 2024 y exploraremos sus puntos fuertes y débiles, y lo que hace único a cada modelo.

Cronología de los SLM

Fuente: Lu et al., 2024

Pasaré directamente a hablar de los modelos, pero si necesitas una introducción a los pequeños modelos lingüísticos, escribí un artículo aparte aquí: Pequeños modelos lingüísticos: Guía con ejemplos.

1. Qwen2: 0,5B, 1B y 7B

Qwen2 es una familia de modelos, con tamaños que van de 0,5 mil millones a 7 mil millones de parámetros. Si estás trabajando en una aplicación que necesita un modelo superligero, la versión 0,5B es perfecta.

Sin embargo, si necesitas algo más robusto para tareas como el resumen o la generación de textos, el modelo 7B es donde obtendrás el mayor rendimiento. Es escalable y puede adaptarse a tus necesidades específicas. 

Puede que los modelos Qwen2 no alcancen las amplias capacidades de los grandes modelos de IA en pensamiento complejo, pero son estupendos para muchos usos prácticos en los que la velocidad y la eficacia son lo más importante. Son especialmente útiles para aplicaciones que requieren respuestas rápidas o recursos limitados.

  • Parámetros: Versiones de 0,5 mil millones, 1 mil millones y 7 mil millones
  • Access: https://huggingface.co/Qwen
  • Fuente abierta: Sí, con una licencia de código abierto

2. Mistral Nemo 12B

Con 12.000 millones de parámetros, el modelo Mistral Nemo 12B es magnífico para tareas de PLN complejas, como la traducción de idiomas y los sistemas de diálogo en tiempo real. Compite con modelos como el Falcon 40B y el Chinchilla 70B, pero aún puede funcionar localmente sin una configuración masiva de la infraestructura. Es uno de esos modelos que equilibran la complejidad con la practicidad.

Desarrollar aplicaciones de IA

Aprende a crear aplicaciones de IA utilizando la API OpenAI.
Empieza a Hacer Upskilling Gratis

3. Llama 3.1 8B

Pasando a Llama 3.1 8B, este modelo tiene 8.000 millones de parámetros, y proporciona un equilibrio asombroso entre potencia y eficacia. Es ideal para tareas como la respuesta a preguntas y el análisis de sentimientos.

Llama 3.1 8B proporciona un rendimiento razonablemente bueno si necesitas resultados rápidos sin una enorme potencia de cálculo. Es perfecto para los que quieren velocidad sin sacrificar la precisión.

Para obtener experiencia práctica con este modelo, lee este tutorial sobre RAG con Llama 3.1 8B, Ollama y Langchain.

4. Pythia

Hablemos de la serie Pythia, un conjunto de modelos que van de 160 millones a 2.800 millones de parámetros, diseñados para tareas de razonamiento y habilidades de codificación. Si te dedicas al desarrollo de software, Pythia es genial para manejar tareas estructuradas y basadas en la lógica, en las que la precisión y la lógica son fundamentales. Es perfecto para entornos de codificación en los que necesitas que el modelo piense de forma estructurada y lógica.

Ahora bien, en comparación con otros modelos como GPT-Neo, Pythia rinde mejor en tareas como la codificación y el razonamiento, ya que está construido para estas aplicaciones específicas. Sin embargo, cuando lo lanzas a tareas lingüísticas más generales, las cosas pueden ponerse un poco inestables: Phi 3.5 y Llama 3.1 8B podrían tener un rendimiento más consistente en esas áreas más amplias. Una cosa a destacar es que la transparencia y las opciones de personalización de la formación pública de Pythia son bastante impresionantes. Puedes adaptarla a tus necesidades específicas, lo que la convierte en una herramienta increíblemente flexible.

5. Cerebras-GPT

Cerebras-GPT es un modelo eficaz y rápido. Con parámetros que van de 111 millones a 2.700 millones, está diseñado para entornos en los que los recursos informáticos son limitados, pero sigues necesitando un gran rendimiento. Cerebras-GPT ofrece grandes resultados sin consumir todos tus recursos.

Ahora bien, en comparación con modelos más grandes como GPT-3 o LLaMA 13B, Cerebras-GPT puede que no tenga el mismo entrenamiento extenso, pero sigue las leyes de escalado de Chinchilla, lo que significa que es increíblemente eficiente desde el punto de vista computacional. Los modelos como GPT-J y GPT-NeoX pueden ser más voluminosos, pero Cerebras-GPT maximiza el rendimiento manteniendo bajo el uso de recursos. Si necesitas escalabilidad y eficacia, este modelo está optimizado para ofrecerte lo mejor de ambos mundos.

6. Phi-3,5

Este modelo tiene 3.800 millones de parámetros, pero esto es lo que lo hace único: 128K tokens de longitud de contexto. ¿Qué significa eso? Puede manejar documentos largos o tareas que impliquen conversaciones de varios turnos sin perder el contexto. También es multilingüe, lo que lo convierte en un fuerte competidor frente a modelos como Llama 13B y GPT-3.5, pero con exigencias computacionales mucho menores. Este modelo es estupendo para resumir documentos, tareas multilingües y razonamiento lógico.

7. StableLM-zephyr

StableLM-Zephyr es un pequeño modelo lingüístico con 3.000 millones de parámetros que es estupendo cuando quieres precisión y velocidad. Este modelo proporciona una inferencia rápida y funciona increíblemente bien en entornos en los que la toma de decisiones rápida es clave, como los sistemas de borde o los dispositivos con pocos recursos. Si necesitas algo que sea nítido y rápido, StableLM-Zephyr es una gran opción.

StableLM-Zephyr destaca en tareas que implican razonamiento e incluso juegos de rol. Aunque es más ligero y rápido, puede que no realice tareas más complejas como escribir o codificar tan bien como los modelos más grandes, pero para su tamaño, tiene un gran rendimiento. Si la velocidad y la eficacia son tus prioridades, StableLM-Zephyr es una elección sólida.

8. TinyLlama

Hablemos de TinyLlama, un modelo compacto con 1.100 millones de parámetros que rinde realmente bien para su tamaño. Está diseñado para ser eficiente, y es perfecto para los dispositivos que no pueden soportar la pesada carga computacional de los modelos más grandes.

En las tareas del mundo real, TinyLlama obtiene mejores resultados que modelos como Pythia-1.4B, especialmente en el razonamiento de sentido común. No tiene la potencia bruta de modelos como el LLaMA 13B, pero tiene un gran equilibrio entre rendimiento y eficiencia de recursos. Eso lo hace ideal para escenarios en los que necesitas potentes capacidades de IA sin sobrecargar el sistema, especialmente en dispositivos móviles y de borde.

9. MobileLLaMA

MobileLLaMA es una versión especializada de LLaMA construida para funcionar realmente bien en dispositivos móviles y de bajo consumo. Con 1.400 millones de parámetros, está diseñado para ofrecerte un equilibrio entre rendimiento y eficacia, especialmente en dispositivos con recursos limitados. 

MobileLLaMA está optimizado para aplicaciones de IA rápidas y de baja latencia sobre la marcha. Con versiones como MobileLLaMA-1.4B y MobileLLaMA-2.7B, supera fácilmente a modelos más pequeños como TinyLLaMA 1.1B y compite de cerca con OpenLLaMA 3B, todo ello siendo un 40% más rápido. Si necesitas IA en tiempo real directamente en tu dispositivo, MobileLLaMA es perfecto. Este modelo está diseñado para llevar la IA de alto rendimiento directamente a tus sistemas móviles o sistemas periféricos sin necesidad de una infraestructura pesada.

10. LaMini-GPT

LaMini-GPT es un modelo compacto pero potente que va de 774 millones a 1.500 millones de parámetros y que se ha diseñado específicamente para tareas multilingües. Es especialmente potente en entornos con recursos limitados, lo que significa que puede manejar varios idiomas sin necesidad de mucha potencia de cálculo, lo que es ideal para dispositivos o sistemas con recursos limitados.

Algo interesante de LaMini-GPT es que se desarrolló mediante la destilación de conocimientos de modelos más grandes de la familia GPT, lo que le permite rendir realmente bien en tareas de seguimiento de instrucciones. Con más de 2,58 millones de pares instrucción-respuesta en su conjunto de datos, está optimizado para manejar tareas e instrucciones específicas con más eficacia que los modelos más grandes. Sin embargo, aunque es increíblemente eficaz y ligero, especialmente para tareas específicas, no es tan bueno para aplicaciones más amplias que requieran una comprensión contextual profunda o una generación de texto más general. Si buscas algo rápido y eficaz, sobre todo en escenarios multilingües, LaMini-GPT es una opción sólida.

11. Gemma2

Hablemos ahora de Gemma2. Este modelo tiene 2.000 millones de parámetros, y funciona muy bien si estás pensando en un despliegue local. Es ligero y eficaz, ideal para cosas como la generación de texto o la traducción.

Si lo comparas con pesos pesados como OpenAI o1-previewGemma2 se centra en aplicaciones en tiempo real, no en razonamientos complejos. Para la computación de borde, es la alternativa perfecta a modelos como GPT-3.5 o Llama 65B, que son devoradores de recursos.

Si quieres ponerte manos a la obra con este SLM, lee este tutorial sobre la puesta a punto de Gemma 2 y su uso local.

  • Parámetros: versiones de 9.000 y 27.000 millones
  • Access: https://ai.google.dev/gemma
  • Fuente abierta: Sí, con una licencia permisiva que permite la redistribución, el ajuste y el uso comercial.

12. MiniCPM

MiniCPM es un modelo con un sólido equilibrio entre rendimiento y eficiencia de recursos, con tamaños de parámetros que van de 1.000 millones a 4.000 millones. Está diseñado para manejar con facilidad las tareas lingüísticas generales y ofrece un rendimiento fiable en muchas aplicaciones, lo que lo convierte en una gran opción polivalente.

MiniCPM es escalable y eficaz. A pesar de su menor tamaño, rinde a la par que modelos mucho más grandes como el Mistral-7B y el LLaMA 7B. Está especialmente optimizado para el procesamiento lingüístico tanto en inglés como en chino, lo que lo convierte en una alternativa muy capaz y ligera para entornos en los que los recursos informáticos son limitados. Si trabajas en un entorno con recursos limitados pero sigues necesitando un procesamiento lingüístico sólido, MiniCPM ofrece una solución excelente.

13. OpenELM

OpenELM es un modelo flexible y adaptable con un rango de parámetros de 270 millones a 3.000 millones. Está diseñado para entornos que necesitan multitarea y respuestas de baja latencia. Esto es perfecto para tareas que requieren un rendimiento en tiempo real en dispositivos más pequeños. 

Desarrollado por Apple, OpenELM se centra en la eficiencia energética y las aplicaciones de IA en el dispositivo. Compite bien con modelos como MobiLlama y OLMo, mostrando mejoras significativas cuando se ajusta para tareas específicas. Con su amplia gama de tamaños de parámetros, OpenELM está optimizado para entornos más pequeños y con más restricciones, a diferencia de modelos más pesados como GPT-4 o LLaMA, que necesitan más recursos para ofrecer un rendimiento comparable. Si buscas algo ligero pero capaz, especialmente para uso móvil o de borde, OpenELM es una gran opción.

14. DCLM

Desglosemos el DCLM, un modelo con 1.000 millones de parámetros diseñado específicamente para el razonamiento de sentido común. Se desenvuelve bien en tareas del mundo real en las que la comprensión y la realización de deducciones lógicas son fundamentales.

El DCLM es bueno para la comprensión y el razonamiento lingüísticos, especialmente con su versión de 7.000 millones de parámetros. Compite con modelos como LLaMA 2 (7B) y Mistral 7B, rindiendo igual de bien en tareas como el razonamiento de sentido común y la deducción lógica. Definitivamente no es tan potente como modelos más grandes como LLaMA 13B, pero DCLM está muy optimizado para aplicaciones del mundo real que requieren eficiencia y menos recursos computacionales, así que cuando tengas entornos en los que necesites un gran rendimiento sin una infraestructura pesada, DCLM es una gran elección.

15. Fox

Y por último, el modelo Fox, un modelo de 1.600 millones de parámetros diseñado específicamente para la velocidad y la eficacia. Está optimizado para aplicaciones móviles, donde mantener baja la latencia es crucial. Fox está diseñado para ofrecer respuestas rápidas sin consumir demasiada potencia de cálculo.

Fox se desenvuelve muy bien en entornos en los que necesitas velocidad. Maneja tareas de baja latencia realmente rápido, lo que es genial para dispositivos móviles o de borde. No rinde tan bien en razonamientos complejos, pero Fox es perfecto para situaciones en las que necesitas respuestas rápidas y eficientes de la IA y no puedes permitirte utilizar recursos pesados. Es el modelo al que acudir cuando la potencia de cálculo es limitada pero la velocidad es una prioridad.

Comparación de modelos de lenguas pequeñas

Resumamos lo que hemos tratado en esta tabla:

Nombre del modelo

Parámetros

Código abierto

Características principales

Qwen2

0,5B, 1B, 7B

Escalable, adecuado para diversas tareas

Mistral Nemo 12B

12B

Tareas complejas de PNL, despliegue local

Llama 3.1 8B

8B

Sí*.

Potencia y eficiencia equilibradas

Pythia

160M - 2,8B

Centrado en el razonamiento y la codificación

Cerebras-GPT

111M - 2,7B

Eficiente desde el punto de vista informático, sigue las leyes de escalado de Chinchilla

Phi-3,5

3.8B

Sí**

Contexto de gran longitud (128K tokens), multilingüe

StableLM-zephyr

3B

Inferencia rápida, eficiente para sistemas de borde

TinyLlama

1.1B

Eficaz para dispositivos móviles y de borde

MobileLLaMA

1.4B

Optimizado para dispositivos móviles y de bajo consumo

LaMini-GPT

774M - 1,5B

Multilingüe, tareas de seguimiento de instrucciones

Gemma2

9B, 27B

Despliegue local, aplicaciones en tiempo real

MiniCPM

1B - 4B

Rendimiento equilibrado, optimizado para inglés y chino

OpenELM

270M - 3B

Multitarea, baja latencia, eficiencia energética

DCLM

1B

Razonamiento de sentido común, deducción lógica

Fox

1.6B

Velocidad optimizada para aplicaciones móviles

*Con restricciones de uso

**Sólo con fines de investigación

Conclusión

Y hasta aquí este artículo, un pequeño recorrido por el mundo de los pequeños modelos lingüísticos en 2024. Hemos visto cómo estos modelos demuestran que más pequeño no significa más débil, sino más inteligente en muchos sentidos.

Prepárate para ver estas SLM integradas en un mayor número de tus experiencias tecnológicas cotidianas. Recuerda, se trata de los modelos adecuados para el trabajo y, en muchos casos, el modelo adecuado puede ser pequeño y ágil.

Para saber más sobre los pequeños modelos lingüísticos, te recomiendo estos dos recursos:


Photo of Dr Ana Rojo-Echeburúa
Author
Dr Ana Rojo-Echeburúa
LinkedIn
Twitter

Ana Rojo Echeburúa es una científica de IA y datos con un doctorado en Matemáticas Aplicadas. Le encanta convertir los datos en información práctica y tiene una amplia experiencia dirigiendo equipos técnicos. A Ana le gusta trabajar en estrecha colaboración con los clientes para resolver sus problemas empresariales y crear soluciones innovadoras de IA. Conocida por su capacidad para resolver problemas y su claridad de comunicación, es una apasionada de la IA, especialmente de los grandes modelos lingüísticos y la IA generativa. Como cofundadora y CTO de Simpli, una empresa de IA de seguros tecnológicos, Ana se dedica al aprendizaje continuo y al desarrollo ético de la IA, superando siempre los límites de la tecnología.

Temas

Aprende IA con estos cursos

programa

Developing AI Applications

23hrs hr
Learn to create AI-powered applications with the latest AI developer tools, including the OpenAI API, Hugging Face, and LangChain.
Ver detallesRight Arrow
Comienza El Curso
Ver másRight Arrow
Relacionado

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.
Ryan Ong's photo

Ryan Ong

8 min

blog

Evaluación de un LLM: Métricas, metodologías y buenas prácticas

Aprende a evaluar grandes modelos lingüísticos (LLM) utilizando métricas clave, metodologías y mejores prácticas para tomar decisiones informadas.
Stanislav Karzhev's photo

Stanislav Karzhev

9 min

An AI juggles tasks

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.
Abid Ali Awan's photo

Abid Ali Awan

10 min

tutorial

Ajuste fino de LLaMA 2: Guía paso a paso para personalizar el modelo de lenguaje grande

Aprende a ajustar Llama-2 en Colab utilizando nuevas técnicas para superar las limitaciones de memoria y computación y hacer más accesibles los grandes modelos lingüísticos de código abierto.
Abid Ali Awan's photo

Abid Ali Awan

12 min

tutorial

Guía introductoria para el ajuste preciso de los LLM

El ajuste preciso de los grandes modelos lingüísticos (LLM) ha revolucionado el procesamiento del lenguaje natural (PLN) y ofrece capacidades sin precedentes en tareas como la traducción lingüística, el análisis del sentimiento y la generación de textos. Este enfoque transformador aprovecha modelos preentrenados como el GPT-2 y mejora su rendimiento en dominios específicos mediante el proceso de ajuste preciso.
Josep Ferrer's photo

Josep Ferrer

12 min

tutorial

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Empieza a utilizar el gran modelo de lenguaje DCLM-7B de Apple y aprende a configurarlo, utilizarlo y ajustarlo para tareas específicas.
Dimitri Didmanidze's photo

Dimitri Didmanidze

9 min

See MoreSee More