Saltar al contenido principal
InicioBlogInteligencia Artificial (IA)

Los mejores 8 LLM de código abierto para 2024 y sus usos

Descubre algunos de los LLM de código abierto más potentes y por qué serán cruciales para el futuro de la IA generativa
Actualizado feb 2024  · 13 min leer
Lee la versión en inglés 🇺🇲 de este artículo.

La actual revolución de la IA generativa no sería posible sin los llamados modelos de lenguaje de gran tamaño (Large Language Models, LLMs). Basados en transformadores, una potente arquitectura neuronal, los LLM son sistemas de IA utilizados para modelar y procesar el lenguaje humano. Se llaman “large” (de gran tamaño) porque tienen cientos de millones o incluso miles de millones de parámetros, que se entrenan previamente utilizando un corpus masivo de datos de texto.

Empieza hoy nuestro Curso de conceptos de modelos de lenguaje de gran tamaño (Large Language Models, LLMs) hoy mismo para saber más sobre cómo funcionan los LLMs.

Los LLM son los modelos base de chatbots populares y ampliamente utilizados, como ChatGPT y Google Bard. En concreto, ChatGPT funciona con GPT-4, un LLM desarrollado y propiedad de OpenAI, mientras que Google Bard se basa en el modelo PaLM 2 de Google.

ChatGPT y Bard, así como muchos otros chatbots populares, tienen en común que sus LLM subyacentes son propietarios. Eso significa que son propiedad de una empresa y sólo pueden ser utilizados por los clientes tras comprar una licencia. Esa licencia viene acompañada de derechos, pero también de posibles restricciones sobre cómo utilizar la LLM, así como de información limitada sobre los mecanismos que hay detrás de la tecnología.

Sin embargo, un movimiento paralelo en el espacio de los LLM está ganando terreno rápidamente: los LLM de código abierto. Tras la creciente preocupación por la falta de transparencia y la limitada accesibilidad de los LLM privativos, controlados principalmente por las grandes tecnológicas, como Microsoft, Google y Meta, los LLM de código abierto prometen hacer más accesible, transparente e innovador el campo en rápido crecimiento de los LLM y la IA generativa.

Este artículo pretende explorar los mejores LLM de código abierto disponibles en 2023. Aunque sólo ha pasado un año desde el lanzamiento de ChatGPT y la popularización de los LLM (propietarios), la comunidad de código abierto ya ha logrado importantes hitos, con un buen número de LLM de código abierto disponibles para diferentes fines. ¡Sigue leyendo para ver los más populares!

Ventajas de utilizar LLM de código abierto

Elegir LLM de código abierto en lugar de LLM privativos tiene múltiples ventajas a corto y largo plazo. A continuación encontrarás una lista de las razones más convincentes:

Mayor seguridad y privacidad de los datos

Una de las mayores preocupaciones de utilizar LLM propietarios es el riesgo de filtración de datos o de acceso no autorizado a datos sensibles por parte del proveedor de LLM. De hecho, ya ha habido varias polémicas sobre el supuesto uso de datos personales y confidenciales con fines de formación.

Al utilizar LLM de código abierto, las empresas serán las únicas responsables de la protección de los datos personales, ya que mantendrán el control total de los mismos.

Ahorro de costes y reducción de la dependencia de proveedores

La mayoría de los LLM propietarios requieren una licencia para utilizarlos. A largo plazo, puede ser un gasto importante que algunas empresas, sobre todo las PYME, no pueden permitirse. Este no es el caso de los LLM de código abierto, ya que normalmente son de uso gratuito.

Sin embargo, es importante tener en cuenta que ejecutar LLM requiere recursos considerables, incluso sólo para la inferencia, lo que significa que normalmente tendrás que pagar por el uso de servicios en la nube o infraestructuras potentes.

Transparencia del código y personalización del modelo de lenguaje

Las empresas que opten por LLM de código abierto tendrán acceso al funcionamiento de los LLM, incluido su código fuente, arquitectura, datos de entrenamiento y mecanismo de entrenamiento e inferencia. Esta transparencia es el primer paso para el escrutinio, pero también para la personalización.

Como los LLM de código abierto son accesibles a todo el mundo, incluido su código fuente, las empresas que los utilizan pueden personalizarlos para sus casos de uso particulares.

Apoyo activo de la comunidad y fomento de la innovación

El movimiento de código abierto promete democratizar el uso y el acceso a las tecnologías LLM y de IA generativa. Permitir a los desarrolladores inspeccionar el funcionamiento interno de los LLM es clave para el futuro desarrollo de esta tecnología. Al reducir las barreras de entrada a los codificadores de todo el mundo, los LLM de código abierto pueden fomentar la innovación y mejorar los modelos reduciendo los sesgos y aumentando la precisión y el rendimiento general.

Abordar la huella medioambiental de la IA

Tras la popularización de las LLM, los investigadores y los defensores del medio ambiente están expresando su preocupación por la huella de carbono y el consumo de agua necesarios para hacer funcionar estas tecnologías. Los LLM propietarios rara vez publican información sobre los recursos necesarios para formar y hacer funcionar a los LLM, ni sobre la huella medioambiental asociada.

Con el LLM de código abierto, los investigadores tienen más posibilidades de conocer esta información, lo que puede abrir la puerta a nuevas mejoras destinadas a reducir la huella medioambiental de la IA.

Los 8 modelos principales de lenguaje de gran tamaño de código abierto para 2024

1. LLaMA 2

llama 2

La mayoría de los principales actores del espacio LLM han optado por construir su LLM a puerta cerrada. Pero Meta está tomando medidas para convertirse en una excepción. Con el lanzamiento de su potente modelo de lenguaje de gran tamaño de código abierto Meta AI (LLaMA) y su versión mejorada (LLaMA 2), Meta está enviando una señal significativa al mercado.

Realizado para investigación y uso comercial en julio de 2023, el LLaMA 2 es un modelo generativo de texto preentrenado con entre 7000 y 70 000 millones de parámetros. Se ha perfeccionado con el Aprendizaje por refuerzo a partir de la retroalimentación humana (Reinforcement learning from human feedback, RLHF). Es un modelo generativo de texto que puede utilizarse como chatbot y puede adaptarse a diversas tareas de generación de lenguaje natural, incluidas las de programación. Meta ya ha lanzado a versiones abiertas y personalizadas de LLaMA 2, Llama Chat y Code Llama.

Para saber más sobre el LLaMA, consulta nuestra Introducción al LLaMA de Meta AI y nuestro artículo Afinando el LLaMA 2.

2. FLOR

image6.png

Lanzado en 2022 tras un proyecto de colaboración de un año de duración con voluntarios de más de 70 países e investigadores de Hugging Face, BLOOM es un LLM autorregresivo entrenado para continuar texto a partir de un prompt sobre grandes cantidades de datos de texto utilizando recursos computacionales a escala industrial.

El lanzamiento de BLOOM marcó un hito importante en la democratización de la IA generativa. Con 176 000 millones de parámetros, BLOOM es uno de los LLM de código abierto más potentes, con capacidad para proporcionar textos coherentes y precisos en 46 lenguas y 13 lenguajes de programación.

La transparencia es la columna vertebral de BLOOM, un proyecto en el que todo el mundo puede acceder al código fuente y a los datos de entrenamiento para ejecutarlo, estudiarlo y mejorarlo.

BLOOM puede utilizarse gratuitamente a través del ecosistema Hugging Face.

3. BERT

image5.png

La tecnología subyacente del LLM es un tipo de arquitectura neuronal llamada transformador. Fue desarrollado en 2017 por investigadores de Google en el artículo Attention is All You Need. Uno de los primeros experimentos para probar el potencial de los transformadores fue el BERT.

Lanzado en 2018 por Google como LLM de código abierto, BERT (siglas de Bidirectional Encoder Representations from Transformers), alcanzó rápidamente un rendimiento puntero en muchas tareas de procesamiento del lenguaje natural.

Gracias a sus características innovadoras en los primeros tiempos de los LLM y a su naturaleza de código abierto, Bert es uno de los LLM más populares y utilizados. Por ejemplo, en 2020, Google anunció que había adoptado Bert a través de la Búsqueda de Google en más de 70 idiomas.

Actualmente existen miles de modelos Bert de código abierto, gratuitos y preentrenados para casos de uso específicos, como el análisis de sentimientos, el análisis de notas clínicas y la detección de comentarios tóxicos.

¿Te interesan las posibilidades del BERT? Consulta nuestro artículo Introducción al BERT.

4. Falcon 180B

image2.png

Si el Falcon 40B ya impresionó a la comunidad de LLM de código abierto (ocupó el n.º 1 en la clasificación de Hugging Face de modelos de lenguaje de gran tamaño de código abierto), el nuevo Falcon 180B sugiere que la brecha entre los LLM propietarios y los de código abierto se está cerrando rápidamente.

Lanzado por el Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos en septiembre de 2023, el Falcon 180B se entrena con 180 000 millones de parámetros y 3,5 billones de tokens. Con esta impresionante potencia de cálculo, el Falcon 180B ya ha superado al LLaMA 2 y al GPT-3.5 en varias tareas de PLN, y Hugging Face sugiere que puede rivalizar con el PaLM 2 de Google, el LLM que impulsa Google Bard.

Aunque es gratuito para uso comercial y de investigación, es importante tener en cuenta que el Falcon 180B requiere importantes recursos informáticos para funcionar.

5. OPT-175B

image9.png

La publicación de los Modelos de Lenguaje de Transformadores Preentrenados Abiertos (OPT) en 2022 marcó otro hito importante en la estrategia de Meta de liberar la carrera de los LLM mediante el código abierto.

OPT comprende un conjunto de transformadores preentrenados sólo para descodificador que van de 125M a 175B parámetros. El OPT-175B, uno de los LLM de código abierto más avanzados del mercado, es el hermano más potente, con un rendimiento similar al GPT-3. Tanto los modelos preentrenados como el código fuente están a disposición del público.

Sin embargo, si estás pensando en desarrollar una empresa basada en IA con LLM, será mejor que pienses en otra, ya que OPT-175B se libera bajo una licencia no comercial, que sólo permite el uso del modelo para casos de uso en investigación.

6. XGen-7B

image8.png

Cada vez más empresas se lanzan a la carrera de los LLM. Uno de los últimos en saltar al ruedo fue Salesforce, que lanzó su LLM XGen-7B en julio de 2023.

Según los autores, la mayoría de los LLM de código abierto se centran en proporcionar grandes respuestas con información limitada (es decir, preguntas cortas con poco contexto). La idea de XGen-7B es construir una herramienta que admita ventanas contextuales más largas. En concreto, la variante más avanzada de XGen (XGen-7B-8K-base) permite una ventana de contexto de 8K, es decir, el tamaño acumulativo del texto de entrada y de salida.

La eficiencia es otra prioridad importante en XGen, que sólo utiliza 7B parámetros para el entrenamiento, mucho menos que los LLM de código abierto más potentes, como LLaMA 2 o Falcon.

A pesar de su tamaño relativamente pequeño, XGen puede ofrecer grandes resultados. El modelo está disponible para fines comerciales y de investigación, excepto la varianteXGen-7B-{4K,8K}-inst, que se ha entrenado con datos de instrucción y RLHF y se publica con una licencia no comercial.

7. GPT-NeoX y GPT-J

image1.png

Desarrollados por investigadores de EleutherAI, un laboratorio de investigación de IA sin ánimo de lucro, GPT-NeoX y GPT-J son dos estupendas alternativas de código abierto a GPT.

GPT-NeoX tiene 20 000 millones de parámetros, mientras que GPT-J tiene 6000 millones de parámetros. Aunque la mayoría de los LLM avanzados se pueden entrenar con más de 100.000 millones de parámetros, estos dos LLM aún pueden ofrecer resultados con una gran precisión.

Se han entrenado con 22 conjuntos de datos de alta calidad procedentes de un conjunto diverso de fuentes que permiten su uso en múltiples dominios y muchos casos de uso. A diferencia de GPT-3, GPT-NeoX y GPT-J no se han entrenado con RLHF.

Cualquier tarea de procesamiento del lenguaje natural puede realizarse con GPT-NeoX y GPT-J, desde la generación de textos y el análisis de sentimientos hasta la investigación y el desarrollo de campañas de marketing.

Ambos LLM están disponibles gratuitamente a través de la API de NLP Cloud.

8. Vicuna 13-B

image3.jpg

Vicuna-13B es un modelo conversacional de código abierto entrenado a partir del ajuste fino del modelo LLaMa 13B utilizando conversaciones compartidas por usuarios recogidas de ShareGPT.

Como chatbot inteligente, las aplicaciones de Vicuna-13B son innumerables, y a continuación se ilustran algunas de ellas en distintos sectores, como atención al cliente, sanidad, educación, finanzas y viajes/hostelería.

Una evaluación preliminar utilizando GPT-4 como juez mostró que Vicuna-13B lograba más del 90 % de la calidad de ChatGPT y Google Bard, y luego superaba a otros modelos como LLaMa y Alpaca en más del 90 % de los casos.

Elegir el LLM de código abierto adecuado a tus necesidades

El espacio LLM de código abierto se está expandiendo rápidamente. En la actualidad, hay muchos más LLM de código abierto que propietarios, y es posible que pronto se reduzca la diferencia de rendimiento, ya que desarrolladores de todo el mundo colaboran para actualizar los LLM actuales y diseñar otros más optimizados.

En este contexto vibrante y apasionante, puede resultar difícil elegir el LLM de código abierto adecuado para tus propósitos. Aquí tienes una lista de algunos de los factores en los que deberías pensar antes de optar por un LLM específico de código abierto:

  • ¿Qué quieres hacer? Esto es lo primero que tienes que preguntarte. Los LLM de código abierto son siempre abiertos, pero algunos sólo se publican con fines de investigación. Por tanto, si estás pensando en crear una empresa, ten en cuenta las posibles limitaciones de las licencias.
  • ¿Por qué necesitas un LLM? Esto también es muy importante. Los LLM están actualmente de moda. Todo el mundo habla de ellos y de sus infinitas oportunidades. Pero si puedes construir tu idea sin necesidad de LLMs, entonces no los utilices. No es obligatorio (y probablemente ahorrarás mucho dinero y evitarás un mayor uso de recursos).
  • ¿Cuánta precisión necesitas? Este es un aspecto importante. Existe una relación directa entre el tamaño y la precisión de los LLM de última generación. Esto significa, en general, que cuanto mayor sea el LLM en términos de parámetros y datos de entrenamiento, más preciso será el modelo. Por tanto, si necesitas una gran precisión, debes optar por LLM más grandes, como LLaMA o Falcon.
  • ¿Cuánto dinero quieres invertir? Esto está estrechamente relacionado con la pregunta anterior. Cuanto mayor sea el modelo, más recursos se necesitarán para entrenarlo y hacerlo funcionar. Esto se traduce en una infraestructura adicional a utilizar o en una factura más elevada de los proveedores de la nube en caso de que quieras operar tu LLM en la nube. Los LLM son herramientas potentes, pero requieren recursos considerables para utilizarlos, incluso los de código abierto.
  • ¿Puedes alcanzar tus objetivos con un modelo preentrenado? ¿Por qué invertir dinero y energía en entrenar tu LLM desde cero si puedes utilizar simplemente un modelo preentrenado? Ahí fuera hay muchas versiones de LLM de código abierto entrenadas para un caso de uso específico. Si tu idea encaja en uno de estos casos de uso, hazlo.

Conclusión

Los LLM de código abierto están en un movimiento apasionante. Con su rápida evolución, parece que el espacio de la IA generativa no estará necesariamente monopolizado por los grandes actores que pueden permitirse construir y utilizar estas potentes herramientas.

Sólo hemos visto ocho LLM de código abierto, pero el número es mucho mayor y crece rápidamente. En DataCamp seguiremos informando sobre las últimas novedades en el espacio de los LLM, proporcionando cursos, artículos y tutoriales sobre los LLM. De momento, consulta nuestra lista de materiales seleccionados:

Temas

¡Comienza hoy tu viaje a la IA!

Course

Generative AI Concepts

2 hr
22K
Discover how to begin responsibly leveraging generative AI. Learn how generative AI models are developed and how they will impact society moving forward.
See DetailsRight Arrow
Start Course
Ver másRight Arrow
Relacionado

¿Qué es un algoritmo?

Aprende algoritmos y su importancia en el machine learning. Comprende cómo los algoritmos resuelven problemas y realizan tareas con pasos bien definidos.
DataCamp Team's photo

DataCamp Team

11 min

¿Qué es la IA estrecha?

La IA estrecha se refiere a los sistemas de inteligencia artificial que están diseñados para realizar tareas específicas y operar bajo restricciones limitadas.
Abid Ali Awan's photo

Abid Ali Awan

7 min

7 proyectos de IA para todos los niveles

Desarrolla tu portafolio y mejora tus habilidades para crear soluciones innovadoras a problemas complejos trabajando en proyectos de IA.
Abid Ali Awan's photo

Abid Ali Awan

8 min

¿Qué es el sesgo algorítmico?

El sesgo algorítmico da lugar a resultados injustos debido a datos de entrada sesgados o limitados, algoritmos injustos o prácticas excluyentes durante el desarrollo de la IA.
Abid Ali Awan's photo

Abid Ali Awan

5 min

See MoreSee More