Saltar al contenido principal

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.
16 feb 2024  · 9 min de lectura

Una IA aviar sale de su jaula

GPT-4 es la IA generativa más avanzada desarrollada por OpenAI. Está cambiando el panorama de cómo trabajamos. Sin embargo, GPT-4 no es de código abierto, lo que significa que no tenemos acceso al código, la arquitectura del modelo, los datos o los pesos del modelo para reproducir los resultados. No podemos crear nuestro propio GPT-4 como un chatbot. 

Para equilibrar la balanza, las comunidades de código abierto han empezado a trabajar en alternativas a GPT-4 que ofrecen un rendimiento y una funcionalidad similares y requieren menos recursos informáticos.

Puedes aprender sobre GPT-1, GPT-2, GPT-3 y GPT-4 revisando: ¿Qué es GPT-4 y por qué es importante?, o puedes aprender a utilizar ChatGPT para proyectos de ciencia de datos y dominar la ingeniería de prompts para mejorar en la construcción de proyectos de ciencia de datos de principio a fin. 

En el artículo, presentaremos 12 alternativas a GPT-4 con una breve descripción y enlaces al artículo científico pertinente, a la entrada del blog, a la demo del chatbot, al código fuente y a la tarjeta modelo. 

Nota: Algunos de los modelos mencionados tienen una licencia no comercial, que restringe su uso exclusivamente a fines académicos y de investigación. Debes comprender estas limitaciones antes de utilizarlos.

1. ColossalChat

ColossalChat es un proyecto de código abierto que te permite clonar modelos de IA utilizando un pipeline completo de RLHF (aprendizaje por refuerzo a partir de la retroalimentación humana). 

Es un proyecto completamente de código abierto que incluye el conjunto de datos bilingües, el código de entrenamiento, la demo y la inferencia cuantificada de 4 bits. Todos los componentes te ayudarán a crear un chatbot personalizado más barato y más rápido.

image10.png

Imagen de ColossalChat

2. Alpaca-LoRA

Alpaca-LoRA es un modelo creado utilizando Stanford Alpaca y adaptación de bajo rango (LoRA). La adopción del bajo rango nos permite ejecutar un modelo Instruct de calidad similar a GPT-3.5 en Raspberry Pi 4 de 4 GB de RAM. 

El proyecto proporciona código fuente, ejemplos de ajuste, código de inferencia, pesos del modelo, conjunto de datos y demo. Lo mejor es que podemos entrenar nuestro modelo en unas pocas horas con una sola RTX 4090.

image2.png

Imagen de Alpaca-LoRA

3. Vicuna

Vicuna puede generar textos coherentes y creativos para los chatbots. Se trata de una arquitectura basada en transformadores que se afinó en un conjunto de datos conversacionales recogidos de ShareGPT.com.

Vicuna proporciona casi el 90 % del rendimiento de ChatGPT. Forma parte de FastChat, una plataforma abierta que permite a los usuarios entrenar, servir y evaluar sus chatbots. FastChat proporciona todos los componentes y herramientas necesarios para construir un modelo de chatbot personalizado.

image14.png

Imagen de FastChat (lmsys.org)

4. GPT4ALL

GPT4ALL es un chatbot desarrollado por el equipo de IA de Nomic sobre datos masivos curados de interacción asistida como problemas verbales, código, historias, representaciones y diálogo multiturno. La arquitectura del modelo se basa en LLaMa, y utiliza aceleradores de machine learning de baja latencia para una inferencia más rápida en la CPU.

Con GPT4ALL, tienes un cliente Python, interferencia de GPU y CPU, enlaces Typescript, una interfaz de chat y un back-end Langchain.

image3.png

Imagen de gpt4all-ui

5. Raven RWKV

Raven RWKV forma parte de ChatRWKV, que es un modelo de código abierto como ChatGPT, pero impulsado por el modelo de lenguaje RWKV (100 % RNN), no basado en transformadores.

Al utilizar RNN, el modelo alcanza niveles de calidad y escalabilidad comparables a los de los transformadores, con las ventajas añadidas de una mayor velocidad de procesamiento y conservación de la VRAM. Raven se afinó para seguir instrucciones, y se afinó en Stanford Alpaca, code-alpaca y más conjuntos de datos. 

image6.png

Imagen de Raven RWKV 7B

6. OpenChatKit

OpenChatKit es un completo conjunto de herramientas que ofrece una alternativa de código abierto a ChatGPT para desarrollar la aplicación de chatbot. 

El conjunto de herramientas incluye instrucciones paso a paso para entrenar tu propio gran modelo de lenguaje ajustado a las instrucciones y afinar el modelo y un sistema de recuperación extensible para actualizar las respuestas del bot. Además, incluye funciones de moderación que pueden ayudar a filtrar las preguntas inapropiadas.

image11.png

Imagen de OpenChatKit

7. OPT

Los modelos lingüísticos OPT (Open Pre-trained Transformer) han demostrado notables capacidades en el aprendizaje con cero muestras de entrenamiento y pocas muestras de entrenamiento, así como en el análisis de sesgos estereotipados, a pesar de no igualar la calidad de ChatGPT. 

OPT es una familia de grandes modelos lingüísticos que van de 125 millones a 175 000 millones de parámetros. Los modelos son transformadores solo decodificadores, lo que significa que generan texto autorregresivo de izquierda a derecha.

image4.png

Imagen de Una filigrana para los LLM

8. Flan-T5-XXL

Flan-T5-XXL eran modelos T5 afinados que se han entrenado con una amplia colección de conjuntos de datos presentados en forma de instrucciones. Este tipo de ajuste fino ha mejorado significativamente el rendimiento en diversas clases de modelos, como PaLM, T5 y U-PaLM. Además, el modelo Flan-T5-XXL se afinó en más de 1000 tareas adicionales que abarcaban varios lenguajes. 

image1.png

Imagen de Chat Llm Streaming

9. Baize

Baize muestra un rendimiento impresionante en los diálogos multiturno gracias a sus guardrails que ayudan a mitigar los riesgos potenciales. Lo ha conseguido mediante un corpus de chat multiturno de alta calidad, que se desarrolló aprovechando ChatGPT para facilitar conversaciones consigo mismo.

El código fuente, el modelo y el conjunto de datos de Baize se publican bajo una licencia no comercial (con fines de investigación). 

image7.pngImagen de Baize 7B

10. Koala

Koala es un chatbot entrenado ajustando LLaMa con un conjunto de datos de diálogo extraídos de Internet. Koala se ha comportado mejor que Alpaca y es similar a ChatGPT en muchos casos. 

Koala proporciona código de entrenamiento, pesos públicos y sintonizador fino de diálogo, y fue evaluado por 100 humanos.  

image8.png

Imagen de FastChat/Koala

11. Dolly

Dolly es un gran modelo de lenguaje que fue entrenado por la máquina Databricks para demostrar que podemos utilizar el antiguo modo de lenguaje de código abierto y darle la capacidad mágica de seguir instrucciones de ChatGPT. El entrenamiento del modelo requiere 30 minutos en una máquina, utilizando datos de entrenamiento de alta calidad. Ni siquiera necesitas grandes modelos para conseguir una alta calidad. El equipo ha utilizado el modelo de 6000 millones de parámetros, frente a los 175 000 millones de GPT-3.

Echa un vistazo a Dolly 2.0, un modelo de lenguaje que sigue instrucciones y que puede utilizarse comercialmente.

image12.png

Imagen de Hello Dolly

12. Open Assistant

Open Assistant es un verdadero proyecto de código abierto, lo que significa dar acceso a todo el mundo a los mejores modelos lingüísticos de gran tamaño basados en chat. Su objetivo es crear una revolución en la innovación del lenguaje permitiendo a las personas interactuar con sistemas de terceros, recuperar información de forma dinámica y crear nuevas aplicaciones utilizando el lenguaje. 

Puedes ejecutar el gran chatbot lingüístico en una sola GPU de consumo de gama alta, y su código, sus modelos y sus datos tienen licencia de código abierto.

image5.png

Imagen de open-assistant.io

Conclusión

Estas alternativas a GPT-4 pueden ayudar a investigadores, desarrolladores y pequeñas empresas a crear su tecnología basada en el lenguaje y competir con los gigantes del sector. El rendimiento de los modelos no está por encima de GPT-4, pero con el tiempo y la contribución de la comunidad, algunos podrían tener potencial para superar a GPT-4.

Si eres nuevo en ChatGPT, prueba a seguir nuestro curso Introducción a ChatGPT, y si conoces la IA generativa, puedes mejorar en los prompts revisando la completa Hoja de trucos de ChatGPT para la ciencia de datos, o consultando los recursos que aparecen a continuación.

Temas
Relacionado

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.
Abid Ali Awan's photo

Abid Ali Awan

9 min

An AI juggles tasks

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.
Abid Ali Awan's photo

Abid Ali Awan

10 min

blog

Todo lo que sabemos sobre GPT-5

Predecir cómo podría ser la próxima evolución de la tecnología de IA de OpenAI y qué avances podría tener el modelo GPT-5.
Josep Ferrer's photo

Josep Ferrer

10 min

tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.
Moez Ali's photo

Moez Ali

11 min

tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

8 min

Ver másVer más