Ir al contenido principal

10 maneras de acceder gratis a GPT-OSS 120B

Ejecutar GPT-OSS 120B localmente, acceder a él en un navegador utilizando las aplicaciones de chat gratuitas, probar proveedores de inferencia LLM rápidos y gratuitos, y explorar un mercado LLM para acceder al mejor y más rápido modelo.
Actualizado 9 ago 2025  · 8 min de lectura

OpenAI ha lanzado recientemente modelos de peso abierto diseñados para un razonamiento potente, tareas agenticas y casos de uso versátiles para programadores. Estos modelos vienen en dos variantes: gpt-oss-120b y gpt-oss-20b. El modelo más pequeño se puede ejecutar localmente en GPU de consumo, mientras que para ejecutar gpt-oss-120b se necesitan 80 GB de VRAM y una configuración informática más robusta, que muchos usuarios pueden no tener.

Para ayudar, he recopilado una lista de formas fáciles y gratuitas de acceder al modelo más completo. Puedes ejecutar el modelo localmente utilizando Ollama, Transformers o el marco vLLM. También hay aplicaciones de chat gratuitas donde puedes probar el modelo, así como numerosos proveedores de inferencia de modelos de lenguaje grande (LLM) rápidos y gratuitos que puedes probar. Además, puedes visitar el mercado de LLM para encontrar las mejores opciones que se adapten a tu caso de uso. Consulta nuestra guía independiente sobre cómo configurar y ejecutar GPT-OSS localmente con Ollama.

Código abierto

OpenAI GPT-OSS es una serie de modelos de peso abierto que permite a los usuarios descargarlos y ejecutarlos en cualquier sistema. También puedes utilizarlo localmente para compilar aplicaciones y crear proyectos. Este modelo está disponible tanto para uso comercial como para uso de código abierto.

En esta parte, aprenderemos a ejecutar el gran modelo GPT-OSS-120B en hardware de consumo. 

1. Ollama 

Con Ollama, no necesitas necesariamente una GPU; puedes ejecutar el modelo íntegramente en tu CPU y RAM. Sin embargo, la generación de tokens será significativamente más lenta sin la aceleración de la GPU. 

Si tienes una configuración con varias GPU, puedes descargar algunas capas del modelo a la GPU, lo que mejorará considerablemente la velocidad de generación. Para configurarlo correctamente, se necesitan algunos conocimientos técnicos y realizar algunos ajustes.

Modelo GPT-OSS en Ollama

Fuente: gpt-oss

Para empezar, instala Ollama en Linux.  

curl -fsSL https://ollama.com/install.sh | sh  

A continuación, ejecuta el siguiente comando para descargar y ejecutar el gpt-oss-120b .

ollama run gpt-oss:120b

Así de sencillo.

2. Transformers

Con la biblioteca Transformers, puedes descargar y cargar el modelo, ejecutar la inferencia, ajustar el modelo e integrarlo directamente en tu aplicación.

Para modelos con 120 000 millones de parámetros, tendrás que implementar la fragmentación del modelo en varias GPU. Además, es posible que tengas que utilizar una cuantificación de 8 bits o 4 bits para que el modelo quepa en la memoria. 

Si tu VRAM sigue siendo insuficiente, puedes descargar algunas capas a la CPU. Este proceso requiere más experiencia y conocimientos técnicos, pero si estás familiarizado con los pasos necesarios, se puede llevar a cabo sin problemas.

Repositorio del modelo gpt-oss-120b en Hugging Face.

Fuente: openai/gpt-oss-120b

Instala los paquetes necesarios:

pip install -U transformers kernels torch

Aquí tienes un ejemplo de uso: Crea el canal de generación de texto, proporciónale un mensaje y, a continuación, ejecuta el canal para generar una respuesta.

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-120b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "What is the best DataCamp course to learn AI?"},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

3. vLLM

vLLM es un motor de inferencia de alto rendimiento diseñado específicamente para la generación rápida y de alto rendimiento de texto, lo que lo hace perfecto para implementaciones a nivel de producción. 

Se puede implementar de varias maneras: en tu servidor local para desarrollo y pruebas, en una nube privada para uso interno de la empresa, o en pequeñas empresas y startups que buscan un mayor control y privacidad de los datos sin depender de API externas.

Guía de uso de vLLM para modelos gpt-oss.

Fuente: GPT OSS - Recetas vLLM

Utiliza uv pip para instalar más rápidamente los paquetes de Python. 

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

Ejecuta el siguiente comando en tu terminal para descargar el modelo e iniciar el servidor vLLM:

vllm serve openai/gpt-oss-120b

Una vez en ejecución, vLLM iniciará un servidor API local (por defecto: http://localhost:8000) al que podrás enviar consultas mediante solicitudes HTTP e integrarlo directamente en tus aplicaciones.

Aplicaciones de chat

Las aplicaciones de chat con IA te permiten probar diferentes modelos sin necesidad de configuración. Todo lo que tienes que hacer es visitar la URL y registrarte. Puedes disfrutar de las funciones que ofrecen estas aplicaciones.

En esta sección, exploraremos el chat oficial y la aplicación de chat T3, que proporcionan acceso gratuito a los nuevos modelos OpenAI GPT-OSS.

4. GPT-OSS.com

Gpt-oss es el sitio web oficial donde puedes probar los dos modelos de código abierto de OpenAI. Se ha creado en colaboración con Hugging Face, por lo que tendrás que iniciar sesión con tu cuenta de Hugging Face para desbloquear todas las funciones de los modelos.

Área de pruebas oficial de gpt-oss

Fuente: Gpt-oss

La aplicación es totalmente gratuita y ofrece chats ilimitados. Puedes experimentar con diferentes niveles de razonamiento, cambiar entre modos e incluso pedirle que cree una aplicación web completa desde cero. Es muy rápido y no requiere configuración.

5. Chat T3

Me encanta T3 Chat desde que lo descubrí. Proporciona un acceso ultrarrápido tanto a modelos de código abierto como a modelos propietarios. Piensa en ello como una aplicación al estilo ChatGPT, pero para todo tipo de modelos de IA, incluyendo generación de imágenes, modelos de lenguaje visual y modelos de lenguaje de gran tamaño.

Actualmente, T3 Chat ofrece acceso gratuito tanto a GPT-OSS 20B como a GPT-OSS 120B. Todo lo que tienes que hacer es registrarte y empezar a disfrutar de acceso completo a estas modelos.

Interfaz de usuario de T3 Chat

Fuente: t3.chat 

¿Lo mejor? Su interfaz de usuario limpia e intuitiva y la forma en que se muestran los resultados generados.

Proveedores de inferencia LLM

Los proveedores de inferencia alojan grandes modelos de lenguaje en sus propios servidores y proporcionan a los usuarios acceso a través de API o web, lo que les permite integrar estos modelos directamente en sus aplicaciones sin tener que ejecutar un servidor de inferencia en su propia infraestructura. Esto facilita a los programadores el uso de potentes modelos sin preocuparse por la implementación, el escalado o el mantenimiento.

En esta sección, exploraremos algunos proveedores de inferencia súper rápidos y gratuitos que puedes utilizar ahora mismo para acceder a la variante 120B del modelo GPT-OSS.

6. Cerebras

Cerebras es uno de los proveedores de inferencia LLM más rápidos del mundo, capaz de entregar hasta 1400 tokens por segundo con solicitudes simultáneas. Esto lo convierte en una opción excelente para crear sistemas de IA en tiempo real en los que la velocidad es fundamental.

Sin embargo, hay algunas consideraciones que debes tener en cuenta:

  • Precios: Las altas tasas de solicitud requieren un plan de pago. El plan gratuito solo ofrece un uso básico.
  • Precisión: Aunque Cerebras es extremadamente rápido, la calidad de sus resultados puede variar. Algunos proveedores de inferencias optimizan la velocidad a costa de la precisión.

Parque infantil Cerebras

Fuente: cerebras.ai

Cerebras no es compatible con OpenAI SDK, por lo que tendrás que instalar su propio SDK:

pip install --upgrade cerebras_cloud_sdk

A continuación, crea el cliente utilizando la clave API, crea la función de finalización del chat y, a continuación, genera la respuesta como un flujo.

import os
from cerebras.cloud.sdk import Cerebras

client = Cerebras(
    # This is the default and can be omitted
    api_key=os.environ.get("CEREBRAS_API_KEY")
)

stream = client.chat.completions.create(
    messages=[
        {
            "role": "system",
            "content": "Who was Leonardo Da Vinci?"
        }
    ],
    model="gpt-oss-120b",
    stream=True,
    max_completion_tokens=65536,
    temperature=1,
    top_p=1,
    reasoning_effort="high"
)

for chunk in stream:
  print(chunk.choices[0].delta.content or "", end="")

7. Groq

Soy un gran admirador de Groq porque proporcionan puntos finales de inferencia rápidos y asequibles para modelos de código abierto populares. Actualmente, puedes acceder a la variante 120B del GPT-OSS de OpenAI de forma gratuita, aunque con una tasa de solicitud limitada.

Puedes probar el modelo directamente en Groq Studio antes de integrarlo en tus aplicaciones, lo que facilita la experimentación y el ajuste de tus indicaciones.

Parque infantil Groq

Fuente: Groq

Groq es compatible con OpenAI, lo que significa que puedes utilizar el SDK de Python de OpenAI para acceder a sus modelos. Sin embargo, Groq también ofrece su propio SDK optimizado, que está mejor adaptado a su infraestructura, y es el que utilizaremos aquí.

Instala el SDK de Groq:

pip install groq

Crea el cliente Groq con la clave API y, a continuación, crea las completaciones de chat utilizando el nombre del modelo y otros argumentos para transmitir la respuesta.

from groq import Groq

client = Groq(
    api_key=os.environ.get("GROQ_API_KEY"),
)

completion = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[
      {
        "role": "user",
        "content": "What is the meaning of life?"
      }
    ],
    temperature=1,
    max_completion_tokens=8192,
    top_p=1,
    reasoning_effort="medium",
    stream=True,
    stop=None
)

for chunk in completion:
    print(chunk.choices[0].delta.content or "", end="")

8. Baseten

Baseten es una potente plataforma de inferencia y entrenamiento diseñada para implementar, escalar y gestionar modelos de IA con control total. Lo mejor es que está a la altura de Groq y Cerebras en cuanto a velocidad de generación de tokens.

Al registrarte, recibirás 5 $ de crédito para implementación y 1 $ para acceso a la API. Puedes utilizar este dinero para acceder a los servicios de la plataforma.

Parque infantil Baseten

Fuente: API del modelo | Baseten

Baseten es compatible con OpenAI y no tiene su propio SDK, por lo que utilizaremos el SDK de Python de OpenAI para acceder al punto final del modelo. Para ello, debes instalar el paquete Python de OpenAI:

pip install openai

A continuación, crea el cliente utilizando tu clave API y la URL base. A continuación, puedes crear completaciones de chat especificando el nombre del modelo y otros parámetros. Por último, puedes generar respuestas en streaming.

from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("BASETEN_API_KEY"),
    base_url="https://inference.baseten.co/v1"
)

response = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[
        {
            "role": "user",
            "content": "Implement Hello World in Python"
        }
    ],
    stop=[],
    stream=True,
    stream_options={
        "include_usage": True,
        "continuous_usage_stats": True
    },
    top_p=1,
    max_tokens=1286,
    temperature=1,
    presence_penalty=0,
    frequency_penalty=0
)

for chunk in response:
    if chunk.choices and chunk.choices[0].delta.content is not None:
        print(chunk.choices[0].delta.content, end="", flush=True)

Mercado LLM

El mercado LLM te permite acceder a modelos de lenguaje de gran tamaño, tanto de código abierto como cerrado, en un solo lugar. Todos los modelos de código abierto están alojados en OpenRouter, lo que te permite utilizar una API unificada sin preocuparte por el coste, la disponibilidad o el rendimiento.

En esta sección, revisaremos dos de los mercados LLM más populares, OpenRouter y Requesty. Ambas plataformas ofrecen acceso gratuito al modelo GPT-OSS 12B.

9. OpenRouter

OpenRouter proporciona una API unificada que te permite acceder a cientos de modelos de IA a través de un único punto final. Gestiona automáticamente las alternativas y selecciona las opciones más rentables para tus solicitudes.

Puedes experimentar con diferentes modelos utilizando su LLM Playground, que te permite probar y comparar los resultados antes de integrarlos en tu flujo de trabajo.

Búsqueda de modelos OpenRouter de oss

Fuente: gpt-oss-120b

Integrar OpenRouter es muy sencillo; solo tienes que cambiar la URL base y proporcionar tu clave API. El resto de la implementación sigue siendo igual que con la API de OpenAI.

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key=os.getenv("OPENROUTER_API_KEY"),
)

completion = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[{"role": "user", "content": "What is the meaning of life?"}],
)
print(completion.choices[0].message.content)

10. Solicitud

Requesty es similar a OpenRouter, pero enruta de forma inteligente tus solicitudes a través de más de 170 modelos de IA, incluido GPT‑OSS 120B. Esto te ayuda a:

  • Reducir los costes de la API
  • Evita el bloqueo del SDK
  • Accede a funciones avanzadas como el almacenamiento en caché automático, el equilibrio de carga y las políticas de recuperación. 
  • Utiliza una interfaz sencilla compatible con OpenAI.

Puedes explorar modelos en el menú Chat, consultar la tabla de clasificación, ver tu panel de uso y añadir integraciones directas.

Al registrarte, recibirás 1 $ en créditos gratuitos, lo que te permitirá probar incluso los modelos de pago.

Búsqueda de modelos de oss

Fuente: Solicitud

Para integrar Requesty, simplemente actualiza la URL base, la clave API y los encabezados predeterminados en tu código SDK de Python de OpenAI.

Si deseas utilizar un modelo gratuito, asegúrate de seleccionar los proporcionados por Groq.

import os
import openai

ROUTER_API_KEY = os.getenv("REQUESTY_API_KEY")

client = openai.OpenAI(
    api_key=ROUTER_API_KEY,
    base_url="https://router.requesty.ai/v1",
    default_headers={"Authorization": f"Bearer {ROUTER_API_KEY}"},
)

# Example request
response = client.chat.completions.create(
    model="groq/openai/gpt-oss-120b",
    messages=[{"role": "user", "content": "Hello, who are you?"}],
)

# Print the result
print(response.choices[0].message.content)

Conclusión 

Tras una larga espera, OpenAI ha lanzado finalmente un LLM de código abierto. Esto significa que ahora puedes ajustarlo, ejecutarlo localmente y tener control total sobre la generación de resultados. Tú tienes el control; incluso puedes crear productos basados en él sin compartir tus datos con OpenAI ni pagar por el acceso a la API.

Este es un gran paso adelante para la IA y, con el tiempo, veremos nuevos y mejorados modelos basados en los modelos y marcos de código abierto de OpenAI. Si quieres empezar a experimentar ahora mismo, puedes:

  • Ejecuta GPT-OSS 120B localmente
  • Accede a él en tu navegador utilizando aplicaciones de chat gratuitas.
  • Prueba proveedores de inferencia LLM rápidos y gratuitos
  • Explora los mercados de LLM para acceder al mejor y más rápido modelo.

Si acabas de empezar tu andadura en el mundo de la IA, no te pierdas nuestro programa de habilidades Fundamentos de la IA , que cubre temas como los LLM, ChatGPT, la IA generativa, la ética de la IA y la ingeniería de prompts.


Abid Ali Awan's photo
Author
Abid Ali Awan
LinkedIn
Twitter

Soy un científico de datos certificado que disfruta creando aplicaciones de aprendizaje automático y escribiendo blogs sobre ciencia de datos. Actualmente me centro en la creación de contenidos, la edición y el trabajo con grandes modelos lingüísticos.

Temas

Los mejores cursos de IA

Programa

Fundamentos de la IA

0 min
Descubre los fundamentos de la IA, sumérgete en modelos como ChatGPT y descifra los secretos de la IA generativa para navegar por el dinámico panorama de la IA.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado
An avian AI exits its cage

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

10 maneras de utilizar ChatGPT para las finanzas

Descubre cómo los modelos lingüísticos de IA como ChatGPT pueden revolucionar tus operaciones financieras, desde la generación de informes hasta la traducción de jerga financiera.
Matt Crabtree's photo

Matt Crabtree

13 min

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.
Abid Ali Awan's photo

Abid Ali Awan

9 min

Tutorial

Cómo hacer modelos de ChatGPT personalizados: 5 sencillos pasos para conseguir GPT personalizados

Echa un vistazo a estos cinco sencillos pasos para liberar todo el potencial de ChatGPT con tus propios GPT personalizados.
Moez Ali's photo

Moez Ali

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.
Arunn Thevapalan's photo

Arunn Thevapalan

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.
Moez Ali's photo

Moez Ali

Ver másVer más