Pular para o conteúdo principal

10 maneiras de acessar o GPT-OSS 120B de graça

Executando o GPT-OSS 120B localmente, acessando-o em um navegador usando os aplicativos de chat gratuitos, experimentando provedores de inferência LLM rápidos e gratuitos e explorando um mercado LLM para obter o melhor e mais rápido acesso ao modelo.
Atualizado 9 de ago. de 2025  · 8 min lido

A OpenAI lançou recentemente modelos de peso aberto feitos pra raciocínio poderoso, tarefas de agência e casos de uso versáteis pra desenvolvedores. Esses modelos vêm em duas versões: gpt-oss-120b e gpt-oss-20b. O modelo menor pode ser rodado localmente em GPUs de consumo, enquanto rodarum gpt-oss-120b em precisa de 80 GB de VRAM e uma configuração de computação mais robusta, que muitos usuários podem não ter.

Pra ajudar, eu fiz uma lista de maneiras fáceis e de graça pra acessar o modelo maior. Você pode rodar o modelo localmente usando Ollama, Transformers ou a estrutura vLLM. Também tem aplicativos de chat grátis onde você pode testar o modelo, além de vários provedores de inferência de modelo de linguagem grande (LLM) rápidos e grátis que você pode experimentar. Além disso, você pode visitar o marketplace LLM para encontrar as melhores opções para o seu caso. Dá uma olhada no nosso guia separado sobre como configurar e executar o GPT-OSS localmente com o Ollama.

Código aberto

O OpenAI GPT-OSS é uma série de modelos de peso aberto que permite que os usuários baixem e executem em qualquer sistema. Você também pode usá-lo localmente para criar aplicativos e projetos. Esse modelo está disponível tanto para uso comercial quanto para uso em código aberto.

Nesta parte, vamos aprender a rodar o modelo grande GPT-OSS-120B em hardware de consumo. 

1. Ollama 

Com o Ollama, você não precisa necessariamente de uma GPU; você pode rodar o modelo inteiramente na sua CPU e RAM. Mas, a geração de tokens vai ser bem mais lenta sem a aceleração da GPU. 

Se você tem várias GPUs, pode passar algumas camadas do modelo para a GPU, o que vai melhorar bastante a velocidade de geração. Isso precisa de um pouco de conhecimento técnico e configuração pra funcionar direitinho.

Modelo GPT-OSS no Ollama

Fonte: gpt-oss

Pra começar, instala o Ollama no Linux.  

curl -fsSL https://ollama.com/install.sh | sh  

Depois, dá um clique no seguinte comando pra baixar e rodar o gpt-oss-120b .

ollama run gpt-oss:120b

É simples assim.

2. Transformadores

Com a biblioteca Transformers, você pode baixar e carregar o modelo, fazer inferências, ajustar o modelo e integrá-lo direto no seu aplicativo.

Para modelos com 120 bilhões de parâmetros, você vai precisar dividir o modelo em várias GPUs. Além disso, talvez você precise usar quantização de 8 bits ou 4 bits para ajustar o modelo à memória. 

Se a sua VRAM ainda não for suficiente, você pode transferir algumas camadas para a CPU. Esse processo precisa de mais experiência e conhecimento técnico, mas se você já sabe o que fazer, dá pra fazer.

Repositório do modelo gpt-oss-120b no Hugging Face.

Fonte: openai/gpt-oss-120b

Instale os pacotes necessários:

pip install -U transformers kernels torch

Aqui vai um exemplo de como usar: Crie o pipeline de geração de texto, forneça um prompt e execute o pipeline para gerar uma resposta.

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-120b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "What is the best DataCamp course to learn AI?"},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

3. vLLM

O vLLM é um mecanismo de inferência de alto desempenho feito especialmente para gerar textos rápido e com um monte de dados, o que o torna perfeito para usar em produção. 

Ele pode ser usado de várias maneiras: no seu servidor local para desenvolvimento e testes, em uma nuvem privada para uso interno da empresa ou em pequenas empresas e startups que querem mais controle e privacidade dos dados sem depender de APIs externas.

Guia de uso do vLLM para modelos gpt-oss.

Fonte: GPT OSS - Receitas vLLM

Use o uv pip pra instalar os pacotes Python mais rápido. 

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

Execute o seguinte comando no seu terminal para baixar o modelo e iniciar o servidor vLLM:

vllm serve openai/gpt-oss-120b

Depois de rodar, o vLLM vai começar um servidor API local (padrão: http://localhost:8000) que você pode consultar por meio de solicitações HTTP e integrar diretamente nas suas aplicações.

Aplicativos de bate-papo

Os aplicativos de chat com IA permitem que você experimente diferentes modelos sem precisar configurar nada. É só acessar o site e se cadastrar. Você pode aproveitar os recursos oferecidos por esses aplicativos.

Nesta seção, vamos dar uma olhada no chat oficial e no aplicativo de chat T3, que oferecem acesso grátis aos novos modelos OpenAI GPT-OSS.

4. GPT-OSS.com

Gpt-oss é o site oficial onde você pode testar os dois modelos de código aberto da OpenAI. Ele foi criado em parceria com a Hugging Face, então você vai precisar entrar com sua conta da Hugging Face para desbloquear todos os recursos dos modelos.

praça de recreação oficial do gpt-oss

Fonte: Gpt-oss

O app é totalmente grátis e você pode trocar quantas mensagens quiser. Você pode experimentar diferentes níveis de raciocínio, alternar entre modos e até mesmo pedir para ele criar um aplicativo web completo do zero. É super rápido e não precisa de configuração.

5. Bate-papo T3

Tenho curtido muito o T3 Chat desde que descobri. Ele dá acesso rapidinho a modelos de código aberto e proprietários. Pense nisso como um aplicativo no estilo ChatGPT, mas para todos os tipos de modelos de IA, incluindo geração de imagens, modelos de linguagem visual e grandes modelos de linguagem.

No momento, o T3 Chat dá acesso grátis ao GPT-OSS 20B e ao GPT-OSS 120B. Tudo que você precisa fazer é se cadastrar e começar a curtir acesso total a todos os recursos desses modelos.

Interface do usuário do T3 Chat

Fonte: t3.chat 

E o melhor de tudo? A interface é super simples e intuitiva, e os resultados aparecem de um jeito bem legal.

Provedores de inferência LLM

Os provedores de inferência hospedam grandes modelos de linguagem em seus próprios servidores e oferecem aos usuários acesso por API ou pela web, permitindo que eles integrem esses modelos diretamente em seus aplicativos sem precisar rodar um servidor de inferência em sua própria infraestrutura. Isso facilita para os desenvolvedores usarem modelos poderosos sem se preocupar com implantação, dimensionamento ou manutenção.

Nesta seção, vamos ver alguns provedores de inferência super rápidos e de graça que você pode usar agora mesmo para acessar a variante 120B do modelo GPT-OSS.

6. Cerebras

A Cerebras é um dos provedores de inferência LLM mais rápidos do mundo, capaz de entregar até 1.400 tokens por segundo com solicitações simultâneas. Isso faz dele uma escolha excelente pra construir sistemas de IA em tempo real, onde a velocidade é super importante.

Mas tem umas coisinhas pra pensar:

  • Preços: Se você precisa de muitas solicitações, é melhor pegar um plano pago. O plano gratuito só dá acesso ao básico.
  • Precisão: Embora o Cerebras seja super rápido, a qualidade do resultado pode variar. Alguns provedores de inferência otimizam a velocidade em detrimento da precisão.

Parque infantil Cerebras

Fonte: cerebras.ai

O Cerebras não é compatível com o SDK da OpenAI, então você vai precisar instalar o SDK deles:

pip install --upgrade cerebras_cloud_sdk

Depois disso, crie o cliente usando a chave API, crie a função de conclusão do chat e, em seguida, gere a resposta como um fluxo.

import os
from cerebras.cloud.sdk import Cerebras

client = Cerebras(
    # This is the default and can be omitted
    api_key=os.environ.get("CEREBRAS_API_KEY")
)

stream = client.chat.completions.create(
    messages=[
        {
            "role": "system",
            "content": "Who was Leonardo Da Vinci?"
        }
    ],
    model="gpt-oss-120b",
    stream=True,
    max_completion_tokens=65536,
    temperature=1,
    top_p=1,
    reasoning_effort="high"
)

for chunk in stream:
  print(chunk.choices[0].delta.content or "", end="")

7. Groq

Sou super fã do Groq porque eles oferecem pontos finais de inferência rápidos e acessíveis para modelos populares de código aberto. Agora, você pode usar a versão 120B do GPT-OSS da OpenAI de graça, mas com um limite de solicitações.

Você pode experimentar o modelo diretamente no Groq Studio antes de integrá-lo às suas aplicações, facilitando a experimentação e o ajuste fino das suas solicitações.

Parque infantil Groq

Fonte: Groq

O Groq é compatível com OpenAI, o que significa que você pode usar o SDK Python da OpenAI para acessar os modelos deles. Mas, a Groq também tem seu próprio SDK otimizado, que é mais adequado para a infraestrutura deles, e é isso que vamos usar aqui.

Instale o SDK do Groq:

pip install groq

Crie o cliente Groq com a chave API e, em seguida, crie as conclusões do chat usando o nome do modelo e outros argumentos para transmitir a resposta.

from groq import Groq

client = Groq(
    api_key=os.environ.get("GROQ_API_KEY"),
)

completion = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[
      {
        "role": "user",
        "content": "What is the meaning of life?"
      }
    ],
    temperature=1,
    max_completion_tokens=8192,
    top_p=1,
    reasoning_effort="medium",
    stream=True,
    stop=None
)

for chunk in completion:
    print(chunk.choices[0].delta.content or "", end="")

8. Baseten

Baseten é uma plataforma poderosa de inferência e treinamento feita pra implantar, escalar e gerenciar modelos de IA com controle total. O melhor é que ele está no mesmo nível do Groq e do Cerebras em termos de velocidade de geração de tokens.

Quando você se inscreve, ganha US$ 5 de crédito de implantação e US$ 1 para acessar a API. Você pode usar esse dinheiro pra acessar os serviços da plataforma.

Parque infantil Baseten

Fonte: API do modelo | Baseten

O Baseten é compatível com o OpenAI e não tem seu próprio SDK, então vamos usar o SDK Python do OpenAI para acessar o endpoint do modelo. Para fazer isso, você precisa instalar o pacote Python OpenAI:

pip install openai

Depois, crie o cliente usando sua chave API e URL base. Depois disso, você pode criar conclusões de bate-papo especificando o nome do modelo e outros parâmetros. Por fim, você pode gerar respostas em fluxo contínuo.

from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("BASETEN_API_KEY"),
    base_url="https://inference.baseten.co/v1"
)

response = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[
        {
            "role": "user",
            "content": "Implement Hello World in Python"
        }
    ],
    stop=[],
    stream=True,
    stream_options={
        "include_usage": True,
        "continuous_usage_stats": True
    },
    top_p=1,
    max_tokens=1286,
    temperature=1,
    presence_penalty=0,
    frequency_penalty=0
)

for chunk in response:
    if chunk.choices and chunk.choices[0].delta.content is not None:
        print(chunk.choices[0].delta.content, end="", flush=True)

Mercado LLM

O mercado LLM permite que você acesse modelos de linguagem grandes, tanto de código aberto quanto fechado, em um só lugar. Todos os modelos de código aberto estão hospedados no OpenRouter, o que te permite usar uma API unificada sem se preocupar com custo, disponibilidade ou desempenho.

Nesta seção, vamos dar uma olhada em dois dos mercados LLM mais populares, o OpenRouter e o Requesty. As duas plataformas oferecem acesso grátis ao modelo GPT-OSS 12B.

9. OpenRouter

OpenRouter tem uma API unificada que te dá acesso a centenas de modelos de IA por meio de um único ponto de conexão. Ele cuida automaticamente dos fallbacks e escolhe as opções mais econômicas para suas solicitações.

Você pode experimentar diferentes modelos usando o LLM Playground, que permite testar e comparar resultados antes de integrá-los ao seu fluxo de trabalho.

Pesquisa de modelos OpenRouter de oss

Fonte: gpt-oss-120b

Integrar o OpenRouter é bem simples; basta acessar , mudar a URL base e colocar sua chave API. O resto da implementação continua igual à API OpenAI.

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key=os.getenv("OPENROUTER_API_KEY"),
)

completion = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[{"role": "user", "content": "What is the meaning of life?"}],
)
print(completion.choices[0].message.content)

10. Pedido

O Requesty é parecido com o OpenRouter, mas ele encaminha suas solicitações de forma inteligente por mais de 170 modelos de IA, incluindo o GPT-OSS 120B. Isso ajuda você a:

  • Reduza os custos da API
  • Evite ficar preso a um SDK
  • Acesse recursos avançados como cache automático, balanceamento de carga e políticas de fallback. 
  • Use uma interface simples que funciona com o OpenAI

Você pode ver os modelos no menu Chat, conferir o ranking, ver o painel de uso e adicionar integrações diretas.

Quando você se cadastra, ganha US$ 1 em créditos grátis, que dá pra experimentar até os modelos pagos.

Pesquisa de modelo Requesty de oss

Fonte: Pedido

Para integrar o Requesty, basta atualizar a URL base, a chave API e os cabeçalhos padrão no seu código OpenAI Python SDK.

Se você quiser usar um modelo grátis, certifique-se de escolher os que a Groq oferece.

import os
import openai

ROUTER_API_KEY = os.getenv("REQUESTY_API_KEY")

client = openai.OpenAI(
    api_key=ROUTER_API_KEY,
    base_url="https://router.requesty.ai/v1",
    default_headers={"Authorization": f"Bearer {ROUTER_API_KEY}"},
)

# Example request
response = client.chat.completions.create(
    model="groq/openai/gpt-oss-120b",
    messages=[{"role": "user", "content": "Hello, who are you?"}],
)

# Print the result
print(response.choices[0].message.content)

Conclusão 

Depois de muita espera, a OpenAI finalmente lançou um LLM de código aberto. Isso quer dizer que agora você pode ajustar tudo direitinho, rodar localmente e ter controle total sobre o que vai sair. Você está no comando; pode até criar produtos com base nisso sem precisar compartilhar seus dados com a OpenAI ou pagar pelo acesso à API.

Isso é um grande passo pra frente pra IA e, com o tempo, a gente vai ver modelos novos e melhores feitos com base nos modelos e estruturas de código aberto da OpenAI. Se você quer começar a experimentar agora, você pode:

  • Executar o GPT-OSS 120B localmente
  • Acesse no seu navegador usando aplicativos de chat grátis.
  • Experimente provedores de inferência LLM rápidos e grátis
  • Dá uma olhada nos mercados de LLM pra achar o melhor e mais rápido acesso aos modelos.

Se você está começando sua jornada com IA, não deixe de conferir nosso programa de habilidades Fundamentos da IA , que aborda tópicos como LLMs, ChatGPT, IA generativa, ética em IA e engenharia de prompts.


Abid Ali Awan's photo
Author
Abid Ali Awan
LinkedIn
Twitter

Sou um cientista de dados certificado que gosta de criar aplicativos de aprendizado de máquina e escrever blogs sobre ciência de dados. No momento, estou me concentrando na criação e edição de conteúdo e no trabalho com modelos de linguagem de grande porte.

Tópicos

Os melhores cursos de IA

Programa

Fundamentos de IA

0 min
Descubra os fundamentos da IA, mergulhe em modelos como o ChatGPT e decodifique os segredos da IA generativa para que você possa navegar no dinâmico cenário da IA.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado
An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

Os 10 melhores GPTs personalizados na GPT Store

Explore os melhores GPTs personalizados que vimos até agora na loja GPT, desde ferramentas de ciência de dados até assistentes de SEO e geração de imagens.
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

10 min

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

Tutorial

Como criar modelos personalizados do ChatGPT: 5 etapas fáceis para GPTs personalizados

Confira estas cinco etapas simples para liberar todo o potencial do ChatGPT com seus próprios GPTs personalizados.
Moez Ali's photo

Moez Ali

Tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.
Moez Ali's photo

Moez Ali

Tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.
Josep Ferrer's photo

Josep Ferrer

Ver maisVer mais