Pular para o conteúdo principal

Como configurar e executar o Qwen 3 localmente com o Ollama

Saiba como instalar, configurar e executar o Qwen3 localmente com o Ollama e criar um aplicativo simples baseado no Gradio.
Atualizado 30 de abr. de 2025  · 12 min lido

O Qwen3 é a última geração de modelos de linguagem de grande porte de peso aberto da Alibaba. Com suporte para mais de 100 idiomas e excelente desempenho em tarefas de raciocínio, codificação e tradução, o Qwen3 rivaliza com muitos modelos de primeira linha disponíveis atualmente, incluindo DeepSeek-R1, o3-mini e Gemini 2.5.

Neste tutorial, explicarei passo a passo como executar o Qwen3 localmente usando o Ollama.

Também criaremos um aplicativo local leve com o Qwen 3. O aplicativo permitirá que você alterne entre os modos de raciocínio do Qwen3 e traduza entre diferentes idiomas.

Mantemos nossos leitores atualizados sobre as últimas novidades em IA enviando o The Median, nosso boletim informativo gratuito de sexta-feira que detalha as principais histórias da semana. Inscreva-se e fique atento em apenas alguns minutos por semana:

Por que executar o Qwen3 localmente?

A execução do Qwen3 localmente oferece vários benefícios importantes:

  • Privacidade: Seus dados nunca saem de sua máquina.
  • Latência: A inferência local é mais rápida sem as viagens de ida e volta da API.
  • Eficiência de custo: Você não precisa pagar taxas simbólicas ou contas na nuvem.
  • Controle: Você pode ajustar os prompts, escolher modelos e configurar modos de raciocínio.
  • Acesso off-line: Você pode trabalhar sem uma conexão com a Internet depois de fazer o download do modelo.

O Qwen3 é otimizado para raciocínio profundo (modo de raciocínio) e respostas rápidas (modo de não raciocínio), e suporta mais de 100 idiomas. Vamos configurá-lo localmente.

Configurando o Qwen3 localmente com o Ollama

O Ollama é uma ferramenta que permite que você execute modelos de linguagem como o Llama ou o Qwen localmente em seu computador com uma interface de linha de comando simples.

Etapa 1: Instalar Ollama

Faça o download do Ollama para macOS, Windows ou Linux em: https://ollama.com/download.

Siga as instruções do instalador e, após a instalação, verifique executando isso no terminal:

ollama --version

Etapa 2: Faça o download e execute o Qwen3

A Ollama oferece uma gama crescente de modelos Qwen3 projetados para atender a uma variedade de configurações de hardware, desde laptops leves até servidores de ponta.

ollama run qwen3

A execução do comando acima iniciará o modelo padrão do Qwen3 no Ollama, que atualmente tem como padrão o endereço qwen3:8b. Se você estiver trabalhando com recursos limitados ou quiser tempos de inicialização mais rápidos, poderá executar explicitamente variantes menores, como o modelo 4B:

ollama run qwen3:4b

Atualmente, o Qwen3 está disponível em diversas variantes, desde o menor modelo de parâmetros de 0,6 b (523 MB) até o maior de 235 b (142 GB). Essas variantes menores oferecem um desempenho impressionante para raciocínio, tradução e geração de código, especialmente quando usadas no modo de raciocínio.

Os modelos MoE (30b-a3b, 235b-a22b) são particularmente interessantes, pois ativam apenas um subconjunto de especialistas por etapa de inferência, o que permite uma contagem maciça de parâmetros totais e, ao mesmo tempo, mantém os custos de tempo de execução eficientes.

Em geral, use o maior modelo que seu hardware puder suportar e volte para os modelos 8B ou 4B para experimentos locais responsivos em máquinas de consumo.

Aqui está uma rápida recapitulação de todos os modelos Qwen3 que você pode executar:

Modelo

Comando Ollama

Melhor para

Qwen3-0.6B

ollama run qwen3:0.6b

Tarefas leves, aplicativos móveis e dispositivos de borda

Qwen3-1.7B

ollama run qwen3:1.7b

Chatbots, assistentes e aplicativos de baixa latência

Qwen3-4B

ollama run qwen3:4b

Tarefas de uso geral com desempenho e uso de recursos equilibrados

Qwen3-8B

ollama run qwen3:8b

Suporte multilíngue e recursos de raciocínio moderados

Qwen3-14B

ollama run qwen3:14b

Raciocínio avançado, criação de conteúdo e solução de problemas complexos

Qwen3-32B

ollama run qwen3:32b

Tarefas de alto nível que requerem raciocínio sólido e manipulação extensiva do contexto

Qwen3-30B-A3B (MoE)

ollama run qwen3:30b-a3b

Desempenho eficiente com parâmetros ativos 3B, adequado para tarefas de codificação

Qwen3-235B-A22B (MoE)

ollama run qwen3:235b-a22b

Aplicativos em grande escala, raciocínio profundo e soluções de nível empresarial

Etapa 3: Execute o Qwen3 em segundo plano (opcional)

Para servir o modelo via API, execute este comando no terminal:

ollama serve

Isso tornará o modelo disponível para integração com outros aplicativos em http://localhost:11434.

Usando o Qwen3 localmente

Nesta seção, mostrarei várias maneiras de usar o Qwen3 localmente, desde a interação básica com a CLI até a integração do modelo com o Python.

Opção 1: Execução de inferência via CLI

Depois que o modelo for baixado, você poderá interagir com o Qwen3 diretamente no terminal. Execute o seguinte comando em seu terminal:

echo "What is the capital of Brazil? /think" | ollama run qwen3:8b

Isso é útil para testes rápidos ou interação leve sem que você precise escrever nenhum código. A tag /think no final do prompt instrui o modelo a se envolver em um raciocínio mais profundo, passo a passo. Você pode substituí-lo por /no_think para obter uma resposta mais rápida e superficial ou omiti-lo totalmente para usar o modo de raciocínio padrão do modelo.

Executando o qwen 3 localmente com o ollama (inferência)

Opção 2: Acesso ao Qwen3 via API

Quando o ollama serve estiver em execução em segundo plano, você poderá interagir com o Qwen3 programaticamente usando uma API HTTP, o que é perfeito para integração de back-end, automação ou teste de clientes REST.

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3:8b",
  "messages": [{ "role": "user", "content": "Define entropy in physics. /think" }],
  "stream": false
}'

Veja como isso funciona:

  • curl Você faz uma solicitação POST (como chamamos a API) para o servidor Ollama local em execução em localhost:11434.
  • A carga útil é um objeto JSON com:
    • "model": Especifica o modelo a ser usado (aqui é: qwen3:8b).
    • "messages": Uma lista de mensagens de bate-papo contendo role e content.
    • "stream": false: Garante que a resposta seja retornada de uma só vez, e não token por token.

Acessando o Qwen3 localmente via API

Opção 3: Acessando o Qwen3 via Python

Se você estiver trabalhando em um ambiente Python (como Jupyter, VSCode ou um script), a maneira mais fácil de interagir com o Qwen3 é por meio do Ollama Python SDK. Comece instalando o ollama:

pip install ollama

Em seguida, execute seu modelo Qwen3 com este script (estamos usando qwen3:8b abaixo):

import ollama
response = ollama.chat(
    model="qwen3:8b",
    messages=[
        {"role": "user", "content": "Summarize the theory of evolution. /think"}
    ]
)
print(response["message"]["content"])

No código acima: 

  • ollama.chat(...) envia uma solicitação no estilo de bate-papo para o servidor Ollama local.
  • Você especifica o modelo (qwen3:8b) e uma lista de mensagens em um formato semelhante à API da OpenAI.
  • A tag /think informa ao modelo que você deve raciocinar passo a passo.
  • Por fim, a resposta é retornada como um dicionário, e você pode acessar a resposta do modelo usando ["message"]["content"].

Essa abordagem é ideal para experimentação local, prototipagem ou criação de aplicativos apoiados pelo LLM sem depender de APIs de nuvem.

Acessando o Qwen3 localmente via Python

Criando um aplicativo de raciocínio local com o Qwen3

O Qwen3 oferece suporte ao comportamento de inferência híbrida usando as tags /think (raciocínio profundo) e /no_think (resposta rápida). Nesta seção, usaremos o Gradio para criar um aplicativo da Web local interativo com duas guias separadas:

  1. Uma interface de raciocínio para alternar entre os modos de pensamento.
  2. Uma interface multilíngue para traduzir ou processar textos em diferentes idiomas.

Etapa 1: Demonstração de raciocínio híbrido 

Nesta etapa, criamos nossa guia de raciocínio híbrido com as tags /think e /no_think.

import gradio as gr
import subprocess
def reasoning_qwen3(prompt, mode):
    prompt_with_mode = f"{prompt} /{mode}"
    result = subprocess.run(
        ["ollama", "run", "qwen3:8b"],
        input=prompt_with_mode.encode(),
        stdout=subprocess.PIPE
    )
    return result.stdout.decode()
reasoning_ui = gr.Interface(
    fn=reasoning_qwen3,
    inputs=[
        gr.Textbox(label="Enter your prompt"),
        gr.Radio(["think", "no_think"], label="Reasoning Mode", value="think")
    ],
    outputs="text",
    title="Qwen3 Reasoning Mode Demo",
    description="Switch between /think and /no_think to control response depth."
)

No código acima:

  • A função reasoning_qwen3() recebe um prompt de usuário e um modo de raciocínio ("think" ou "no_think").
  • Ele acrescenta o modo selecionado como um sufixo ao prompt.
  • Em seguida, o método subprocess.run() executa o comando ollama run qwen3:8b, alimentando o prompt como entrada padrão.
  • Por fim, a saída (resposta do Qwen3) é capturada e retornada como uma string decodificada.

Depois que a função geradora de saída é definida, a função gr.Interface() a transforma em uma interface de usuário interativa da Web, especificando os componentes de entrada - um Textbox para o prompt e um botão Radio para selecionar o modo de raciocínio - e mapeando-os para as entradas da função.

Etapa 2: Demonstração de aplicativo multilíngue

Agora, vamos configurar nossa guia de aplicativo multilíngue.

import gradio as gr
import subprocess
def multilingual_qwen3(prompt, lang):
    if lang != "English":
        prompt = f"Translate to {lang}: {prompt}"
    result = subprocess.run(
        ["ollama", "run", "qwen3:8b"],
        input=prompt.encode(),
        stdout=subprocess.PIPE
    )
    return result.stdout.decode()
multilingual_ui = gr.Interface(
    fn=multilingual_qwen3,
    inputs=[
        gr.Textbox(label="Enter your prompt"),
        gr.Dropdown(["English", "French", "Hindi", "Chinese"], label="Target Language", value="English")
    ],
    outputs="text",
    title="Qwen3 Multilingual Translator",
    description="Use Qwen3 locally to translate prompts to different languages."
)

Semelhante à etapa anterior, esse código funciona da seguinte forma:

  • A função multilingual_qwen3() recebe um prompt e um idioma de destino.
  • Se o destino não for o inglês, ele anexa a instrução "Translate to {lang}:" para orientar o modelo.
  • Novamente, o modelo é executado localmente por meio de um subprocesso usando o Ollama.
  • O resultado é retornado como texto simples.

Etapa 3: Abra as duas guias no Gradio

Vamos reunir as duas guias em um aplicativo Gradio.

demo = gr.TabbedInterface(
    [reasoning_ui, multilingual_ui],
    tab_names=["Reasoning Mode", "Multilingual"]
)
demo.launch(debug = True)

Aqui está o que estamos fazendo no código acima:

  • A função gr.TabbedInterface() cria uma interface do usuário com duas guias:
    • Um para controlar a profundidade do raciocínio.
    • Um para tradução rápida multilíngue.
  • A função demo.launch(debug=True) executa o aplicativo localmente e o abre no navegador com a depuração ativada.

Aplicativo Gradio local com Qwen3

Demonstração de aplicativo multilíngueConclusão

O Qwen3 traz raciocínio avançado, decodificação rápida e suporte multilíngue para sua máquina local usando Ollama.

Com uma configuração mínima, você pode:

  • Execute a inferência LLM local sem a dependência da nuvem
  • Alternar entre respostas rápidas e ponderadas
  • Use APIs ou Python para criar aplicativos inteligentes

Se você quiser ter uma visão geral dos recursos do Qwen3, recomendo a leitura deste blog introdutório sobre Qwen3.


Aashi Dutt's photo
Author
Aashi Dutt
LinkedIn
Twitter

Sou Google Developers Expert em ML (Gen AI), Kaggle 3x Expert e Women Techmakers Ambassador com mais de 3 anos de experiência em tecnologia. Fui cofundador de uma startup de tecnologia de saúde em 2020 e estou fazendo mestrado em ciência da computação na Georgia Tech, com especialização em machine learning.

Tópicos

Aprenda IA com estes cursos!

Programa

Desenvolvimento de aplicativos de IA

0 min
Aprenda a criar aplicativos com tecnologia de IA com as mais recentes ferramentas de desenvolvimento de IA, incluindo a API OpenAI, Hugging Face e LangChain.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

Tutorial

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

Aprenda a criar um aplicativo RAG com o Llama 3.1 8B usando Ollama e Langchain, configurando o ambiente, processando documentos, criando embeddings e integrando um retriever.
Ryan Ong's photo

Ryan Ong

Tutorial

Guia de torchchat do PyTorch: Configuração local com Python

Saiba como configurar o torchchat do PyTorch localmente com Python neste tutorial prático, que fornece orientação e exemplos passo a passo.

Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Como criar aplicativos LLM com o tutorial LangChain

Explore o potencial inexplorado dos modelos de linguagem grandes com o LangChain, uma estrutura Python de código aberto para criar aplicativos avançados de IA.
Moez Ali's photo

Moez Ali

Tutorial

Como treinar um LLM com o PyTorch

Domine o processo de treinamento de grandes modelos de linguagem usando o PyTorch, desde a configuração inicial até a implementação final.
Zoumana Keita 's photo

Zoumana Keita

Tutorial

Guia para iniciantes do LlaMA-Factory WebUI: Ajuste fino dos LLMs

Saiba como fazer o ajuste fino dos LLMs em conjuntos de dados personalizados, avaliar o desempenho e exportar e servir modelos com facilidade usando a estrutura com pouco ou nenhum código do LLaMA-Factory.
Abid Ali Awan's photo

Abid Ali Awan

Ver maisVer mais