Pular para o conteúdo principal

Tutorial LM Studio: comece com LLMs locais

Aprenda a instalar e rodar LLMs localmente com o LM Studio. Mantenha seus dados privados, converse com documentos usando RAG nativo e configure uma API local.
Atualizado 15 de abr. de 2026  · 10 min lido

Rodar modelos de linguagem de grande porte localmente ficou cada vez mais popular, principalmente quando você não quer enviar dados privados para servidores externos. Quando tudo roda na sua máquina, seus prompts e dados permanecem no seu ambiente, o que dá mais controle e privacidade.

Se você quer essa mesma autonomia, vou te mostrar como usar o LM Studio para rodar e conversar com LLMs localmente. É uma ferramenta com foco em interface gráfica, então você não precisa de experiência no terminal nem conhecimento técnico profundo. A configuração é simples e você começa rapidinho. Vamos lá!

Se você se interessa por rodar agentes e ferramentas localmente, recomendo conferir nossos tutoriais de configuração do OpenClaw e do Claude Code com Ollama.

O que é o LM Studio?

O LM Studio é um aplicativo multiplataforma que permite baixar e rodar modelos de linguagem de grande porte localmente na sua máquina, garantindo que seus dados não vazem para servidores externos. 

Ele vem com um navegador de modelos integrado, em que você pode buscar, explorar e baixar modelos diretamente do Hugging Face. Dá para baixar praticamente qualquer modelo que quiser, incluindo diferentes versões de DeepSeek, Llama, Gemma, Phi ou Mistral. Você não precisa de nenhuma configuração extra. 

O LM Studio também é uma ótima opção para iniciantes, especialmente se você não curte trabalhar no terminal. Ele oferece uma interface amigável para você escolher o modelo, ajustar configurações e começar a conversar na hora. 

Você também pode enviar arquivos locais e conversar com eles: o LM Studio permite anexar arquivos .docx, .pdf e .txt às conversas. Se o documento couber no contexto, ele é incluído por completo; se for muito longo, o LM Studio pode usar retrieval-augmented generation (RAG) para buscar trechos relevantes e responder às suas perguntas.

Como o LM Studio é multiplataforma, ele funciona bem em Windows, Mac e Linux, sem limitar seu ambiente. E quando você passa do básico, dá para ir além. É possível conectar seus LLMs locais a ferramentas externas, fontes de dados e APIs integrando servidores MCP, deixando o fluxo flexível para usos mais avançados.

LM Studio vs Ollama

LM Studio e Ollama foram criados para rodar e conversar com LLMs localmente. Mas há algumas diferenças importantes:

Recurso

LM Studio

Ollama

Interface

GUI em primeiro lugar, interface amigável

Foco em CLI, interface no terminal

RAG integrado

Sim, sem configuração extra

Requer ferramentas externas

Suporte a MCP

Nativo 

Limitado / não nativo

Download de modelos

Acesso ao Hugging Face dentro do app

Por comandos como ollama pull

Facilidade de configuração

Muito amigável para iniciantes

Curva de aprendizado se você é novo em CLI

Requisitos do sistema do LM Studio e escolha do modelo

Antes de começar a baixar modelos no LM Studio, vale entender o que seu sistema realmente aguenta. A escolha do modelo depende diretamente da sua RAM disponível; escolher errado pode deixar tudo lento ou até travar o app.

Uma tabela rápida com modelos adequados para diferentes quantidades de RAM:

RAM

O que roda com folga

8GB

Modelos pequenos (1B–4B)

16GB

Modelos médios (7B–9B)

32GB+

Modelos maiores (13B ou mais)

GPU é opcional, mas faz diferença. Se você tiver uma, as respostas do modelo ficam bem mais rápidas e fluidas. GPUs NVIDIA com suporte a CUDA funcionam melhor, Apple Silicon usa bem o Metal e a AMD tem suporte parcial, dependendo da configuração.

Como escolher o modelo certo para seu hardware

Aqui vão recomendações práticas para escolher um modelo que rode bem na sua máquina sem forçar demais.

RAM/VRAM

Modelos recomendados 

8GB

Qwen 2.5 3B / 4B, Phi-3 Mini (3.8B), Gemma 2 2B

16GB

Llama 3 8B, Gemma 2 9B, Mistral 7B, Qwen 2.5 7B

24GB

Llama 3.1 8B (quantização melhor), Mixtral 8x7B (quantizado), Qwen 2.5 14B

32GB+

Llama 3.1 70B (fortemente quantizado), Qwen 2.5 32B, variantes Mixtral (configurações melhores)

Você também vai notar diferentes versões do mesmo modelo com rótulos como Q4_K_M ou Q8_0. Isso se refere aos níveis de quantização, que basicamente indicam o quanto o modelo foi comprimido. Quantizações mais baixas, como Q4, reduzem o uso de memória e rodam mais rápido, mas com alguma perda de qualidade. Quantizações mais altas, como Q8, preservam melhor a qualidade de saída, porém exigem mais RAM e rodam mais devagar.

Se estiver na dúvida, Q4 ou Q5 costuma ser um bom ponto de partida, especialmente em máquinas com 16GB (como a minha).

Instalando o LM Studio

Para começar com o LM Studio, acesse o site oficial e faça o download do app. O site detecta automaticamente seu sistema operacional e oferece a versão correspondente.

Downloading LM StudioDependendo das configurações do sistema, você pode precisar conceder permissões. No meu caso, no Mac, o app ficou disponível logo após abrir o instalador.

Baixando seu primeiro modelo no LM Studio

Ao abrir o LM Studio pela primeira vez, você verá uma interface limpa com o navegador de modelos. Dá para buscar modelos, explorar opções e começar a baixar um para rodar localmente.

Explorando a aba Discover

Abra o LM Studio e clique no ícone de busca na barra lateral esquerda.

LM Studio Discover Tab

Pense nessa área como um marketplace de modelos: você busca por nomes específicos, filtra por tamanho e explora alternativas. Cada modelo vem com um card com contexto útil como tamanho, capacidades e, às vezes, casos de uso recomendados. Vale dar uma olhada antes de baixar para saber o que esperar.

Downloading Qwen2.5-VL-7B in LM Studio

Se quiser acompanhar e ter um ponto de partida confiável, escolha algo como Qwen 2.5 7B (Q4_K_M) para sistemas com 16GB (ou siga uma das sugestões acima). É um bom equilíbrio entre desempenho e qualidade, rodando liso sem forçar a máquina.

Entendendo os formatos de modelo

Ao explorar, você vai notar que a maioria dos modelos está no formato GGUF. GGUF, de GPT-Generated Unified Format, é um formato binário para armazenar e rodar LLMs com eficiência em hardwares de consumo. 

Esse formato mapeia os pesares de alta precisão (por exemplo, Float16) para inteiros de menos bits (como 4 ou 5 bits) e empacota pesos, metadados e configurações em um único arquivo otimizado. Isso acelera o carregamento e garante compatibilidade com mecanismos de inferência como o llama.cpp, que o LM Studio usa nos bastidores.

Conversando com um LLM local no LM Studio

Hora de colocar o modelo para trabalhar.

Carregando um modelo e ajustando parâmetros

Passo 1: Abra o LM Studio e vá até a seção My Models no menu esquerdo.

LM Studio My Models

Passo 2: Clique no ícone de Settings do modelo e depois em Load Model.

LM Studio Model Settings

Depois de carregar, vá até a aba Inference na mesma tela. Ali você encontra os controles de context length, temperature e outras opções.

LM Studio Inference Tab

  • Context length controla quanto o modelo consegue "lembrar" durante a conversa. Valores mais altos permitem entradas mais longas, mas usam mais memória. Se a RAM for limitada, mantenha em um nível moderado. 
  • Temperature controla quão criativas ou previsíveis serão as respostas. Valores baixos tornam as respostas mais determinísticas; valores altos, mais variadas. 
  • System prompt define o comportamento do modelo. Aqui você determina como o assistente deve responder, incluindo tom, estilo e papel.

Sua primeira conversa

Com tudo pronto, é só conversar com o modelo como faria com qualquer assistente de IA. Um exemplo simples:

Eu perguntei: “Qual é o melhor modelo para 8GB de RAM e dados de imagem?”

O modelo sugeriu usar um modelo com arquitetura de convolutional neural network (CNN), como na imagem.

Chatting with Qwen2.5 in LM Studio

Esse é o fluxo básico. A qualidade das respostas depende bastante das configurações. Por exemplo, se você definir no system prompt “Explique tudo de forma simples e com respostas curtas”, o modelo tende a manter esse estilo ao longo das respostas. 

Conversando com seus documentos no LM Studio

Um dos recursos mais úteis do LM Studio é o suporte nativo a RAG. Você pode enviar documentos diretamente no chat e começar a fazer perguntas.

Configurando perguntas e respostas com documentos

Para começar, abra uma conversa com o modelo carregado. Você verá um ícone de + para anexar arquivos. Clique para enviar PDFs ou arquivos de texto diretamente para o chat.

Attaching file for RAG in LM Studio

Assim que o arquivo é adicionado, o LM Studio o prepara automaticamente para consulta, sem necessidade de configurar nada manualmente. Por baixo dos panos, o documento é dividido em pedaços menores para processamento eficiente. Esses pedaços são convertidos em embeddings, que são representações numéricas do texto. 

Quando você faz uma pergunta, o LM Studio recupera os trechos mais relevantes e os envia ao modelo junto com sua pergunta. Assim, o modelo recebe informações extras dos seus documentos e responde com base nisso.

Consultando sua base de conhecimento

Por exemplo, enviei um artigo de pesquisa sobre inteligência artificial e perguntei: “Qual é sua visão sobre o futuro da IA?”

O LM Studio extrai as seções mais relevantes do documento e as envia ao modelo junto com o seu prompt. O modelo então gera uma resposta combinando o contexto fornecido e seu conhecimento prévio.

Na imagem abaixo, dá para ver esse processo visualmente:

Using RAG in LM Studio

Existem algumas limitações. O modelo ainda depende da janela de contexto, então documentos muito grandes podem não ser considerados por completo de uma só vez. A qualidade da recuperação também depende de como o documento é fragmentado; algumas respostas podem perder detalhes se os trechos certos não forem recuperados.

Rodando o LM Studio como um servidor de API local

Um dos recursos mais poderosos do LM Studio é rodá-lo como um servidor de API local. Assim, você pode usar seu LLM local em scripts, apps ou outras ferramentas.

Iniciando o servidor

Passo 1: Para ativar isso, abra o LM Studio e clique no ícone de Settings no canto inferior esquerdo da tela.

Passo 2: Vá até a seção Developer na barra lateral esquerda e ative a opção Developer Mode.

Turn on Developer Mode in LM Studio

Passo 3: Volte para a interface de chat e clique no ícone Developer na barra lateral esquerda.

LM Studio Developer Menu

Passo 4: Ative a chave ao lado de Status para iniciar o servidor, como na imagem abaixo. Com ele rodando, copie o endereço do servidor e teste com um curl simples: 

curl http://127.0.0.1:1234/v1/models

Running LM Studio as local API server

Se tudo estiver certo, você verá uma resposta em JSON listando o(s) modelo(s) disponível(is).

LM Studio API server response

Conectando a partir do Python

Com o servidor local rodando, você o trata como qualquer outra API. A única diferença é que, em vez de chamar os servidores da OpenAI, você chama a sua própria máquina.

Um exemplo simples:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

response = client.chat.completions.create(
    model="local-model",
    messages=[
        {"role": "user", "content": "Explain how local LLMs work"}
    ],
)

print(response.choices[0].message.content)

O que está acontecendo aqui:

  • base_url indica ao código para usar seu servidor local do LM Studio em vez da OpenAI

  • api_key pode ser qualquer coisa (o LM Studio não exige)

  • model se refere ao modelo que você carregou no LM Studio

  • messages é o seu prompt

Ao executar, sua requisição vai para “localhost:1234”, o modelo processa e você recebe a resposta, como em qualquer chamada de API. Isso funciona porque o LM Studio segue o formato da API da OpenAI

Conclusão

O LM Studio oferece uma interface limpa e prática para trabalhar com LLMs localmente, com controle total do ambiente. Você escolhe os modelos, ajusta as configurações, conversa com eles e ainda pode estender a configuração para rodar como um servidor de API local.

O destaque é que, antes, rodar LLMs localmente exigia muita configuração e ferramentas. O LM Studio reduz isso a algo mais próximo de instalar e usar um app de desktop comum.

Se quiser avançar, o próximo passo é integrar esses modelos a fluxos de trabalho reais. Explore cursos como Working with the OpenAI API ou trilhas mais amplas de fundamentos de IA para entender como estruturar prompts, criar aplicações e trabalhar com modelos com eficiência.

Perguntas frequentes sobre o LM Studio

O LM Studio é gratuito?

Sim, o LM Studio é gratuito para baixar e usar. Não há mensalidades, limites de uso nem recursos essenciais bloqueados.

O LM Studio funciona totalmente offline?

Sim, depois de baixar um modelo, tudo roda localmente. Você só precisa de internet para baixar modelos do Hugging Face.

Posso usar o LM Studio nas minhas aplicações?

Sim, o LM Studio pode rodar como um servidor de API local compatível com o formato da API da OpenAI. Isso permite conectá-lo a scripts, apps ou outras ferramentas na sua máquina.

O LM Studio lida com imagens?

Sim, mas apenas com modelos com visão. Se você carregar um modelo multimodal como LLaVA ou Qwen-VL, dá para enviar imagens e fazer perguntas sobre elas. Modelos apenas de texto não aceitam imagens.

Quanta RAM eu preciso para rodar LLMs localmente?

Depende do tamanho do modelo. 8GB rodam modelos menores, 16GB atendem muitos casos de uso, e 32GB ou mais geralmente são necessários para modelos grandes.


Srujana Maddula's photo
Author
Srujana Maddula
LinkedIn

Srujana é redatora freelancer de tecnologia e tem um diploma de quatro anos em Ciência da Computação. Escrever sobre vários tópicos, incluindo ciência de dados, computação em nuvem, desenvolvimento, programação, segurança e muitos outros, é algo natural para ela. Ela gosta de literatura clássica e de explorar novos destinos.

Tópicos

Cursos de IA

Programa

Fundamentos da IA

10 h
Descubra os fundamentos da IA, aprenda a usar a IA de forma eficaz no trabalho e mergulhe em modelos como o chatGPT para navegar pelo cenário dinâmico da IA.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow