Tutorial LM Studio: comece com LLMs locais

Aprenda a instalar e rodar LLMs localmente com o LM Studio. Mantenha seus dados privados, converse com documentos usando RAG nativo e configure uma API local.

Atualizado 15 de abr. de 2026 · 10 min lido

Rodar modelos de linguagem de grande porte localmente ficou cada vez mais popular, principalmente quando você não quer enviar dados privados para servidores externos. Quando tudo roda na sua máquina, seus prompts e dados permanecem no seu ambiente, o que dá mais controle e privacidade.

Se você quer essa mesma autonomia, vou te mostrar como usar o LM Studio para rodar e conversar com LLMs localmente. É uma ferramenta com foco em interface gráfica, então você não precisa de experiência no terminal nem conhecimento técnico profundo. A configuração é simples e você começa rapidinho. Vamos lá!

Se você se interessa por rodar agentes e ferramentas localmente, recomendo conferir nossos tutoriais de configuração do OpenClaw e do Claude Code com Ollama.

O que é o LM Studio?

O LM Studio é um aplicativo multiplataforma que permite baixar e rodar modelos de linguagem de grande porte localmente na sua máquina, garantindo que seus dados não vazem para servidores externos.

Ele vem com um navegador de modelos integrado, em que você pode buscar, explorar e baixar modelos diretamente do Hugging Face. Dá para baixar praticamente qualquer modelo que quiser, incluindo diferentes versões de DeepSeek, Llama, Gemma, Phi ou Mistral. Você não precisa de nenhuma configuração extra.

O LM Studio também é uma ótima opção para iniciantes, especialmente se você não curte trabalhar no terminal. Ele oferece uma interface amigável para você escolher o modelo, ajustar configurações e começar a conversar na hora.

Você também pode enviar arquivos locais e conversar com eles: o LM Studio permite anexar arquivos .docx, .pdf e .txt às conversas. Se o documento couber no contexto, ele é incluído por completo; se for muito longo, o LM Studio pode usar retrieval-augmented generation (RAG) para buscar trechos relevantes e responder às suas perguntas.

Como o LM Studio é multiplataforma, ele funciona bem em Windows, Mac e Linux, sem limitar seu ambiente. E quando você passa do básico, dá para ir além. É possível conectar seus LLMs locais a ferramentas externas, fontes de dados e APIs integrando servidores MCP, deixando o fluxo flexível para usos mais avançados.

LM Studio vs Ollama

LM Studio e Ollama foram criados para rodar e conversar com LLMs localmente. Mas há algumas diferenças importantes:

Recurso	LM Studio	Ollama
Interface	GUI em primeiro lugar, interface amigável	Foco em CLI, interface no terminal
RAG integrado	Sim, sem configuração extra	Requer ferramentas externas
Suporte a MCP	Nativo	Limitado / não nativo
Download de modelos	Acesso ao Hugging Face dentro do app	Por comandos como `ollama pull`
Facilidade de configuração	Muito amigável para iniciantes	Curva de aprendizado se você é novo em CLI

Requisitos do sistema do LM Studio e escolha do modelo

Antes de começar a baixar modelos no LM Studio, vale entender o que seu sistema realmente aguenta. A escolha do modelo depende diretamente da sua RAM disponível; escolher errado pode deixar tudo lento ou até travar o app.

Uma tabela rápida com modelos adequados para diferentes quantidades de RAM:

RAM	O que roda com folga
8GB	Modelos pequenos (1B–4B)
16GB	Modelos médios (7B–9B)
32GB+	Modelos maiores (13B ou mais)

GPU é opcional, mas faz diferença. Se você tiver uma, as respostas do modelo ficam bem mais rápidas e fluidas. GPUs NVIDIA com suporte a CUDA funcionam melhor, Apple Silicon usa bem o Metal e a AMD tem suporte parcial, dependendo da configuração.

Como escolher o modelo certo para seu hardware

Aqui vão recomendações práticas para escolher um modelo que rode bem na sua máquina sem forçar demais.

RAM/VRAM	Modelos recomendados
8GB	Qwen 2.5 3B / 4B, Phi-3 Mini (3.8B), Gemma 2 2B
16GB	Llama 3 8B, Gemma 2 9B, Mistral 7B, Qwen 2.5 7B
24GB	Llama 3.1 8B (quantização melhor), Mixtral 8x7B (quantizado), Qwen 2.5 14B
32GB+	Llama 3.1 70B (fortemente quantizado), Qwen 2.5 32B, variantes Mixtral (configurações melhores)

Você também vai notar diferentes versões do mesmo modelo com rótulos como Q4_K_M ou Q8_0. Isso se refere aos níveis de quantização, que basicamente indicam o quanto o modelo foi comprimido. Quantizações mais baixas, como Q4, reduzem o uso de memória e rodam mais rápido, mas com alguma perda de qualidade. Quantizações mais altas, como Q8, preservam melhor a qualidade de saída, porém exigem mais RAM e rodam mais devagar.

Se estiver na dúvida, Q4 ou Q5 costuma ser um bom ponto de partida, especialmente em máquinas com 16GB (como a minha).

Instalando o LM Studio

Para começar com o LM Studio, acesse o site oficial e faça o download do app. O site detecta automaticamente seu sistema operacional e oferece a versão correspondente.

Dependendo das configurações do sistema, você pode precisar conceder permissões. No meu caso, no Mac, o app ficou disponível logo após abrir o instalador.

Baixando seu primeiro modelo no LM Studio

Ao abrir o LM Studio pela primeira vez, você verá uma interface limpa com o navegador de modelos. Dá para buscar modelos, explorar opções e começar a baixar um para rodar localmente.

Explorando a aba Discover

Abra o LM Studio e clique no ícone de busca na barra lateral esquerda.

Pense nessa área como um marketplace de modelos: você busca por nomes específicos, filtra por tamanho e explora alternativas. Cada modelo vem com um card com contexto útil como tamanho, capacidades e, às vezes, casos de uso recomendados. Vale dar uma olhada antes de baixar para saber o que esperar.

Se quiser acompanhar e ter um ponto de partida confiável, escolha algo como Qwen 2.5 7B (Q4_K_M) para sistemas com 16GB (ou siga uma das sugestões acima). É um bom equilíbrio entre desempenho e qualidade, rodando liso sem forçar a máquina.

Entendendo os formatos de modelo

Ao explorar, você vai notar que a maioria dos modelos está no formato GGUF. GGUF, de GPT-Generated Unified Format, é um formato binário para armazenar e rodar LLMs com eficiência em hardwares de consumo.

Esse formato mapeia os pesares de alta precisão (por exemplo, Float16) para inteiros de menos bits (como 4 ou 5 bits) e empacota pesos, metadados e configurações em um único arquivo otimizado. Isso acelera o carregamento e garante compatibilidade com mecanismos de inferência como o llama.cpp, que o LM Studio usa nos bastidores.

Conversando com um LLM local no LM Studio

Hora de colocar o modelo para trabalhar.

Carregando um modelo e ajustando parâmetros

Passo 1: Abra o LM Studio e vá até a seção My Models no menu esquerdo.

Passo 2: Clique no ícone de Settings do modelo e depois em Load Model.

Depois de carregar, vá até a aba Inference na mesma tela. Ali você encontra os controles de context length, temperature e outras opções.

Context length controla quanto o modelo consegue "lembrar" durante a conversa. Valores mais altos permitem entradas mais longas, mas usam mais memória. Se a RAM for limitada, mantenha em um nível moderado.
Temperature controla quão criativas ou previsíveis serão as respostas. Valores baixos tornam as respostas mais determinísticas; valores altos, mais variadas.
System prompt define o comportamento do modelo. Aqui você determina como o assistente deve responder, incluindo tom, estilo e papel.

Sua primeira conversa

Com tudo pronto, é só conversar com o modelo como faria com qualquer assistente de IA. Um exemplo simples:

Eu perguntei: “Qual é o melhor modelo para 8GB de RAM e dados de imagem?”

O modelo sugeriu usar um modelo com arquitetura de convolutional neural network (CNN), como na imagem.

Esse é o fluxo básico. A qualidade das respostas depende bastante das configurações. Por exemplo, se você definir no system prompt “Explique tudo de forma simples e com respostas curtas”, o modelo tende a manter esse estilo ao longo das respostas.

Conversando com seus documentos no LM Studio

Um dos recursos mais úteis do LM Studio é o suporte nativo a RAG. Você pode enviar documentos diretamente no chat e começar a fazer perguntas.

Configurando perguntas e respostas com documentos

Para começar, abra uma conversa com o modelo carregado. Você verá um ícone de + para anexar arquivos. Clique para enviar PDFs ou arquivos de texto diretamente para o chat.

Assim que o arquivo é adicionado, o LM Studio o prepara automaticamente para consulta, sem necessidade de configurar nada manualmente. Por baixo dos panos, o documento é dividido em pedaços menores para processamento eficiente. Esses pedaços são convertidos em embeddings, que são representações numéricas do texto.

Quando você faz uma pergunta, o LM Studio recupera os trechos mais relevantes e os envia ao modelo junto com sua pergunta. Assim, o modelo recebe informações extras dos seus documentos e responde com base nisso.

Consultando sua base de conhecimento

Por exemplo, enviei um artigo de pesquisa sobre inteligência artificial e perguntei: “Qual é sua visão sobre o futuro da IA?”

O LM Studio extrai as seções mais relevantes do documento e as envia ao modelo junto com o seu prompt. O modelo então gera uma resposta combinando o contexto fornecido e seu conhecimento prévio.

Na imagem abaixo, dá para ver esse processo visualmente:

Existem algumas limitações. O modelo ainda depende da janela de contexto, então documentos muito grandes podem não ser considerados por completo de uma só vez. A qualidade da recuperação também depende de como o documento é fragmentado; algumas respostas podem perder detalhes se os trechos certos não forem recuperados.

Rodando o LM Studio como um servidor de API local

Um dos recursos mais poderosos do LM Studio é rodá-lo como um servidor de API local. Assim, você pode usar seu LLM local em scripts, apps ou outras ferramentas.

Iniciando o servidor

Passo 1: Para ativar isso, abra o LM Studio e clique no ícone de Settings no canto inferior esquerdo da tela.

Passo 2: Vá até a seção Developer na barra lateral esquerda e ative a opção Developer Mode.

Passo 3: Volte para a interface de chat e clique no ícone Developer na barra lateral esquerda.

Passo 4: Ative a chave ao lado de Status para iniciar o servidor, como na imagem abaixo. Com ele rodando, copie o endereço do servidor e teste com um curl simples:

curl http://127.0.0.1:1234/v1/models

Se tudo estiver certo, você verá uma resposta em JSON listando o(s) modelo(s) disponível(is).

Conectando a partir do Python

Com o servidor local rodando, você o trata como qualquer outra API. A única diferença é que, em vez de chamar os servidores da OpenAI, você chama a sua própria máquina.

Um exemplo simples:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

response = client.chat.completions.create(
    model="local-model",
    messages=[
        {"role": "user", "content": "Explain how local LLMs work"}
    ],
)

print(response.choices[0].message.content)

O que está acontecendo aqui:

base_url indica ao código para usar seu servidor local do LM Studio em vez da OpenAI
api_key pode ser qualquer coisa (o LM Studio não exige)
model se refere ao modelo que você carregou no LM Studio
messages é o seu prompt

Ao executar, sua requisição vai para “localhost:1234”, o modelo processa e você recebe a resposta, como em qualquer chamada de API. Isso funciona porque o LM Studio segue o formato da API da OpenAI.

Conclusão

O LM Studio oferece uma interface limpa e prática para trabalhar com LLMs localmente, com controle total do ambiente. Você escolhe os modelos, ajusta as configurações, conversa com eles e ainda pode estender a configuração para rodar como um servidor de API local.

O destaque é que, antes, rodar LLMs localmente exigia muita configuração e ferramentas. O LM Studio reduz isso a algo mais próximo de instalar e usar um app de desktop comum.

Se quiser avançar, o próximo passo é integrar esses modelos a fluxos de trabalho reais. Explore cursos como Working with the OpenAI API ou trilhas mais amplas de fundamentos de IA para entender como estruturar prompts, criar aplicações e trabalhar com modelos com eficiência.

O LM Studio é gratuito?

O LM Studio funciona totalmente offline?

Posso usar o LM Studio nas minhas aplicações?

O LM Studio lida com imagens?

Quanta RAM eu preciso para rodar LLMs localmente?

Author

Srujana Maddula

Tópicos

Modelos de idiomas grandes

Inteligência Artificial

Cursos de IA

Programa

Fundamentos da IA

10 h

Descubra os fundamentos da IA, aprenda a usar a IA de forma eficaz no trabalho e mergulhe em modelos como o chatGPT para navegar pelo cenário dinâmico da IA.

Ver detalhes

Iniciar curso

Programa

Fundamentos de Hugging Face

12 h

Encontre os modelos, conjuntos de dados e aplicativos de IA de código aberto mais recentes, crie agentes de IA e ajuste LLMs com o Hugging Face. Junte-se hoje mesmo à maior comunidade de IA!

Ver detalhes

Iniciar curso

Curso

Trabalhar com a API da OpenAI

3 h

132.1K

Comece a criar aplicativos com IA usando a API da OpenAI e conheça a tecnologia por trás de aplicativos de IA populares, como o ChatGPT.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

Os prós e contras de usar LLMs na nuvem versus executar LLMs localmente

Principais considerações para selecionar a estratégia de implementação ideal para LLMs.

Abid Ali Awan

8 min

Tutorial

Guia para iniciantes do LlaMA-Factory WebUI: Ajuste fino dos LLMs

Saiba como fazer o ajuste fino dos LLMs em conjuntos de dados personalizados, avaliar o desempenho e exportar e servir modelos com facilidade usando a estrutura com pouco ou nenhum código do LLaMA-Factory.

Abid Ali Awan

Tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.

Josep Ferrer

Tutorial

Como treinar um LLM com o PyTorch

Domine o processo de treinamento de grandes modelos de linguagem usando o PyTorch, desde a configuração inicial até a implementação final.

Zoumana Keita

Tutorial

Como criar aplicativos LLM com o tutorial LangChain

Explore o potencial inexplorado dos modelos de linguagem grandes com o LangChain, uma estrutura Python de código aberto para criar aplicativos avançados de IA.

Moez Ali

Tutorial

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

Aprenda a criar um aplicativo RAG com o Llama 3.1 8B usando Ollama e Langchain, configurando o ambiente, processando documentos, criando embeddings e integrando um retriever.

Ryan Ong

Ver mais Ver mais

O que é o LM Studio?

LM Studio vs Ollama

Requisitos do sistema do LM Studio e escolha do modelo

Como escolher o modelo certo para seu hardware

Instalando o LM Studio

Baixando seu primeiro modelo no LM Studio

Explorando a aba Discover

Entendendo os formatos de modelo

Conversando com um LLM local no LM Studio

Carregando um modelo e ajustando parâmetros

Sua primeira conversa

Conversando com seus documentos no LM Studio

Configurando perguntas e respostas com documentos

Consultando sua base de conhecimento

Rodando o LM Studio como um servidor de API local

Iniciando o servidor

Conectando a partir do Python

Conclusão

Perguntas frequentes sobre o LM Studio

Posso usar o LM Studio nas minhas aplicações?

O LM Studio lida com imagens?

Quanta RAM eu preciso para rodar LLMs localmente?

Os prós e contras de usar LLMs na nuvem versus executar LLMs localmente

Guia para iniciantes do LlaMA-Factory WebUI: Ajuste fino dos LLMs

Guia de Introdução ao Ajuste Fino de LLMs

Como treinar um LLM com o PyTorch

Como criar aplicativos LLM com o tutorial LangChain

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos da IA

Fundamentos de Hugging Face

Trabalhar com a API da OpenAI

Os prós e contras de usar LLMs na nuvem versus executar LLMs localmente

Guia para iniciantes do LlaMA-Factory WebUI: Ajuste fino dos LLMs

Guia de Introdução ao Ajuste Fino de LLMs

Como treinar um LLM com o PyTorch

Como criar aplicativos LLM com o tutorial LangChain

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

Fundamentos da IA