Tutorial de LM Studio: empieza con LLMs locales

Descubre cómo instalar y ejecutar LLMs en local con LM Studio. Mantén tus datos privados, chatea con documentos usando RAG integrado y configura una API local.

Actualizado 15 abr 2026 · 10 min leer

Ejecutar modelos de lenguaje grandes en local se ha vuelto cada vez más popular, sobre todo cuando no quieres enviar datos privados a servidores externos. Cuando todo funciona en tu equipo, tus prompts y tus datos se quedan en tu entorno, lo que te da más control y mejor privacidad.

Si quieres esa misma potencia, te explico cómo usar LM Studio para ejecutar y chatear con LLMs en local. Es una herramienta centrada en la interfaz gráfica, así que no necesitas experiencia con la terminal ni conocimientos técnicos profundos. La configuración es sencilla y puedes empezar en minutos. ¡Vamos a ello!

Si te interesa ejecutar herramientas de agentes en local, te recomiendo echar un vistazo a nuestros tutoriales para configurar OpenClaw y Claude Code con Ollama, respectivamente.

¿Qué es LM Studio?

LM Studio es una aplicación multiplataforma que te permite descargar y ejecutar modelos de lenguaje grandes en local en tu equipo para que tus datos no salgan a servidores externos.

Incluye un navegador de modelos integrado donde puedes buscar, explorar y descargar modelos directamente desde Hugging Face. Puedes descargar prácticamente cualquier modelo que quieras, incluidas distintas versiones de DeepSeek, Llama, Gemma, Phi o Mistral. No necesitas ninguna configuración extra.

LM Studio también es una gran opción para principiantes, especialmente si no te manejas cómodo con la línea de comandos. Te ofrece una interfaz muy intuitiva donde puedes elegir un modelo, ajustar la configuración y ponerte a chatear al instante.

También puedes subir archivos locales y chatear con ellos: LM Studio puede adjuntar archivos .docx, .pdf y .txt a las sesiones de chat. Si un documento cabe en el contexto, se añade completo; si es muy largo, LM Studio puede usar retrieval-augmented generation (RAG) para extraer información relevante de esos archivos y responder a tus preguntas.

Como LM Studio es multiplataforma, funciona sin problemas en Windows, Mac y Linux, así que no estás limitado por tu configuración. Y cuando superas lo básico, puedes hacer aún más. Puedes conectar tus LLMs locales a herramientas externas, fuentes de datos y APIs integrando servidores MCP, lo que le da suficiente flexibilidad para flujos de trabajo avanzados.

LM Studio vs Ollama

LM Studio y Ollama están pensados para ejecutar y chatear con modelos de lenguaje grandes en local. Sin embargo, hay algunas diferencias clave:

Función	LM Studio	Ollama
Interfaz	Primero GUI, interfaz fácil de usar	Primero CLI, interfaz basada en terminal
RAG integrado	Sí, sin configuración adicional	Requiere herramientas externas
Compatibilidad MCP	Integrada	Limitada / no nativa
Descarga de modelos	Acceso a Hugging Face desde la app	Mediante comandos como `ollama pull`
Facilidad de configuración	Muy amigable para principiantes	Cierta curva de aprendizaje si eres nuevo en CLI

Requisitos de sistema de LM Studio y elección de modelo

Antes de empezar a descargar modelos en LM Studio, conviene entender qué puede soportar realmente tu sistema. El modelo que elijas depende directamente de tu RAM disponible, y elegir mal puede ralentizarlo todo o volver la app inutilizable.

Una tabla rápida con modelos adecuados según la RAM disponible:

RAM	Qué puedes ejecutar con comodidad
8GB	Modelos pequeños (1B–4B)
16GB	Modelos medianos (7B–9B)
32GB+	Modelos más grandes (13B en adelante)

La GPU es opcional, pero marca una diferencia notable. Si tienes una, las respuestas del modelo serán mucho más rápidas y fluidas. Las GPUs de NVIDIA con soporte CUDA funcionan mejor, Apple Silicon usa Metal de forma eficaz y AMD tiene soporte parcial según la configuración.

Cómo elegir el modelo adecuado para tu hardware

Aquí tienes algunas recomendaciones prácticas para elegir un modelo que realmente funcione bien en tu equipo sin forzarlo.

RAM/VRAM	Modelos recomendados
8GB	Qwen 2.5 3B / 4B, Phi-3 Mini (3.8B), Gemma 2 2B
16GB	Llama 3 8B, Gemma 2 9B, Mistral 7B, Qwen 2.5 7B
24GB	Llama 3.1 8B (quant de mayor calidad), Mixtral 8x7B (cuantizado), Qwen 2.5 14B
32GB+	Llama 3.1 70B (fuertemente cuantizado), Qwen 2.5 32B, variantes de Mixtral (mejores configuraciones)

También verás diferentes versiones del mismo modelo con etiquetas como Q4_K_M o Q8_0. Esto se refere a los niveles de cuantización, que básicamente indican cómo se comprime el modelo. Una cuantización más baja, como Q4, reduce el uso de memoria y va más rápido, pero pierdes algo de calidad. Una cuantización más alta, como Q8, mantiene mejor calidad de salida, pero requiere más RAM y va más lenta.

Si tienes dudas, Q4 o Q5 suele ser un buen punto de partida, especialmente con una configuración de 16GB como la mía.

Instalar LM Studio

Para empezar con LM Studio, ve al sitio web oficial y descarga la app. La web detecta automáticamente tu sistema operativo y te ofrece la versión correspondiente.

Puede que te pida permisos según la configuración de tu sistema. En mi caso, en Mac, estuvo disponible como aplicación nada más abrir el instalador descargado.

Descargar tu primer modelo en LM Studio

Cuando abras LM Studio por primera vez, verás una interfaz limpia con el explorador de modelos. Puedes buscar modelos al momento, explorar opciones disponibles y empezar a descargar uno para ejecutarlo en local.

Explorar la pestaña Discover

Abre LM Studio y haz clic en el icono de búsqueda de la barra lateral izquierda.

Básicamente es tu mercado de modelos, donde puedes buscar modelos concretos, filtrar por tamaño y explorar distintas opciones. Al buscar, cada modelo viene con una tarjeta informativa que te da contexto útil como tamaño, capacidades y, a veces, casos de uso recomendados. Merece la pena echarle un vistazo antes de descargar para saber qué esperar.

Si sigues el tutorial y quieres un punto de partida fiable, elige alguno como Qwen 2.5 7B (Q4_K_M) para un sistema de 16GB (o toma una de las sugerencias que hice arriba). Ofrece un buen equilibrio entre rendimiento y calidad, y funciona fluido sin forzar tu equipo.

Entender los formatos de modelo

Mientras navegas, verás que la mayoría de modelos están disponibles en formato GGUF. GGUF, de GPT-Generated Unified Format, es un formato binario para almacenar y ejecutar LLMs de forma eficiente en hardware de consumo.

Este formato mapea los pesaos de alta precisión (p. ej., Float16) de los modelos a enteros de menos bits (p. ej., 4-bit, 5-bit) y empaqueta los pesos, metadatos y configuración en un único archivo optimizado. Facilita la carga y garantiza compatibilidad con motores de inferencia como llama.cpp, en el que se apoya LM Studio por debajo.

Chatear con un LLM local en LM Studio

Vamos a la parte interesante: poner el modelo en marcha.

Cargar un modelo y configurar parámetros

Paso 1: abre LM Studio y ve a la sección My Models desde el menú de la izquierda.

Paso 2: haz clic en el icono de Settings del modelo y luego en Load Model.

Una vez cargado, ve a la pestaña Inference en la misma pantalla; verás controles para la longitud de contexto, la temperatura y más.

Context length controla cuánta información puede recordar el modelo durante una conversación. Un valor alto te permite trabajar con entradas más largas, pero también usa más memoria. Si vas justo de RAM, mejor mantenlo moderado.
Temperature controla lo creativo o predecible que es el modelo. Valores bajos hacen respuestas más deterministas; valores altos, más variadas.
System prompt define el comportamiento del modelo. Aquí marcas cómo debe responder el asistente, incluido tono, estilo y rol.

Tu primera conversación

Cuando todo esté listo, puedes empezar a chatear con el modelo como con cualquier asistente de IA. Aquí va un ejemplo sencillo:

Le pedí: «¿Cuál es el mejor modelo para usar con 8GB de RAM y datos de imagen?»

El modelo sugirió usar un modelo con arquitectura de red neuronal convolucional (CNN), como se muestra en la imagen.

Ese es el flujo básico. La calidad de las respuestas depende mucho de tu configuración. Por ejemplo, si en el system prompt indicas «Explica todo en términos sencillos y con respuestas cortas», el modelo se mantiene coherente con ese estilo en varias respuestas.

Chatear con tus documentos en LM Studio

Una de las funciones más útiles de LM Studio es su soporte de RAG integrado. Puedes subir documentos directamente al chat y empezar a hacer preguntas.

Configurar preguntas y respuestas con documentos

Para empezar, abre una sesión de chat con el modelo cargado. Verás un icono de + para adjuntar archivos. Haz clic para subir PDFs o archivos de texto directamente en el chat.

Una vez añadido el archivo, LM Studio lo prepara automáticamente para las consultas, así que no tienes que configurar nada a mano. Por debajo, el documento se divide en fragmentos más pequeños para que el modelo trabaje con ellos de forma eficiente. Estos fragmentos se convierten en embeddings, que son representaciones numéricas del texto.

Cuando haces una pregunta, LM Studio recupera los fragmentos más relevantes y se los pasa al modelo junto con tu consulta. Así, el modelo recibe información extra de tus documentos y responde en consecuencia.

Consultar tu base de conocimiento

Por ejemplo, subí un artículo de investigación sobre inteligencia artificial y pregunté: «¿Cuál es tu opinión sobre el futuro de la IA?»

LM Studio extrae las secciones más relevantes del documento y se las envía al modelo junto con tu prompt. El modelo genera una respuesta basada tanto en ese contexto como en su conocimiento previo.

Esto mismo lo puedes ver de forma visual en la imagen siguiente:

Hay algunas limitaciones a tener en cuenta. El modelo sigue dependiendo de su ventana de contexto, por lo que los documentos muy grandes pueden no considerarse al completo de una vez. La calidad de la recuperación también depende de cómo se fragmente el documento, así que algunas respuestas pueden pasar por alto detalles si no se recuperan bien las secciones relevantes.

Ejecutar LM Studio como servidor de API local

Una de las funciones más potentes de LM Studio es ejecutarlo como servidor de API local. Esto te permite usar tu LLM local en scripts, apps u otras herramientas.

Iniciar el servidor

Paso 1: para activarlo, abre LM Studio y haz clic en el icono de Settings en la esquina inferior izquierda.

Paso 2: ve a la sección Developer en la barra lateral izquierda y activa el conmutador de Developer Mode.

Paso 3: vuelve a la interfaz de chat y haz clic en el icono de Developer de la barra lateral izquierda.

Paso 4: activa el conmutador junto a Status para iniciar el servidor, como en la imagen. Una vez en marcha, puedes copiar la dirección del servidor y probarla con una simple solicitud curl:

curl http://127.0.0.1:1234/v1/models

Si todo está bien configurado, verás una respuesta JSON con el listado del modelo disponible.

Conectar desde Python

Una vez que tu servidor local esté funcionando, puedes tratarlo como cualquier otra API. La única diferencia es que, en lugar de llamar a los servidores de OpenAI, llamas a tu propia máquina.

Aquí tienes un ejemplo sencillo:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

response = client.chat.completions.create(
    model="local-model",
    messages=[
        {"role": "user", "content": "Explain how local LLMs work"}
    ],
)

print(response.choices[0].message.content)

Qué está pasando aquí:

base_url le dice al código que use tu servidor local de LM Studio en lugar de OpenAI
api_key puede ser cualquier cosa (LM Studio no la exige)
model se refiere al modelo que cargaste en LM Studio
messages es tu prompt

Al ejecutar esto, tu solicitud va a «localhost:1234», el modelo la procesa y recibes una respuesta, como en cualquier llamada a una API. Esto funciona porque LM Studio sigue el formato de la API de OpenAI.

Conclusión

LM Studio te ofrece una interfaz limpia y práctica para trabajar con LLMs en local, con control total del entorno. Puedes seleccionar los modelos, ajustar la configuración, chatear con ellos e incluso ampliar el montaje para ejecutarlo como servidor de API local.

Lo más destacable es que antes ejecutar modelos de lenguaje grandes en local implicaba mucho montaje y herramientas. LM Studio reduce todo eso a algo más parecido a instalar y usar una app de escritorio normal.

Si quieres ir un paso más allá, el siguiente nivel es aprender a integrar estos modelos en flujos de trabajo reales. Puedes explorar cursos como Working with the OpenAI API o itinerarios más amplios de fundamentos de IA para entender cómo estructurar prompts, crear aplicaciones y trabajar con modelos de forma efectiva.

¿LM Studio es gratuito?

¿LM Studio funciona completamente sin conexión?

¿Puedo usar LM Studio en mis propias aplicaciones?

¿LM Studio puede manejar imágenes?

¿Cuánta RAM necesito para ejecutar LLMs en local?

Author

Srujana Maddula

Temas

Grandes modelos lingüísticos

Inteligencia Artificial

Cursos de IA

programa

Fundamentos de la IA

10 h

Descubre los fundamentos de la IA, aprende a aprovecharla de forma eficaz en el trabajo y sumérgete en modelos como chatGPT para navegar por el dinámico panorama de la IA.

Ver detalles

Iniciar curso

programa

Fundamentos de Hugging Face

12 h

Encuentra los últimos modelos, conjuntos de datos y aplicaciones de IA de código abierto, crea agentes de IA y ajusta los LLM con Hugging Face. ¡Únete hoy mismo a la mayor comunidad de IA!

Ver detalles

Iniciar curso

Curso

Trabajar con la API de OpenAI

3 h

132.1K

Desarrolla aplicaciones basadas en IA con la API OpenAI. Conoce la funcionalidad que sustenta aplicaciones populares de IA como ChatGPT.

Ver detalles

Iniciar curso

Relacionado

Tutorial

Guía para principiantes de LlaMA-Factory WebUI: Ajuste de los LLM

Aprende a afinar los LLM en conjuntos de datos personalizados, evaluar el rendimiento y exportar y servir modelos sin problemas utilizando el marco de trabajo de bajo/ningún código de LLaMA-Factory.

Abid Ali Awan

Tutorial

Tutorial sobre cómo crear aplicaciones LLM con LangChain

Explore el potencial sin explotar de los grandes modelos lingüísticos con LangChain, un marco Python de código abierto para crear aplicaciones avanzadas de IA.

Moez Ali

Tutorial

Ajuste fino de LLaMA 2: Guía paso a paso para personalizar el modelo de lenguaje grande

Aprende a ajustar Llama-2 en Colab utilizando nuevas técnicas para superar las limitaciones de memoria y computación y hacer más accesibles los grandes modelos lingüísticos de código abierto.

Abid Ali Awan

Tutorial

Guía introductoria para el ajuste preciso de los LLM

El ajuste preciso de los grandes modelos lingüísticos (LLM) ha revolucionado el procesamiento del lenguaje natural (PLN) y ofrece capacidades sin precedentes en tareas como la traducción lingüística, el análisis del sentimiento y la generación de textos. Este enfoque transformador aprovecha modelos preentrenados como el GPT-2 y mejora su rendimiento en dominios específicos mediante el proceso de ajuste preciso.

Josep Ferrer

Tutorial

RAG Con Llama 3.1 8B, Ollama y Langchain: Tutorial

Aprende a crear una aplicación RAG con Llama 3.1 8B utilizando Ollama y Langchain, configurando el entorno, procesando documentos, creando incrustaciones e integrando un recuperador.

Ryan Ong

Tutorial

Cómo formar a un LLM con PyTorch

Domine el proceso de entrenamiento de grandes modelos lingüísticos con PyTorch, desde la configuración inicial hasta la implementación final.

Zoumana Keita

Ver más Ver más

¿Qué es LM Studio?

LM Studio vs Ollama

Requisitos de sistema de LM Studio y elección de modelo

Cómo elegir el modelo adecuado para tu hardware

Instalar LM Studio

Descargar tu primer modelo en LM Studio

Explorar la pestaña Discover

Entender los formatos de modelo

Chatear con un LLM local en LM Studio

Cargar un modelo y configurar parámetros

Tu primera conversación

Chatear con tus documentos en LM Studio

Configurar preguntas y respuestas con documentos

Consultar tu base de conocimiento

Ejecutar LM Studio como servidor de API local

Iniciar el servidor

Conectar desde Python

Conclusión

Preguntas frecuentes sobre LM Studio

¿Puedo usar LM Studio en mis propias aplicaciones?

¿LM Studio puede manejar imágenes?

¿Cuánta RAM necesito para ejecutar LLMs en local?

Guía para principiantes de LlaMA-Factory WebUI: Ajuste de los LLM

Tutorial sobre cómo crear aplicaciones LLM con LangChain

Ajuste fino de LLaMA 2: Guía paso a paso para personalizar el modelo de lenguaje grande

Guía introductoria para el ajuste preciso de los LLM

RAG Con Llama 3.1 8B, Ollama y Langchain: Tutorial

Cómo formar a un LLM con PyTorch

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de la IA

Fundamentos de Hugging Face

Trabajar con la API de OpenAI

Guía para principiantes de LlaMA-Factory WebUI: Ajuste de los LLM

Tutorial sobre cómo crear aplicaciones LLM con LangChain

Ajuste fino de LLaMA 2: Guía paso a paso para personalizar el modelo de lenguaje grande

Guía introductoria para el ajuste preciso de los LLM

RAG Con Llama 3.1 8B, Ollama y Langchain: Tutorial

Cómo formar a un LLM con PyTorch

Fundamentos de la IA