Ir al contenido principal

Tutorial de LM Studio: empieza con LLMs locales

Descubre cómo instalar y ejecutar LLMs en local con LM Studio. Mantén tus datos privados, chatea con documentos usando RAG integrado y configura una API local.
Actualizado 15 abr 2026  · 10 min leer

Ejecutar modelos de lenguaje grandes en local se ha vuelto cada vez más popular, sobre todo cuando no quieres enviar datos privados a servidores externos. Cuando todo funciona en tu equipo, tus prompts y tus datos se quedan en tu entorno, lo que te da más control y mejor privacidad.

Si quieres esa misma potencia, te explico cómo usar LM Studio para ejecutar y chatear con LLMs en local. Es una herramienta centrada en la interfaz gráfica, así que no necesitas experiencia con la terminal ni conocimientos técnicos profundos. La configuración es sencilla y puedes empezar en minutos. ¡Vamos a ello!

Si te interesa ejecutar herramientas de agentes en local, te recomiendo echar un vistazo a nuestros tutoriales para configurar OpenClaw y Claude Code con Ollama, respectivamente.

¿Qué es LM Studio?

LM Studio es una aplicación multiplataforma que te permite descargar y ejecutar modelos de lenguaje grandes en local en tu equipo para que tus datos no salgan a servidores externos. 

Incluye un navegador de modelos integrado donde puedes buscar, explorar y descargar modelos directamente desde Hugging Face. Puedes descargar prácticamente cualquier modelo que quieras, incluidas distintas versiones de DeepSeek, Llama, Gemma, Phi o Mistral. No necesitas ninguna configuración extra. 

LM Studio también es una gran opción para principiantes, especialmente si no te manejas cómodo con la línea de comandos. Te ofrece una interfaz muy intuitiva donde puedes elegir un modelo, ajustar la configuración y ponerte a chatear al instante. 

También puedes subir archivos locales y chatear con ellos: LM Studio puede adjuntar archivos .docx, .pdf y .txt a las sesiones de chat. Si un documento cabe en el contexto, se añade completo; si es muy largo, LM Studio puede usar retrieval-augmented generation (RAG) para extraer información relevante de esos archivos y responder a tus preguntas.

Como LM Studio es multiplataforma, funciona sin problemas en Windows, Mac y Linux, así que no estás limitado por tu configuración. Y cuando superas lo básico, puedes hacer aún más. Puedes conectar tus LLMs locales a herramientas externas, fuentes de datos y APIs integrando servidores MCP, lo que le da suficiente flexibilidad para flujos de trabajo avanzados.

LM Studio vs Ollama

LM Studio y Ollama están pensados para ejecutar y chatear con modelos de lenguaje grandes en local. Sin embargo, hay algunas diferencias clave:

Función

LM Studio

Ollama

Interfaz

Primero GUI, interfaz fácil de usar

Primero CLI, interfaz basada en terminal

RAG integrado

Sí, sin configuración adicional

Requiere herramientas externas

Compatibilidad MCP

Integrada

Limitada / no nativa

Descarga de modelos

Acceso a Hugging Face desde la app

Mediante comandos como ollama pull

Facilidad de configuración

Muy amigable para principiantes

Cierta curva de aprendizaje si eres nuevo en CLI

Requisitos de sistema de LM Studio y elección de modelo

Antes de empezar a descargar modelos en LM Studio, conviene entender qué puede soportar realmente tu sistema. El modelo que elijas depende directamente de tu RAM disponible, y elegir mal puede ralentizarlo todo o volver la app inutilizable.

Una tabla rápida con modelos adecuados según la RAM disponible:

RAM

Qué puedes ejecutar con comodidad

8GB

Modelos pequeños (1B–4B)

16GB

Modelos medianos (7B–9B)

32GB+

Modelos más grandes (13B en adelante)

La GPU es opcional, pero marca una diferencia notable. Si tienes una, las respuestas del modelo serán mucho más rápidas y fluidas. Las GPUs de NVIDIA con soporte CUDA funcionan mejor, Apple Silicon usa Metal de forma eficaz y AMD tiene soporte parcial según la configuración.

Cómo elegir el modelo adecuado para tu hardware

Aquí tienes algunas recomendaciones prácticas para elegir un modelo que realmente funcione bien en tu equipo sin forzarlo.

RAM/VRAM

Modelos recomendados 

8GB

Qwen 2.5 3B / 4B, Phi-3 Mini (3.8B), Gemma 2 2B

16GB

Llama 3 8B, Gemma 2 9B, Mistral 7B, Qwen 2.5 7B

24GB

Llama 3.1 8B (quant de mayor calidad), Mixtral 8x7B (cuantizado), Qwen 2.5 14B

32GB+

Llama 3.1 70B (fuertemente cuantizado), Qwen 2.5 32B, variantes de Mixtral (mejores configuraciones)

También verás diferentes versiones del mismo modelo con etiquetas como Q4_K_M o Q8_0. Esto se refere a los niveles de cuantización, que básicamente indican cómo se comprime el modelo. Una cuantización más baja, como Q4, reduce el uso de memoria y va más rápido, pero pierdes algo de calidad. Una cuantización más alta, como Q8, mantiene mejor calidad de salida, pero requiere más RAM y va más lenta.

Si tienes dudas, Q4 o Q5 suele ser un buen punto de partida, especialmente con una configuración de 16GB como la mía.

Instalar LM Studio

Para empezar con LM Studio, ve al sitio web oficial y descarga la app. La web detecta automáticamente tu sistema operativo y te ofrece la versión correspondiente.

Descarga de LM StudioPuede que te pida permisos según la configuración de tu sistema. En mi caso, en Mac, estuvo disponible como aplicación nada más abrir el instalador descargado.

Descargar tu primer modelo en LM Studio

Cuando abras LM Studio por primera vez, verás una interfaz limpia con el explorador de modelos. Puedes buscar modelos al momento, explorar opciones disponibles y empezar a descargar uno para ejecutarlo en local.

Explorar la pestaña Discover

Abre LM Studio y haz clic en el icono de búsqueda de la barra lateral izquierda.

Pestaña Discover de LM Studio

Básicamente es tu mercado de modelos, donde puedes buscar modelos concretos, filtrar por tamaño y explorar distintas opciones. Al buscar, cada modelo viene con una tarjeta informativa que te da contexto útil como tamaño, capacidades y, a veces, casos de uso recomendados. Merece la pena echarle un vistazo antes de descargar para saber qué esperar.

Descargando Qwen2.5-VL-7B en LM Studio

Si sigues el tutorial y quieres un punto de partida fiable, elige alguno como Qwen 2.5 7B (Q4_K_M) para un sistema de 16GB (o toma una de las sugerencias que hice arriba). Ofrece un buen equilibrio entre rendimiento y calidad, y funciona fluido sin forzar tu equipo.

Entender los formatos de modelo

Mientras navegas, verás que la mayoría de modelos están disponibles en formato GGUF. GGUF, de GPT-Generated Unified Format, es un formato binario para almacenar y ejecutar LLMs de forma eficiente en hardware de consumo. 

Este formato mapea los pesaos de alta precisión (p. ej., Float16) de los modelos a enteros de menos bits (p. ej., 4-bit, 5-bit) y empaqueta los pesos, metadatos y configuración en un único archivo optimizado. Facilita la carga y garantiza compatibilidad con motores de inferencia como llama.cpp, en el que se apoya LM Studio por debajo.

Chatear con un LLM local en LM Studio

Vamos a la parte interesante: poner el modelo en marcha.

Cargar un modelo y configurar parámetros

Paso 1: abre LM Studio y ve a la sección My Models desde el menú de la izquierda.

LM Studio My Models

Paso 2: haz clic en el icono de Settings del modelo y luego en Load Model.

Ajustes de modelo en LM Studio

Una vez cargado, ve a la pestaña Inference en la misma pantalla; verás controles para la longitud de contexto, la temperatura y más.

Pestaña Inference de LM Studio

  • Context length controla cuánta información puede recordar el modelo durante una conversación. Un valor alto te permite trabajar con entradas más largas, pero también usa más memoria. Si vas justo de RAM, mejor mantenlo moderado. 
  • Temperature controla lo creativo o predecible que es el modelo. Valores bajos hacen respuestas más deterministas; valores altos, más variadas. 
  • System prompt define el comportamiento del modelo. Aquí marcas cómo debe responder el asistente, incluido tono, estilo y rol.

Tu primera conversación

Cuando todo esté listo, puedes empezar a chatear con el modelo como con cualquier asistente de IA. Aquí va un ejemplo sencillo:

Le pedí: «¿Cuál es el mejor modelo para usar con 8GB de RAM y datos de imagen?»

El modelo sugirió usar un modelo con arquitectura de red neuronal convolucional (CNN), como se muestra en la imagen.

Chateando con Qwen2.5 en LM Studio

Ese es el flujo básico. La calidad de las respuestas depende mucho de tu configuración. Por ejemplo, si en el system prompt indicas «Explica todo en términos sencillos y con respuestas cortas», el modelo se mantiene coherente con ese estilo en varias respuestas. 

Chatear con tus documentos en LM Studio

Una de las funciones más útiles de LM Studio es su soporte de RAG integrado. Puedes subir documentos directamente al chat y empezar a hacer preguntas.

Configurar preguntas y respuestas con documentos

Para empezar, abre una sesión de chat con el modelo cargado. Verás un icono de + para adjuntar archivos. Haz clic para subir PDFs o archivos de texto directamente en el chat.

Adjuntar archivo para RAG en LM Studio

Una vez añadido el archivo, LM Studio lo prepara automáticamente para las consultas, así que no tienes que configurar nada a mano. Por debajo, el documento se divide en fragmentos más pequeños para que el modelo trabaje con ellos de forma eficiente. Estos fragmentos se convierten en embeddings, que son representaciones numéricas del texto. 

Cuando haces una pregunta, LM Studio recupera los fragmentos más relevantes y se los pasa al modelo junto con tu consulta. Así, el modelo recibe información extra de tus documentos y responde en consecuencia.

Consultar tu base de conocimiento

Por ejemplo, subí un artículo de investigación sobre inteligencia artificial y pregunté: «¿Cuál es tu opinión sobre el futuro de la IA?»

LM Studio extrae las secciones más relevantes del documento y se las envía al modelo junto con tu prompt. El modelo genera una respuesta basada tanto en ese contexto como en su conocimiento previo.

Esto mismo lo puedes ver de forma visual en la imagen siguiente:

Usar RAG en LM Studio

Hay algunas limitaciones a tener en cuenta. El modelo sigue dependiendo de su ventana de contexto, por lo que los documentos muy grandes pueden no considerarse al completo de una vez. La calidad de la recuperación también depende de cómo se fragmente el documento, así que algunas respuestas pueden pasar por alto detalles si no se recuperan bien las secciones relevantes.

Ejecutar LM Studio como servidor de API local

Una de las funciones más potentes de LM Studio es ejecutarlo como servidor de API local. Esto te permite usar tu LLM local en scripts, apps u otras herramientas.

Iniciar el servidor

Paso 1: para activarlo, abre LM Studio y haz clic en el icono de Settings en la esquina inferior izquierda.

Paso 2: ve a la sección Developer en la barra lateral izquierda y activa el conmutador de Developer Mode.

Activar Developer Mode en LM Studio

Paso 3: vuelve a la interfaz de chat y haz clic en el icono de Developer de la barra lateral izquierda.

Menú Developer de LM Studio

Paso 4: activa el conmutador junto a Status para iniciar el servidor, como en la imagen. Una vez en marcha, puedes copiar la dirección del servidor y probarla con una simple solicitud curl: 

curl http://127.0.0.1:1234/v1/models

Ejecutar LM Studio como servidor de API local

Si todo está bien configurado, verás una respuesta JSON con el listado del modelo disponible.

Respuesta del servidor API de LM Studio

Conectar desde Python

Una vez que tu servidor local esté funcionando, puedes tratarlo como cualquier otra API. La única diferencia es que, en lugar de llamar a los servidores de OpenAI, llamas a tu propia máquina.

Aquí tienes un ejemplo sencillo:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

response = client.chat.completions.create(
    model="local-model",
    messages=[
        {"role": "user", "content": "Explain how local LLMs work"}
    ],
)

print(response.choices[0].message.content)

Qué está pasando aquí:

  • base_url le dice al código que use tu servidor local de LM Studio en lugar de OpenAI

  • api_key puede ser cualquier cosa (LM Studio no la exige)

  • model se refiere al modelo que cargaste en LM Studio

  • messages es tu prompt

Al ejecutar esto, tu solicitud va a «localhost:1234», el modelo la procesa y recibes una respuesta, como en cualquier llamada a una API. Esto funciona porque LM Studio sigue el formato de la API de OpenAI

Conclusión

LM Studio te ofrece una interfaz limpia y práctica para trabajar con LLMs en local, con control total del entorno. Puedes seleccionar los modelos, ajustar la configuración, chatear con ellos e incluso ampliar el montaje para ejecutarlo como servidor de API local.

Lo más destacable es que antes ejecutar modelos de lenguaje grandes en local implicaba mucho montaje y herramientas. LM Studio reduce todo eso a algo más parecido a instalar y usar una app de escritorio normal.

Si quieres ir un paso más allá, el siguiente nivel es aprender a integrar estos modelos en flujos de trabajo reales. Puedes explorar cursos como Working with the OpenAI API o itinerarios más amplios de fundamentos de IA para entender cómo estructurar prompts, crear aplicaciones y trabajar con modelos de forma efectiva.

Preguntas frecuentes sobre LM Studio

¿LM Studio es gratuito?

Sí, LM Studio se puede descargar y usar gratis. No hay cuotas de suscripción, límites de uso ni funciones básicas detrás de un muro de pago.

¿LM Studio funciona completamente sin conexión?

Sí, una vez que descargas un modelo, todo funciona en local. Solo necesitas conexión a internet para descargar modelos desde Hugging Face.

¿Puedo usar LM Studio en mis propias aplicaciones?

Sí, LM Studio puede ejecutarse como servidor de API local que sigue el formato de la API de OpenAI. Esto significa que puedes conectarlo a scripts, aplicaciones u otras herramientas que se ejecuten en tu equipo.

¿LM Studio puede manejar imágenes?

Sí, pero solo con modelos con visión. Si cargas un modelo multimodal como LLaVA o Qwen-VL, puedes subir imágenes y hacer preguntas sobre ellas. Los modelos estándar solo de texto no admiten entradas de imagen.

¿Cuánta RAM necesito para ejecutar LLMs en local?

Depende del tamaño del modelo. Con 8GB puedes manejar modelos pequeños; 16GB es suficiente para muchos casos de uso, pero 32GB o más suelen ser necesarios para modelos grandes.


Srujana Maddula's photo
Author
Srujana Maddula
LinkedIn

Srujana es una redactora técnica autónoma con una licenciatura de cuatro años en Informática. Escribir sobre diversos temas, como la ciencia de datos, la computación en la nube, el desarrollo, la programación, la seguridad y muchos otros, le resulta natural. Le encanta la literatura clásica y explorar nuevos destinos.

Temas

Cursos de IA

programa

Fundamentos de la IA

10 h
Descubre los fundamentos de la IA, aprende a aprovecharla de forma eficaz en el trabajo y sumérgete en modelos como chatGPT para navegar por el dinámico panorama de la IA.
Ver detallesRight Arrow
Iniciar curso
Ver másRight Arrow