Tutoriel LM Studio : démarrer avec des LLM locaux

Découvrez comment installer et exécuter des LLM en local avec LM Studio. Protégez vos données, discutez avec vos documents grâce au RAG intégré et mettez en place une API locale.

Actualisé 15 avr. 2026 · 10 min lire

Exécuter des modèles de langage de grande taille en local gagne en popularité, surtout lorsque vous ne souhaitez pas envoyer de données sensibles vers des serveurs externes. Quand tout tourne sur votre machine, vos invites et vos données restent dans votre environnement, ce qui vous offre plus de contrôle et une meilleure confidentialité.

Si vous voulez bénéficier des mêmes avantages, je vous montre pas à pas comment utiliser LM Studio pour faire tourner et discuter avec des LLM en local. C’est un outil orienté interface graphique, vous n’avez donc pas besoin d’expérience du terminal ni de connaissances techniques poussées. La configuration est simple et vous pouvez démarrer rapidement. Allons-y !

Si vous souhaitez aussi exécuter des outils agents en local, consultez nos tutoriels pour configurer OpenClaw et Claude Code avec Ollama.

Qu’est-ce que LM Studio ?

LM Studio est une application multiplateforme qui vous permet de télécharger et d’exécuter des modèles de langage de grande taille en local sur votre machine, afin que vos données ne fuitent jamais vers des serveurs externes.

Elle intègre un navigateur de modèles pour rechercher, parcourir et télécharger directement des modèles depuis Hugging Face. Vous pouvez récupérer quasiment n’importe quel modèle, y compris différentes versions de DeepSeek, Llama, Gemma, Phi ou Mistral. Vous n’avez pas besoin d’une configuration supplémentaire.

LM Studio est aussi une excellente option pour débuter, surtout si vous n’êtes pas à l’aise avec la ligne de commande. Vous disposez d’une interface conviviale pour choisir un modèle, ajuster la configuration et commencer à discuter immédiatement.

Vous pouvez également téléverser vos fichiers locaux et discuter avec eux : LM Studio peut joindre des fichiers .docx, .pdf et .txt aux sessions de chat. Si un document tient dans le contexte, il est ajouté en entier ; s’il est très long, LM Studio peut utiliser la génération augmentée par récupération (RAG) pour extraire les informations pertinentes et répondre à vos questions.

Comme LM Studio est multiplateforme, il fonctionne sans accroc sous Windows, Mac et Linux : vous n’êtes donc pas limité par votre environnement. Et une fois les bases acquises, vous pouvez aller plus loin. Il est possible de connecter vos LLM locaux à des outils, des sources de données et des API externes via l’intégration de serveurs MCP, ce qui le rend assez flexible pour des workflows avancés.

LM Studio vs Ollama

LM Studio et Ollama visent tous deux à exécuter et à interagir avec des modèles de langage de grande taille en local. Quelques différences clés toutefois :

Fonctionnalité	LM Studio	Ollama
Interface	Interface conviviale, orientée GUI	Interface orientée CLI, basée sur le terminal
RAG intégré	Oui, aucune configuration supplémentaire	Nécessite des outils externes
Prise en charge MCP	Intégrée	Limitée / non native
Téléchargement de modèles	Accès à Hugging Face depuis l’application	Via des commandes comme `ollama pull`
Facilité de mise en route	Très adapté aux débutants	Courbe d’apprentissage si vous découvrez la CLI

Configuration requise pour LM Studio et choix du modèle

Avant de télécharger des modèles dans LM Studio, il est utile de comprendre ce que votre système peut réellement supporter. Le modèle à choisir dépend directement de votre RAM disponible ; un mauvais choix peut tout ralentir, voire rendre l’application inutilisable.

Un tableau récapitulatif rapide des modèles adaptés selon la RAM disponible :

RAM	Ce que vous pouvez faire tourner confortablement
8 Go	Petits modèles (1B–4B)
16 Go	Modèles intermédiaires (7B–9B)
32 Go et +	Modèles plus grands (13B et au‑delà)

Le GPU est facultatif, mais il fait une vraie différence. Si vous en avez un, les réponses du modèle sont nettement plus rapides et fluides. Les GPU NVIDIA avec CUDA offrent le meilleur support, Apple Silicon exploite efficacement Metal, et AMD propose un support partiel selon la configuration.

Comment choisir le bon modèle pour votre matériel

Voici quelques recommandations pratiques pour sélectionner un modèle qui tourne bien sur votre machine sans la surcharger.

RAM/VRAM	Modèles recommandés
8 Go	Qwen 2.5 3B / 4B, Phi-3 Mini (3.8B), Gemma 2 2B
16 Go	Llama 3 8B, Gemma 2 9B, Mistral 7B, Qwen 2.5 7B
24 Go	Llama 3.1 8B (quantification de meilleure qualité), Mixtral 8x7B (quantifié), Qwen 2.5 14B
32 Go et +	Llama 3.1 70B (fortement quantifié), Qwen 2.5 32B, variantes Mixtral (meilleures configurations)

Vous verrez aussi différentes versions d’un même modèle avec des libellés comme Q4_K_M ou Q8_0. Cela renvoie aux niveaux de quantification, qui indiquent en substance comment le modèle est compressé. Une quantification plus faible, comme Q4, réduit l’usage mémoire et accélère l’exécution, mais vous perdez un peu en qualité. Une quantification plus élevée, comme Q8, préserve mieux la qualité de sortie, au prix de plus de RAM et de performances moindres.

En cas de doute, Q4 ou Q5 constitue en général un bon point de départ, notamment sur une configuration 16 Go comme la mienne.

Installer LM Studio

Pour commencer avec LM Studio, rendez-vous sur le site officiel et téléchargez l’application. Le site détecte automatiquement votre système d’exploitation et propose la version adaptée.

Selon vos réglages système, des autorisations peuvent être requises. Dans mon cas, sur Mac, l’application était disponible dès l’ouverture de l’installeur téléchargé.

Télécharger votre premier modèle dans LM Studio

À la première ouverture de LM Studio, vous arrivez sur une interface épurée avec le navigateur de modèles. Vous pouvez aussitôt rechercher des modèles, explorer les options disponibles et commencer à en télécharger un pour l’exécuter en local.

Parcourir l’onglet Discover

Ouvrez LM Studio et cliquez sur l’icône de recherche dans la barre latérale gauche.

C’est en quelque sorte votre marketplace de modèles : vous pouvez chercher un modèle précis, filtrer par taille et explorer différentes options. Chaque résultat dispose d’une fiche modèle qui fournit des informations utiles comme la taille, les capacités et parfois les cas d’usage recommandés. Prenez le temps de la parcourir avant de télécharger, pour savoir à quoi vous attendre.

Si vous suivez le tutoriel et souhaitez un point de départ fiable, optez pour quelque chose comme Qwen 2.5 7B (Q4_K_M) sur un système 16 Go (ou choisissez l’une de mes suggestions ci‑dessus). Il offre un bon équilibre entre performances et qualité, sans trop solliciter votre machine.

Comprendre les formats de modèles

En parcourant le catalogue, vous remarquerez que la plupart des modèles sont proposés au format GGUF. GGUF, pour GPT‑Generated Unified Format, est un format binaire conçu pour stocker et exécuter efficacement des LLM sur du matériel grand public.

Ce format fait correspondre les poids en haute précision (p. ex. Float16) à des entiers sur moins de bits (p. ex. 4 ou 5 bits) et regroupe les poids, les métadonnées et la configuration du modèle dans un seul fichier optimisé. Le chargement est plus rapide et la compatibilité est assurée avec des moteurs d’inférence comme llama.cpp, sur lequel LM Studio s’appuie en coulisses.

Discuter avec un LLM local dans LM Studio

Passons à la partie la plus intéressante et mettons le modèle en action.

Charger un modèle et configurer les paramètres

Étape 1 : ouvrez LM Studio et rendez‑vous dans la section My Models depuis le menu de gauche.

Étape 2 : cliquez sur l’icône Settings du modèle puis sur Load Model.

Une fois chargé, rendez‑vous dans l’onglet Inference sur le même écran : vous y trouverez les réglages pour la longueur de contexte, la température, etc.

Longueur de contexte : détermine la quantité d’informations que le modèle peut garder en mémoire pendant une conversation. Plus elle est élevée, plus vous pouvez travailler avec des entrées longues, mais la consommation mémoire augmente. Si votre RAM est limitée, restez modéré.
Température : règle le degré de créativité/prédictibilité du modèle. Des valeurs basses donnent des réponses plus déterministes, des valeurs hautes plus variées.
Invite système (system prompt) : définit le comportement du modèle. C’est ici que vous précisez le ton, le style et le rôle de l’assistant.

Votre première conversation

Une fois tout en place, vous pouvez discuter avec le modèle comme avec n’importe quel assistant IA. Voici un exemple simple :

J’ai demandé : « Quel est le meilleur modèle à utiliser avec 8 Go de RAM et des données images ? »

Le modèle a recommandé d’utiliser une architecture de réseau de neurones convolutionnel (CNN), comme illustré sur l’image.

Voilà pour le flux de base. La qualité des réponses dépend beaucoup de vos réglages. Par exemple, si vous définissez dans l’invite système « Expliquez tout en termes simples avec des réponses courtes », le modèle conservera ce style sur plusieurs échanges.

Discuter avec vos documents dans LM Studio

L’une des fonctionnalités les plus utiles de LM Studio est la prise en charge intégrée du RAG. Vous pouvez téléverser directement vos documents dans le chat et commencer à poser des questions.

Configurer le questions‑réponses sur documents

Pour démarrer, ouvrez une session de chat avec votre modèle chargé. Vous verrez une icône + pour joindre des fichiers. Cliquez dessus pour téléverser des documents, comme des PDF ou des fichiers texte, directement dans le chat.

Une fois le fichier ajouté, LM Studio le prépare automatiquement pour l’interrogation ; aucune configuration manuelle n’est nécessaire. En coulisse, le document est découpé en petits segments pour que le modèle puisse travailler efficacement. Ces segments sont ensuite convertis en embeddings, des représentations numériques du texte.

Quand vous posez une question, LM Studio récupère les segments les plus pertinents et les transmet au modèle avec votre requête. Le modèle s’appuie ainsi sur vos documents en plus de ses connaissances pour vous répondre.

Interroger votre base de connaissances

Par exemple, j’ai téléversé un article de recherche sur l’intelligence artificielle et demandé : « Quel est, selon vous, l’avenir de l’IA ? »

LM Studio extrait les sections les plus pertinentes du document et les envoie au modèle avec votre invite. Le modèle génère ensuite une réponse en combinant ce contexte et ses connaissances existantes.

Vous pouvez voir le même processus représenté visuellement ci‑dessous :

Gardez quelques limites à l’esprit : le modèle reste contraint par sa fenêtre de contexte, donc des documents très volumineux ne seront pas pris en compte en totalité d’un coup. La qualité de la récupération dépend aussi du découpage du document ; certaines réponses peuvent manquer de précision si les passages pertinents ne sont pas correctement récupérés.

Exécuter LM Studio en tant que serveur API local

LM Studio peut également faire office de serveur API local, ce qui est très puissant. Vous pouvez ainsi utiliser votre LLM local dans des scripts, des applications ou d’autres outils.

Démarrer le serveur

Étape 1 : pour activer cette option, ouvrez LM Studio et cliquez sur l’icône Settings en bas à gauche de l’écran.

Étape 2 : allez dans la section Developer dans la barre latérale gauche et activez le bouton Developer Mode.

Étape 3 : retournez à l’interface de chat et cliquez sur l’icône Developer dans le menu de gauche.

Étape 4 : activez le bouton à côté de Status pour démarrer le serveur, comme sur l’image ci‑dessous. Une fois lancé, copiez l’adresse du serveur et testez‑la avec une simple requête curl :

curl http://127.0.0.1:1234/v1/models

Si tout est correctement configuré, vous verrez une réponse JSON listant le modèle disponible.

Se connecter depuis Python

Une fois votre serveur local lancé, vous pouvez le traiter comme n’importe quelle API. La seule différence, c’est qu’au lieu d’appeler les serveurs d’OpenAI, vous interrogez votre propre machine.

Voici un exemple simple :

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

response = client.chat.completions.create(
    model="local-model",
    messages=[
        {"role": "user", "content": "Explain how local LLMs work"}
    ],
)

print(response.choices[0].message.content)

Ce qui se passe ici :

base_url indique au code d’utiliser votre serveur LM Studio local au lieu d’OpenAI
api_key peut être quelconque (LM Studio ne l’impose pas)
model fait référence au modèle que vous avez chargé dans LM Studio
messages correspond à votre invite

À l’exécution, votre requête part vers « localhost:1234 », le modèle la traite et vous obtenez une réponse, comme pour n’importe quel appel d’API. Cela fonctionne parce que LM Studio suit le format de l’API OpenAI.

Conclusion

LM Studio offre une interface claire et pratique pour travailler avec des LLM en local, tout en gardant la maîtrise totale de l’environnement. Vous choisissez les modèles, réglez les paramètres, discutez avec eux et pouvez même aller jusqu’à l’exposer en serveur API local.

Ce qui ressort, c’est que faire tourner des modèles de langage en local nécessitait auparavant beaucoup de configuration et d’outillage. LM Studio simplifie tout cela au point de ressembler à l’installation et l’utilisation d’une application de bureau classique.

Si vous souhaitez aller plus loin, la prochaine étape consiste à intégrer ces modèles dans de vrais workflows. Vous pouvez explorer des cours comme Working with the OpenAI API ou des parcours sur les fondamentaux de l’IA pour apprendre comment structurer des invites, créer des applications et travailler efficacement avec les modèles.

LM Studio est-il gratuit ?

LM Studio fonctionne‑t‑il entièrement hors ligne ?

Puis‑je utiliser LM Studio dans mes propres applications ?

LM Studio peut‑il traiter des images ?

De combien de RAM ai‑je besoin pour exécuter des LLM en local ?

Author

Srujana Maddula

Sujets

Grands modèles linguistiques

Intelligence artificielle

Cours d’IA

Cursus

Principes fondamentaux de l'IA

10 h

Découvrez les principes fondamentaux de l'IA, apprenez à l'utiliser efficacement dans votre travail et explorez des modèles tels que chatGPT pour vous orienter dans le paysage dynamique de l'IA.

Afficher les détails

Commencer le cours

Cursus

Principes fondamentaux de Hugging Face

Découvrez les derniers modèles d'IA open source, ensembles de données et applications, créez des agents IA et affinez les modèles d'apprentissage automatique (LLM) avec Hugging Face. Rejoignez dès aujourd'hui la plus grande communauté dédiée à l'intelligence artificielle.

Afficher les détails

Commencer le cours

Cours

Travailler avec l'API OpenAI

3 h

132.1K

Lancez-vous dans la création d'applications alimentées par l'IA avec l'API OpenAI. Découvrez ce qui fait tourner les applis les plus populaires, comme ChatGPT.

Afficher les détails

Commencer le cours

Contenus associés

blog

Architecture de l'entrepôt de données : Tendances, outils et techniques

Apprenez l'essentiel de l'architecture d'un entrepôt de données, des composants clés aux meilleures pratiques, pour construire un système de données évolutif et efficace !

Kurtis Pykes

15 min

Tutoriel

Cursor AI : Un guide avec 10 exemples pratiques

Apprenez à installer Cursor AI sur Windows, macOS et Linux, et découvrez comment l'utiliser à travers 10 cas d'utilisation différents.

Tutoriel

Fonctions lambda Python : Guide pour débutants

Découvrez les fonctions lambda Python, leur utilité et quand les utiliser. Comprend des exemples pratiques et des bonnes pratiques pour une mise en œuvre efficace.

Mark Pedigo

Tutoriel

Cache Python : Deux méthodes simples

Apprenez à utiliser des décorateurs tels que @functools.lru_cache ou @functools.cache pour mettre en cache des fonctions en Python.

Stephen Gruppetta

Tutoriel

Tutoriel Python sur les structures de données

Initiez-vous aux structures de données de Python : apprenez-en plus sur les types de données et les structures de données primitives et non primitives, telles que les chaînes de caractères, les listes, les piles, etc.

Sejal Jaiswal

Voir plus Voir plus

Qu’est-ce que LM Studio ?

LM Studio vs Ollama

Configuration requise pour LM Studio et choix du modèle

Comment choisir le bon modèle pour votre matériel

Installer LM Studio

Télécharger votre premier modèle dans LM Studio

Parcourir l’onglet Discover

Comprendre les formats de modèles

Discuter avec un LLM local dans LM Studio

Charger un modèle et configurer les paramètres

Votre première conversation

Discuter avec vos documents dans LM Studio

Configurer le questions‑réponses sur documents

Interroger votre base de connaissances

Exécuter LM Studio en tant que serveur API local

Démarrer le serveur

Se connecter depuis Python

Conclusion

FAQ sur LM Studio

Puis‑je utiliser LM Studio dans mes propres applications ?

LM Studio peut‑il traiter des images ?

De combien de RAM ai‑je besoin pour exécuter des LLM en local ?

Architecture de l'entrepôt de données : Tendances, outils et techniques

Cursor AI : Un guide avec 10 exemples pratiques

Fonctions lambda Python : Guide pour débutants

Cache Python : Deux méthodes simples

Tutoriel Python sur les structures de données

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Principes fondamentaux de l'IA

Principes fondamentaux de Hugging Face

Travailler avec l'API OpenAI

Architecture de l'entrepôt de données : Tendances, outils et techniques

Cursor AI : Un guide avec 10 exemples pratiques

Fonctions lambda Python : Guide pour débutants

Cache Python : Deux méthodes simples

Tutoriel Python sur les structures de données

Principes fondamentaux de l'IA