Exécutez les LLM localement : 7 méthodes simples

Exécutez des LLM localement (Windows, macOS, Linux) en tirant parti de ces cadres LLM faciles à utiliser : GPT4All, LM Studio, Jan, llama.cpp, llamafile, Ollama et NextChat.

Actualisé 14 nov. 2024 · 14 min de lecture

L'utilisation de grands modèles de langage (LLM) sur des systèmes locaux devient de plus en plus populaire grâce à l'amélioration de la confidentialité, du contrôle et de la fiabilité. Parfois, ces modèles peuvent être encore plus précis et plus rapides que le ChatGPT.

Nous allons vous présenter sept façons d'exécuter des LLM localement avec l'accélération GPU sous Windows 11, mais les méthodes que nous couvrons fonctionnent également sous macOS et Linux.

Les cadres LLM qui nous aident à exécuter les LLM localement. Image d'Abid Ali Awan.

Si vous souhaitez vous familiariser avec les LLM en partant de zéro, vous pouvez commencer par ce cours sur les grands modèles d'apprentissage (LLM).

Commençons par explorer notre premier cadre LLM.

1. GPT4All

Le nomic-ai/gpt4all est un cadre LLM et une application de chatbot pour tous les systèmes d'exploitation. Nous pouvons exécuter les LLM localement, puis utiliser l'API pour les intégrer à n'importe quelle application, telle qu'un assistant de codage IA sur VSCode. Il s'agit de la méthode la plus simple et la plus conviviale pour télécharger et exécuter des LLM sur vos machines locales.

A. Téléchargement du client

Téléchargez l'installateur depuis le dépôt GitHub nomic-ai/gpt4all. Votre choix dépend de votre système d'exploitation - pour ce tutoriel, nous avons choisi Windows.

B. Télécharger le modèle

Installez le paquet GPT4All en sélectionnant les options par défaut. Lorsque nous lançons l'application GPT4All, nous sommes invités à télécharger le modèle linguistique avant de l'utiliser. Téléchargez le modèle de votre choix.

C. Sélection du modèle

Une fois le téléchargement terminé, fermez la page du modèle pour accéder à l'interface utilisateur du chat.

Sélectionnez le modèle que vous avez téléchargé - nous avons choisi Nous Hermes 2 Mistral DPO.

D. Générer une réponse

Si vous avez installé CUDA, il utilisera automatiquement un GPU pour accélérer la génération des réponses. Si ce n'est pas le cas et que vous disposez d'un GPU Nvidia, vous pouvez commencer par installer CUDA Toolkit 12.4.

Nous pouvons utiliser l'application de la même manière que nous utilisons le ChatGPT en ligne. Remarquez qu'elle est beaucoup plus rapide que la réponse typique du GPT-4.

E. Paramètres du modèle

Nous pouvons personnaliser la réponse du modèle en allant dans les paramètres et en jouant avec les paramètres du modèle.

Nous pouvons également connecter un dossier local aux fichiers pour obtenir une réponse adaptée au contexte.

En outre, nous pouvons activer le serveur API afin que toute application puisse utiliser notre modèle à l'aide d'une clé API.

F. Accéder aux modèles OpenAI

Nous pouvons accéder aux modèles GPT-3.5 et GPT-4 en fournissant la clé API de l'OpenAI.

Nous devons aller sur la page du modèle, faire défiler vers le bas, fournir la clé API du modèle GPT-4 et appuyer sur le bouton d'installation.

Ensuite, nous sélectionnons le modèle ChatGPT-4 dans l'interface utilisateur du chat.

Nous pouvons maintenant commencer à l'utiliser comme si nous l'utilisions sur notre navigateur.

Passons à notre prochain programme d'éducation et de formation tout au long de la vie. Ce tutoriel sur la classification des LLM vous aidera à choisir le LLM le mieux adapté à votre candidature.

2. LM Studio

LM Studio propose des options similaires à GPT4All, sauf qu'il ne permet pas de connecter un dossier local pour générer des réponses contextuelles.

A. Installation

Vous pouvez télécharger le programme d'installation à partir de la page d'accueil de LM Studio.

Une fois le téléchargement terminé, nous installons l'application avec les options par défaut.

Enfin, nous lançons LM Studio !

B. Télécharger le modèle

Nous pouvons télécharger n'importe quel modèle de Hugging Face en utilisant la fonction de recherche.

Dans notre cas, nous téléchargerons le plus petit modèle, Gemma 2B Instruct de Google.

C. Générer la réponse

Nous pouvons sélectionner le modèle téléchargé dans le menu déroulant en haut de la page et discuter avec lui comme d'habitude. LM Studio offre plus d'options de personnalisation que GPT4All.

D. Serveur d'inférence local

Comme pour GPT4All, nous pouvons personnaliser le modèle et lancer le serveur API en un seul clic. Pour accéder au modèle, nous pouvons utiliser le package Python de l'API OpenAI, CURL, ou l'intégrer directement à n'importe quelle application.

E. Utiliser plusieurs modèles

La caractéristique principale de LM Studio est qu'il offre la possibilité d'exécuter et de servir plusieurs modèles à la fois. Cela permet aux utilisateurs de comparer les résultats de différents modèles et de les utiliser pour de multiples applications. Afin d'exécuter plusieurs sessions de modélisation, nous avons besoin d'une VRAM élevée sur le GPU.

Le réglage fin est un autre moyen de générer des réponses adaptées au contexte et personnalisées. Vous pouvez apprendre à affiner votre modèle Google Gemma en suivant le tutoriel Fine Tuning Google Gemma : Améliorer les LLM avec des instructions personnalisées. Vous apprendrez à exécuter l'inférence sur des GPU/TPU et à affiner le dernier modèle Gemma 7b-it sur un ensemble de données de jeux de rôle.

3. Jan

L'une des candidatures locales les plus populaires et les plus attrayantes pour le LLM est celle de Jan. Il est plus rapide que n'importe quelle application LLM locale - il génère une réponse à 53,26 jetons/sec. À titre de comparaison, le taux de GPT4All est de 31 tokens/sec.

A. Installation

Vous pouvez télécharger le programme d'installation à partir de Jan.ai.

Une fois l'application Jan installée avec les paramètres par défaut, nous sommes prêts à la lancer.

B. Importer le modèle

Lorsque nous avons couvert GPT4All et LM Studio, nous avons déjà téléchargé deux modèles. Au lieu d'en télécharger un autre, nous allons importer ceux que nous avons déjà en allant sur la page du modèle et en cliquant sur le bouton Importer le modèle.

Ensuite, nous allons dans le répertoire des applications, nous sélectionnons les modèles GPT4All et LM Studio, et nous les importons tous les deux.

GPT4All : "C:/Users/<user_name>/AppData/Local/nomic.ai/GPT4All/"
LM Studio : "C:/Users/<user_name>/.cache/lm-studio/models"

C. Accéder aux modèles locaux

Pour accéder aux modèles locaux, nous allons dans l'interface utilisateur du chat et ouvrons la section des modèles dans le panneau de droite.

Nous constatons que nos modèles importés sont déjà sur place. Nous pouvons sélectionner celui que nous voulons et commencer à l'utiliser immédiatement !

D. Générer la réponse

La génération de réponses est très rapide. L'interface utilisateur est naturelle, similaire à celle de ChatGPT, et ne ralentit pas votre ordinateur portable ou PC.

La particularité de Jan est qu'il nous permet d'installer des extensions et d'utiliser des modèles propriétaires d'OpenAI, MistralAI, Groq, TensorRT et Triton RT.

E. Serveur API local

Comme LM Studio et GPT4All, nous pouvons également utiliser Jan comme serveur d'API local. Il offre davantage de possibilités de journalisation et de contrôle sur la réponse LLM.

4. llama.cpp

Un autre cadre LLM open-source populaire est llama.cpp. Il est purement écrit en C/C++, ce qui le rend rapide et efficace.

De nombreuses applications d'intelligence artificielle locales et en ligne sont basées sur llama.cpp. Ainsi, apprendre à l'utiliser localement vous donnera une longueur d'avance pour comprendre comment les autres applications LLM fonctionnent en coulisses.

A. Téléchargement du fichier llama.cpp

Tout d'abord, nous devons nous rendre dans le répertoire de notre projet à l'aide de la commande cd dans le shell - vous pouvez en apprendre davantage sur le terminal dans ce cours d'introduction au shell.

Ensuite, nous clonons tous les fichiers du serveur GitHub à l'aide de la commande ci-dessous :

$ git clone --depth 1 https://github.com/ggerganov/llama.cpp.git

B. Utilisation de MakeFile sous Windows

L'outil de ligne de commande make est disponible par défaut sous Linux et MacOS. Pour Windows, cependant, nous devons suivre les étapes suivantes :

Téléchargez la dernière version Fortran de w64devkit pour Windows.
Extraire w64devkit dans notre répertoire local.
Dans le dossier principal, nous devons trouver le fichier w64devkit.exe et le lancer.
Utilisez la commande $ cd C:/Repository/GitHub/llama.cpp pour accéder au dossier llama.cpp.
Tapez $ make et appuyez sur Entrée pour installer llama.cpp.

B. Démarrage du serveur WebUI de llama.cpp

Une fois l'installation terminée, nous lançons le serveur de l'interface web llama.cpp en tapant la commande ci-dessous. (Note : Nous avons copié le fichier modèle du dossier GPT4All dans le dossier llama.cpp afin de pouvoir accéder facilement au modèle).

$ ./server -m Nous-Hermes-2-Mistral-7B-DPO.Q4_0.gguf -ngl 27 -c 2048 --port 6589

Le serveur web fonctionne à l'adresse http://127.0.0.1:6589/. Vous pouvez copier cette URL et la coller dans votre navigateur pour accéder à l'interface web de llama.cpp.

Avant d'interagir avec le chatbot, nous devons modifier les réglages et les paramètres du modèle.

Consultez ce tutoriel sur llama.cpp si vous voulez en savoir plus !

D. Générer la réponse

La génération de réponses est lente parce que nous l'exécutons sur le processeur et non sur le GPU. Nous devons installer une version différente de llama.cpp pour l'exécuter sur le GPU.

$ make LLAMA_CUDA=1

5. Fichier d'information sur les animaux

Si vous trouvez que llama.cpp est un peu trop complexe, essayez llamafile. Ce cadre simplifie les LLM pour les développeurs et les utilisateurs finaux en combinant llama.cpp et Cosmopolitan Libc dans un seul fichier exécutable. Il supprime toutes les complexités associées aux LLM, ce qui les rend plus accessibles.

A. Téléchargement du fichier modèle

Nous pouvons télécharger le fichier modèle que nous voulons à partir du dépôt GitHub de llamafile.

Nous allons télécharger LLaVA 1.5 parce qu'elle peut aussi comprendre les images.

B. Modifications pour Windows

Les utilisateurs de Windows doivent ajouter .exe aux noms de fichiers dans le terminal. Pour ce faire, cliquez avec le bouton droit de la souris sur le fichier téléchargé et sélectionnez Renommer.

C. Exécution du fichier LlamaFile

Nous allons d'abord dans le répertoire llamafile en utilisant la commande cd dans le terminal. Ensuite, nous exécutons la commande ci-dessous pour démarrer le serveur web llama.cpp.

$ ./llava-v1.5-7b-q4.llamafile -ngl 9999

Le serveur web utilise le GPU sans que vous ayez à installer ou à configurer quoi que ce soit.

Il lancera également automatiquement le navigateur web par défaut avec l'application web llama.cpp en cours d'exécution. Si ce n'est pas le cas, nous pouvons utiliser l'URL http://127.0.0.1:8080/ pour y accéder directement.

D. Générer la réponse

Après avoir défini la configuration du modèle, nous pouvons commencer à utiliser l'application web.

Il est plus facile et plus efficace d'exécuter le fichier llama.cpp à l'aide du fichier llamafile. Nous avons généré la réponse avec 53,18 tokens/sec (sans llamafile, le taux était de 10,99 tokens/sec).

6. Ollama

Ollama est un outil qui nous permet d'accéder facilement aux LLM terminaux tels que Llama 3, Mistral et Gemma.

En outre, de nombreuses applications acceptent l'intégration d'Ollama, ce qui en fait un excellent outil pour un accès plus rapide et plus facile aux modèles linguistiques sur notre machine locale.

A. Installation d'Ollama

Vous pouvez télécharger Ollama à partir de la page de téléchargement.

Une fois installé (en utilisant les paramètres par défaut), le logo Ollama apparaîtra dans la barre des tâches.

B. La course à pied Ollama

Nous pouvons télécharger le modèle Llama 3 en tapant la commande suivante dans le terminal :

$ ollama run llama3

Le lama 3 est maintenant prêt à l'emploi ! Ci-dessous, vous trouverez une liste de commandes à utiliser si vous souhaitez utiliser d'autres LLM :

C. Exécution de modèles personnalisés

Pour accéder aux modèles qui ont déjà été téléchargés et qui sont disponibles dans le dossier llama.cpp, nous devons :

Accédez au dossier llama.cpp à l'aide de la commande cd.

$ cd C:/Repository/GitHub/llama.cpp

Créez un fichier appelé Modelfile et ajoutez la ligne "FROM ./Nous-Hermes-2-Mistral-7B-DPO.Q4_0.gguf".

$ echo "FROM ./Nous-Hermes-2-Mistral-7B-DPO.Q4_0.gguf" > Modelfile

Construisez le modèle en fournissant le nom du modèle.

$ ollama create NHM-7b -f Modelfile

Exécutez le modèle NHM-7b.

$ ollama run NHM-7b

Utilisez-le comme n'importe quelle autre application de chat.

Avec cette méthode, nous pouvons télécharger n'importe quel LLM de Hugging Face avec l'extension .gguf et l'utiliser dans le terminal. Si vous voulez en savoir plus, consultez ce cours sur le travail avec Hugging Face.

7. NextChat

NextChat, précédemment connu sous le nom de ChatGPT-Next-Web, est une application de chat qui nous permet d'utiliser GPT-3, GPT-4 et Gemini Pro via une clé API.

Il est également disponible sur l'interface web, et nous pouvons même déployer notre propre instant web en un seul clic sur Vercel.

Vous pouvez en savoir plus sur NextChat en suivant cette introduction détaillée au ChatGPT Next Web (NextChat).

A. Installation

Nous pouvons télécharger l'installateur depuis le dépôt GitHub. Pour Windows, sélectionnez le fichier .exe.

Comme précédemment, nous allons installer le paquet en utilisant les paramètres par défaut.

B. Mise en place de la clé API

L'application NextChat ne fonctionnera pas tant que nous n'aurons pas ajouté une clé API Google AI ou OpenAI.

Pour obtenir la clé API pour Google AI, nous devons aller sur Gemini API et cliquer sur le bouton bleu Obtenir une clé API dans Google AI Studio.

Ensuite, nous devons cliquer sur le bouton Obtenir une clé API, puis créer et copier la clé API. Il est gratuit, sans limitation de nombre de jetons.

Une fois que nous avons la clé API, nous naviguons vers les paramètres de NextChat et descendons jusqu'à la section Model Provider. Nous sélectionnons Google comme fournisseur de modèle et collons la clé API dans le champ prévu à cet effet.

C. Générer la réponse

Sur la page principale de l'interface utilisateur du chat, cliquez sur le bouton robot (🤖) au-dessus de l'entrée du chat et sélectionnez le modèle gemini-pro.

Nous utilisons Google Gemini localement et avons un contrôle total sur la personnalisation. Les données de l'utilisateur sont également sauvegardées localement.

De même, nous pouvons utiliser la clé API OpenAI pour accéder aux modèles GPT-4, les utiliser localement et économiser les frais d'abonnement mensuels.

Conclusion

L'installation et l'utilisation de LLM au niveau local peuvent être une expérience amusante et passionnante. Nous pouvons expérimenter les derniers modèles open-source par nous-mêmes, profiter de la confidentialité, du contrôle et d'une expérience de chat améliorée.

L'utilisation locale des LLM a également des applications pratiques, telles que l'intégration avec d'autres applications à l'aide de serveurs API et la connexion de dossiers locaux pour fournir des réponses adaptées au contexte. Dans certains cas, il est essentiel d'utiliser les LLM au niveau local, en particulier lorsque le respect de la vie privée et la sécurité sont des facteurs critiques.

Vous pouvez en savoir plus sur les LLM et la création d'applications d'IA en consultant les ressources suivantes :

Author

Abid Ali Awan

En tant que data scientist certifié, je suis passionné par l'utilisation des technologies de pointe pour créer des applications innovantes d'apprentissage automatique. Avec une solide expérience en reconnaissance vocale, en analyse de données et en reporting, en MLOps, en IA conversationnelle et en NLP, j'ai affiné mes compétences dans le développement de systèmes intelligents qui peuvent avoir un impact réel. En plus de mon expertise technique, je suis également un communicateur compétent, doué pour distiller des concepts complexes dans un langage clair et concis. En conséquence, je suis devenu un blogueur recherché dans le domaine de la science des données, partageant mes idées et mes expériences avec une communauté grandissante de professionnels des données. Actuellement, je me concentre sur la création et l'édition de contenu, en travaillant avec de grands modèles linguistiques pour développer un contenu puissant et attrayant qui peut aider les entreprises et les particuliers à tirer le meilleur parti de leurs données.

Sujets

Intelligence artificielle

Construisez votre carrière dans l'IA avec DataCamp !

Cursus

Fondamentaux de l’IA en entreprise

0 min

Accélérez votre montée en compétences IA, appropriez-vous ChatGPT et élaborez une stratégie IA complète.

Afficher les détails

Commencer le cours

Cours

Éthique de l'IA

1 h

54.1K

Explorez les principes éthiques de l’IA : équité, réduction des biais et confiance dans le design responsable.

Afficher les détails

Commencer le cours

Cours

Large Language Models for Business

1 h

11.3K

Learn about Large Language Models (LLMs) and how they are reshaping the business world.

Afficher les détails

Commencer le cours

1. GPT4All

A. Téléchargement du client

B. Télécharger le modèle

C. Sélection du modèle

D. Générer une réponse

E. Paramètres du modèle

F. Accéder aux modèles OpenAI

2. LM Studio

A. Installation

B. Télécharger le modèle

C. Générer la réponse

D. Serveur d'inférence local

E. Utiliser plusieurs modèles

3. Jan

A. Installation

B. Importer le modèle

C. Accéder aux modèles locaux

D. Générer la réponse

E. Serveur API local

4. llama.cpp

A. Téléchargement du fichier llama.cpp

B. Utilisation de MakeFile sous Windows

B. Démarrage du serveur WebUI de llama.cpp

D. Générer la réponse

5. Fichier d'information sur les animaux

A. Téléchargement du fichier modèle

B. Modifications pour Windows

C. Exécution du fichier LlamaFile

D. Générer la réponse

6. Ollama

A. Installation d'Ollama

B. La course à pied Ollama

C. Exécution de modèles personnalisés

7. NextChat

A. Installation

B. Mise en place de la clé API

C. Générer la réponse

Conclusion

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fondamentaux de l’IA en entreprise

Éthique de l'IA

Large Language Models for Business

Fondamentaux de l’IA en entreprise