Accéder au contenu principal

Exécutez Qwen3-Coder-Next localement : Vibe Code, un tableau de bord analytique

Veuillez exécuter Qwen3-Coder-Next localement sur une RTX 3090 avec llama.cpp, puis concevez un tableau de bord analytique complet en quelques minutes à l'aide de Qwen Code CLI.
Actualisé 6 févr. 2026  · 9 min lire

Qwen3-Coder-Next est un modèle de codage à poids ouvert développé par l'équipe Qwen, conçu pour la programmation agentique et les workflows des développeurs locaux. Il utilise un mélange restreint conception de mélange d'experts pour rester efficace tout en offrant des performances élevées sur les benchmarks modernes de codage et d'utilisation d'outils, avec une prise en charge des contextes longs et des tâches complexes en plusieurs étapes.

Ce qui rend Qwen3-Coder-Next particulièrement intéressant, c'est sa compétitivité par rapport aux meilleurs modèles fermés. Les premières évaluations indiquent qu'il peut atteindre des niveaux de performance proches de ceux de systèmes tels que Claude Sonnet 4.5, tout en restant un système que vous pouvez exécuter localement avec un contrôle total sur votre configuration, votre confidentialité et votre vitesse, sans dépendre d'API hébergées coûteuses.

Comparaison du modèle Qwen/Qwen3-Coder-Next avec d'autres modèles de codage open source et close source

Source : Qwen/Qwen3-Codeur-Suivant

Dans ce tutoriel, nous allons créer llama.cpp à partir du code source, exécuter Qwen3-Coder-Next localement à l'aide du serveur d'inférence llama.cpp, puis le connecter à Qwen Code CLI. Enfin, nous allons coder un tableau de bord simple pour l'analyse des données.

Qwen3-Coder-Next - Configuration matérielle et logicielle requise

Avant de compiler et d'exécuter Qwen3-Coder-Next localement, vous aurez besoin d'un environnement de développement Linux fonctionnel avec les outils de compilation standard requis pour compiler llama.cpp et exécuter les modèles GGUF.

En plus des paquets système, veuillez vous assurer que vous disposez également des éléments suivants :

  • Python (>= 3.11) pour la prise en charge des scripts et des flux de travail locaux
  • Node.js + npm (Node 20+) pour l'installation de l'interface CLI Qwen Code
  • Les pilotes corrects pour le GPU NVIDIA pilotes GPU NVIDIA
  • Le kit d'outils CUDA est configuré pour une accélération GPU complète.

Veuillez commencer par mettre à jour votre système et installer les dépendances principales :

sudo apt-get update
sudo apt-get install -y build-essential cmake curl git libcurl4-openssl-dev

Si vous envisagez d'utiliser l'accélération CUDA, veuillez noter que les cartes graphiques NVIDIA ne sont pas prises en charge. l'accélération CUDA, veuillez vérifier que votre GPU NVIDIA est correctement détecté :

nvidia-smi

Dans notre cas, nous utilisons une NVIDIA RTX 3090 avec 24 Go de VRAM. Étant donné que Qwen3-Coder-Next nécessite davantage de mémoire pour les quantifications plus importantes, les poids restants du modèle seront automatiquement transférés versla mémoire vive du systèm , ce qui permettra au modèle de continuer à fonctionner localement avec de bonnes performances.

Rapport SMI de Nvidia pour le modèle RTX 3090.

Pour assurer le bon fonctionnement de Qwen3-Coder-Next, votre matériel informatique doit respecter les exigences de mémoire suivantes :

  • 46 Go de RAM / VRAM / mémoire unifiée Recommandé pour GGUF 4 bits .
  • Environ 85 Go de mémoire nécessaire pour variantes 8 bits .

Si vous ne disposez pas de 46 Go d'espace disponible, vous pouvez toujours exécuter des versions quantifiées plus petites (telles que 3 bits).

Une règle empirique simple est la suivante :

Disque + RAM + VRAM ≥ taille quantifiée

Si l'ensemble des quantités tient dans la mémoire, vous pouvez vous attendre à des performances locales rapides. Dans le cas contraire, le modèle continuera de fonctionner par déchargement, mais l'inférence sera plus lente.

Installation de llama.cpp avec prise en charge CUDA

Avant d'exécuter Qwen3-Coder-Next localement, il est nécessaire de disposer d'un moteur d'inférence rapide. L'option la plus populaire actuellement est llama.cpp, qui offre une inférence GGUF légère et un serveur local facile à exécuter.

Si vous souhaitez une configuration rapide, llama.cpp propose des binaires précompilés pour macOS, Linux et Windows (y compris des versions compatibles CUDA). Vous pouvez les télécharger directement depuis la page officielle de GitHub : Version b7936 · ggml-org/llama.cpp

Avec une installation préconfigurée, vous pouvez immédiatement exécuter les outils CLI d' llama.cpp ou démarrer le serveur d'inférence sans avoir à compiler quoi que ce soit vous-même.

Veuillez télécharger le fichier binaire llama.cpp depuis le référentiel GitHub.

Dans ce tutoriel, nous allons compiler manuellement llama.cpp au lieu d'utiliser des binaires précompilés, et ce pour plusieurs raisons importantes :

  • Dernières mises à jour et corrections de bogues du référentiel GitHub
  • Prise en charge complète de CUDA Prise en charge CUDA Optimisé pour les systèmes Linux
  • Performances optimisées en fonction de votre GPU et de votre environnement spécifiques
  • Nécessaire pour les nouveaux formats quantitatifs et les récentes améliorations apportées à la qualité des résultats des modèles.

Commençons par télécharger le code source officiel llama.cpp directement depuis GitHub. Cela garantit que nous travaillons avec la version la plus récente, incluant les dernières améliorations CUDA et corrections de bogues :

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

À ce stade, vous devriez vous trouver dans le répertoire llama.cpp, qui contient tous les éléments nécessaires pour créer le projet à partir de zéro.

Ensuite, nous devons configurer le système de compilation à l'aide de CMake. Cette étape génère les fichiers de compilation requis et active l'accélération GPU via CUDA :

cmake /workspace/llama.cpp -B /workspace/llama.cpp/build -DGGML_CUDA=ON -DBUILD_SHARED_LIBS=OFF

Llama.cpp Configuration de compilation

Nous allons maintenant compiler le binaire du serveur d'inférence. Il s'agit du composant qui hébergera Qwen3-Coder-Next localement et exposera un point de terminaison API pour les outils de codage et les intégrations CLI :

cmake --build /workspace/llama.cpp/build -j --clean-first --target llama-server

Compilation binaire de llama.cpp.

Une fois la compilation terminée, les exécutables compilés sont stockés dans le répertoire build/bin/. Pour faciliter leur exécution directement à partir du dossier principal du projet, vous pouvez les copier de la manière suivante :

cp /workspace/llama.cpp/build/bin/llama-server /workspace/llama.cpp/llama-server

Téléchargement du modèle Qwen3-Coder-Next

Maintenant que llama.cpp est installé, l'étape suivante consiste à télécharger le modèle Qwen3-Coder-Next GGUF sur Hugging Face.

Avant de commencer, veuillez vous assurer que vous disposez d'une version récente de installation Python récente (>= 3.11), car les outils et utilitaires de transfert Hugging Face en dépendent.

Afin de télécharger efficacement les fichiers GGUF volumineux, nous utiliserons le client Hugging Face Hub ainsi que les backends Xet et transfer à haut débit :

pip install -U "huggingface_hub[hf_xet]" hf-xet hf_transfer

Ensuite, veuillez activer le backend de transfert optimisé de Hugging Face :

export HF_HUB_ENABLE_HF_TRANSFER=1

Nous pouvons désormais télécharger la versiondynamique GGUF de Qwen3-Coder-Next. Dans ce tutoriel, nous allons spécifiquement récupérer la quantificationUD-Q4_K_XL d' .

Il s'agit d'un excellent choix par défaut, car il offre un excellent compromis entre :

  • Qualité du modèle (très bonnes performances de codage)
  • Vitesse d'inférence (suffisamment rapide pour les flux de travail de codage d'ambiance locale)
  • Efficacité de la mémoire (compatible avec les GPU grand public haut de gamme avec déchargement de la RAM)

Le format Q4 signifie que le modèle est compressé à une précision de 4 bits. précision de 4 bits, ce qui le rend beaucoup plus léger que les poids FP16 complets tout en conservant une qualité de sortie impressionnante. 

hf download unsloth/Qwen3-Coder-Next-GGUF \
  --local-dir /workspace/models/qwen3-coder-next \
  --include "*UD-Q4_K_XL*"

Une fois la commande exécutée, les fichiers du modèle commenceront à être téléchargés dans votre répertoire local.

Téléchargement du modèle GGUF quantifié 4 bits unsloth/Qwen3-Coder-Next-GGUF

Sur un réseau haut débit, cela ne prend généralement que quelques minutes. Une fois le téléchargement terminé, le modèle GGUF sera prêt à être chargé dansle serveur llama d' pour une inférence locale.

Exécution du serveur d'inférence Qwen3-Coder-Next

Une fois le modèle GGUF téléchargé, nous pouvons lancer Qwen3-Coder-Next localement en utilisant le backend d'inférence llama-server. Cela permet de démarrer un serveur API compatible avec OpenAI auquel les outils de codage et les interfaces CLI peuvent se connecter.

Veuillez exécuter la commande suivante :

./llama-server \
  --model "/workspace/models/qwen3-coder-next/Qwen3-Coder-Next-UD-Q4_K_XL.gguf" \
  --alias "Qwen3-Coder-Next" \
  --host 0.0.0.0 \
  --port 8080 \
  --threads 32 \
  --threads-batch 32 \
  --ctx-size 20000\
  --batch-size  1024\ 
  --ubatch-size 256 \
  --jinja \
  --flash-attn on \
  --temp 0.7 \
  --top-p 0.9 \
  --min-p 0.05 \
  --fit on \
  --swa off

Serveur d'inférence Qwen3-Coder-Next fonctionnant localement

Explication des arguments clés :

  • --model: Chemin d'accès au fichier téléchargé Qwen3-Coder-Next GGUF checkpoint
  • --alias : Nom convivial du modèle affiché dans les clients API
  • --host 0.0.0.0: Expose le serveur sur toutes les interfaces réseau (utile pour l'accès à distance)
  • --port 8080: Exécute l'API d'inférence sur le port 8080
  • --threads 32: Utilise 32 threads CPU pour un débit maximal
  • --threads-batch 32: Parallélise le traitement par lots pour accélérer la génération de jetons.
  • --ctx-size 20000: Définit une fenêtre de contexte étendue (~20 000 jetons) pour les sessions de codage prolongées.
  • --batch-size 1024: Améliore l'utilisation du GPU pendant l'inférence
  • --ubatch-size 256: Contrôle le micro-batching pour des performances plus fluides
  • --jinja: Permet le formatage des modèles de chat requis pour les modèles de type instructionnel.
  • --flash-attn on: Active l'attention flash pour une inférence plus rapide dans un contexte étendu.
  • --temp 0.7: Permet de maintenir des résultats ciblés tout en conservant une approche créative pour le codage d'ambiance.
  • --top-p 0.9: Échantillonnage du noyau pour une diversité équilibrée
  • --min-p 0.05: Filtre les jetons à très faible probabilité pour des complétions plus claires.
  • --fit on: Ajustement automatique des couches dans la mémoire VRAM et transfert du reste dans la mémoire RAM
  • --swa off: Désactive l'attention par fenêtre glissante (plus adapté aux tâches nécessitant un contexte complet)

Une fois le serveur démarré, veuillez le laisser fonctionner dans cette fenêtre de terminal. Ensuite,veuillez ouvrir un nouvel onglet ou une nouvelle session de terminal pour tester l'API sans arrêter le serveur.

Depuis le nouveau terminal, vous pouvez vérifier que tout fonctionne correctement en interrogeant les modèles disponibles :

curl http://127.0.0.1:8080/v1/models

Si le serveur fonctionne correctement, vous devriez voir Qwen3-Coder-Next dans la réponse, ce qui signifie que votre point de terminaison d'inférence local est prêt à être utilisé.

Accédez au point de terminaison de l'API locale Qwen3-Coder-Next via l'interface utilisateur Web.

Une fois le serveur d'inférence en cours d'exécution, vous pouvez également interagir directement avec Qwen3-Coder-Next via l'interface utilisateur Web intégrée llama.cpp.

Veuillez ouvrir votre navigateur et vous rendre sur : http://127.0.0.1:8080.

Cela ouvre une interface simple de type chatGPT où vous pouvez rapidement tester des invites et vérifier que le modèle répond correctement.

Par exemple, commencez par demander au modèle de générer quelque chose de pratique, comme un bot de trading Python basique.

En utilisant l'interface utilisateur web llama.cppEn quelques secondes, vous obtiendrez une réponse complète avec un code fonctionnel et des étapes d'implémentation claires.

Obtenir 43,62 jetons par seconde sur RTX 3060 pour Qwen3-Coder-Next

Ce qui est particulièrement remarquable, c'est la rapidité. Sur notre configuration, Qwen3-Coder-Next génère environ 44 jetons par seconde, ce qui rend le codage local extrêmement réactif, suffisamment rapide pour les flux de travail de codage en temps réel.

Installation et configuration de l'interface CLI Qwen Code

Maintenant que le serveur d'inférence local fonctionne sur http://127.0.0.1:8080/v1, nous pouvons le connecter à Qwen Code CLI. Vous disposez ainsi d'un assistant de codage léger basé sur un terminal qui communique avec votre modèle Qwen3-Coder-Next local via l'API compatible OpenAI.

Qwen Code CLI est un outil basé sur Node, vous aurez donc besoin de :

  • Node.js 20+
  • npm (installé automatiquement avec Node.js sur Ubuntu/Debian)

Veuillez installer Node.js à partir de NodeSource (recommandé pour obtenir la version appropriée) :

sudo apt update
sudo apt install -y curl ca-certificates
curl -fsSL https://deb.nodesource.com/setup_20.x | sudo -E bash -
sudo apt install -y nodejs

Veuillez maintenant installer Qwen Code CLI de manière globale :

npm install -g @qwen-code/qwen-code@latest

Veuillez vérifier qu'il est correctement installé :

qwen --version 
0.9.0

Qwen CLI requiert des variables d'environnement de type OpenAI. Nous allons créer un fichier de configuration simple qui lui indique :

  • Veuillez utiliser une clé API factice (étant donné que nous fonctionnons localement)
  • Veuillez envoyer vos demandes à llama-server sur le port 8080
  • Veuillez utiliser le nom exact du modèle que nous avons défini avec --alias

Veuillez créer le répertoire de configuration et le fichier .env:

mkdir -p ~/.qwen
cat > ~/.qwen/.env <<'EOF'
OPENAI_API_KEY="dummy"
OPENAI_BASE_URL="http://127.0.0.1:8080/v1"
OPENAI_MODEL="Qwen3-Coder-Next"
EOF

Veuillez maintenant lancer Qwen Code :

qwen 

Qwen Code CLI configuré pour utiliser le serveur local LLama.cppÀ ce stade, votre CLI est connecté à votre serveur local Qwen3-Coder-Next, de sorte que chaque invite s'exécute localement au lieu de passer par une API hébergée.

Codage du tableau de bord analytique à l'aide de Qwen3-Coder-Next

Maintenant que tout fonctionne localement, nous pouvons commencer le codage de l'ambiance. vibe coding un tableau de bord analytique simple à l'aide de l'interface CLI interface CLI Qwen Code.

Tout d'abord, veuillez créer un nouveau dossier de projet et y accéder :

mkdir dashboardcd dashboard

Ensuite, veuillez lancer l'interface CLI Qwen à l'intérieur de ce répertoire :

qwen

Veuillez maintenant donner au modèle une instruction claire et simple, par exemple :

Veuillez créer un tableau de bord analytique HTML avec des données fictives (ventes, utilisateurs, revenus, taux de désabonnement), afficher des cartes KPI, un tableau interactif et au moins un graphique, et ajouter des filtres par période et par catégorie.

En quelques secondes, Qwen3-Coder-Next comprend les exigences et décompose la tâche en un plan structuré avant de rédiger le code.

Code Qwen Liste des tâches à accomplir pour le projet de tableau de bord analytique HTML.

Une fois la liste de contrôle complétée, le modèle a généré en une seule fois un tableau de bord entièrement fonctionnel, comprenant :

  • index.html
  • style.css
  • script.js

Tableau de bord créé à l'aide de Qwen Code et Qwen3-Coder-Next

Lorsque vous ouvrez le fichier index.html dans votre navigateur, vous verrez immédiatement apparaître un tableau de bord moderne et bien structuré, avec un style épuré, des cartes KPI et des indicateurs de remplacement réalistes. 

Interface utilisateur du tableau de bord analytique

Les filtres, les interactions avec les tableaux et les options de téléchargement fonctionnent tous de manière fluide dès leur installation.

Filtres du tableau de bord analytique

En faisant défiler la page vers le bas, le tableau de bord affiche également des données détaillées sur les transactions, avec environ 150 enregistrements fictifs, ce qui lui donne l'apparence d'un véritable produit d'analyse.

Données du tableau de bord analytique

Bien qu'il ne génère pas toutes les visualisations possibles (par exemple, un graphique linéaire représentant l'évolution des revenus dans le temps serait un ajout appréciable), le fait qu'un modèle quantifié fonctionnant localement puisse produire un tableau de bord fonctionnel en une seule fois est tout de même extrêmement impressionnant. 

Dans l'ensemble, la construction complète n'a pris que quelques minutes, de la demande à la sortie opérationnelle.

Conclusions finales

Je serai honnête : mon expérience avec Qwen3-Coder-Next a été quelque peu mitigée.

Sur le papier, les évaluations suggèrent qu'il devrait être proche des modèles de pointe tels que Claude Sonnet 4.5, et l'idée d'exécuter localement un modèle de codage MoE de 80 Go est vraiment passionnante. 

Dans ce tutoriel, nous avons réussi à compiler llama.cpp avec le support CUDA, téléchargé le quant Unsloth GGUF, lancé un serveur d'inférence local et même codé en quelques minutes un tableau de bord analytique fonctionnel. La vitesse et la réactivité locales étaient remarquables, en particulier pour une configuration à poids libre.

Cependant, dans la pratique, je n'ai pas constamment observé la fiabilité « de niveau Sonnet » que certains benchmarks suggèrent. J'ai passé plusieurs heures à tenter d'utiliser le modèle dans des environnements d'agents plus complexes telsqu' u opencode, et j'ai rencontré des problèmes tels que des erreurs d'outils, des générations instables et des sorties en boucle occasionnelles.

Il est intéressant de noter que le modèle m'a semblé beaucoup plus fiable lorsque je suis passé à un flux de travail plus simple utilisant Qwen Code CLI. Dans ce contexte, il a démontré une performance satisfaisante pour les tâches de codage direct, le prototypage rapide et les sessions de codage collaboratif. Son utilisation locale s'est avérée fluide, rapide et véritablement agréable.

Ma conclusion : Qwen3-Coder-Next mérite vraiment d'être testé, en particulier si vous recherchez un assistant de codage local performant sans API cloud. Cependant, je ne recommanderais pas encore de le considérer comme un substitut complet aux agents de codage de qualité production, à moins que vous ne soyez prêt à consacrer du temps au débogage, au réglage des paramètres de llama.cpp et à l'optimisation des performances de votre matériel.

Si vous souhaitez en savoir plus sur l'utilisation de l'IA dans vos flux de travail, je vous recommande de suivre le cours « AI-Assisted Coding for Developers » (Codage assisté par l'IA pour les développeurs).

FAQ Qwen3-Coder-Next

Qu'est-ce que Qwen3-Coder-Next ?

Qwen3-Coder-Next est un modèle d'IA avancé à poids ouvert spécialement conçu pour la programmation. Il utilise une architecture « Mixture-of-Experts » (MoE), qui lui confère une puissance exceptionnelle (80 milliards de paramètres) tout en restant suffisamment léger pour fonctionner sur du matériel grand public. Il est conçu pour gérer des tâches de codage complexes en plusieurs étapes qui nécessitent généralement des modèles payants coûteux.

Comment Qwen3-Coder-Next se positionne-t-il par rapport à GPT-5.2 ou Claude 4.5 ?

Bien que GPT-5.2 et Claude 4.5 puissent encore présenter un léger avantage en matière de raisonnement complexe, Qwen3-Coder-Next atteint une quasi-parité dans les tâches de codage. Il est essentiel de noter qu'il permet le codage local, vous offrant ainsi des générations illimitées, privées et sans latence , sans les limites de débit ni les coûts par jeton des API cloud.

De quel matériel ai-je besoin pour l'exécuter localement ?

Pour exécuter le modèle de manière fluide, il est nécessaire de disposer d'environ 46 Go de mémoire combinée (VRAM + RAM système). La configuration idéale pour le « vibe coding » est un GPU avec 24 Go de VRAM (comme une RTX 3090 ou 4090), qui permet de décharger le GPU des tâches les plus lourdes tout en utilisant la RAM du système pour le reste.

Qwen3-Coder-Next est-il gratuit ?

Oui. Contrairement à GitHub Copilot ou chatGPT, Qwen3-Coder-Next est « open weights », ce qui signifie que vous pouvez télécharger le fichier du modèle et l'utiliser hors ligne de manière illimitée. Il n'y a pas d'abonnement mensuel, pas de suivi des données et pas de frais d'API.


Abid Ali Awan's photo
Author
Abid Ali Awan
LinkedIn
Twitter

En tant que data scientist certifié, je suis passionné par l'utilisation des technologies de pointe pour créer des applications innovantes d'apprentissage automatique. Avec une solide expérience en reconnaissance vocale, en analyse de données et en reporting, en MLOps, en IA conversationnelle et en NLP, j'ai affiné mes compétences dans le développement de systèmes intelligents qui peuvent avoir un impact réel. En plus de mon expertise technique, je suis également un communicateur compétent, doué pour distiller des concepts complexes dans un langage clair et concis. En conséquence, je suis devenu un blogueur recherché dans le domaine de la science des données, partageant mes idées et mes expériences avec une communauté grandissante de professionnels des données. Actuellement, je me concentre sur la création et l'édition de contenu, en travaillant avec de grands modèles linguistiques pour développer un contenu puissant et attrayant qui peut aider les entreprises et les particuliers à tirer le meilleur parti de leurs données.

Sujets

Meilleurs cours DataCamp

Cours

Concevoir des systèmes agentiques avec LangChain

3 h
9.2K
Découvrez les composants clés des agents LangChain et créez vos propres agents de chat personnalisés.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow