Accéder au contenu principal

Cours

Apprentissage non supervisé en Python

IntermédiaireNiveau de compétence

Actualisé 12/2025

Apprenez à regrouper, transformer, visualiser et exploiter des données non étiquetées avec scikit-learn et scipy pour en tirer des insights.

Commencer le cours gratuitement

PythonMachine Learning

4 h

13 vidéos

52 Exercices

4,150 XP

180K+

Certificat de formation

Apprécié par des utilisateurs provenant de milliers d'entreprises

Former une équipe ?

Essayez pour les entreprises

Description du cours

Supposons que vous disposiez d'un ensemble de clients présentant diverses caractéristiques telles que l'âge, la localisation et l'historique financier, et que vous souhaitiez identifier des modèles et les regrouper en clusters. Ou bien, vous disposez d'un ensemble de textes, tels que des pages Wikipédia, et vous souhaitez les segmenter en catégories en fonction de leur contenu. C'est le domaine de l'apprentissage non supervisé, appelé ainsi parce que vous ne guidez ni ne supervisez la découverte de modèles par une tâche de prédiction, mais que vous découvrez plutôt la structure cachée de données non étiquetées. L'apprentissage non supervisé englobe diverses techniques de machine learning, du regroupement à la réduction de dimension en passant par la factorisation matricielle. Dans ce cours, vous apprendrez les principes fondamentaux de l'apprentissage non supervisé et mettrez en œuvre les algorithmes essentiels à l'aide de scikit-learn et SciPy. Vous apprendrez à regrouper, transformer, visualiser et extraire des informations à partir d'ensembles de données non étiquetés, et vous terminerez le cours en créant un système de recommandation pour recommander des artistes musicaux populaires.Les vidéos contiennent des transcriptions en direct que vous pouvez afficher en cliquant sur « Afficher la transcription » en bas à gauche des vidéos. Le glossaire du cours se trouve à droite dans la section « Ressources ».Pour obtenir des crédits CPE, vous devez suivre le cours dans son intégralité et obtenir une note de 70 % à l'évaluation. Vous pouvez accéder à l'évaluation en cliquant sur la mention « Crédits CPE » à droite.

Prérequis

Supervised Learning with scikit-learn

1

Regroupement pour l'exploration des ensembles de données

Apprenez à identifier les groupes sous-jacents (ou « clusters ») dans un ensemble de données. À la fin de ce chapitre, vous serez en mesure de regrouper des entreprises en fonction de leurs cours boursiers et de distinguer différentes espèces en regroupant leurs mesures.

Apprentissage non supervisé

Combien de clusters ?

Regroupement de points 2D

Inspecter votre clustering

Évaluation d'un regroupement

Combien de clusters pour les grains ?

Évaluer le clustering des grains

Transformation des caractéristiques pour améliorer les regroupements

Mise à l'échelle des données sur les poissons pour le regroupement

Regroupement des données sur les poissons

Regroupement des actions à l'aide de KMeans

Quelles actions évoluent de manière similaire ?

Commencer le chapitre

2

Visualisation avec regroupement hiérarchique et t-SNE

Dans ce chapitre, vous découvrirez deux techniques d'apprentissage non supervisé pour la visualisation des données : le regroupement hiérarchique et le t-SNE. Le regroupement hiérarchique fusionne les échantillons de données en grappes de plus en plus grossières, ce qui permet d'obtenir une visualisation arborescente de la hiérarchie des grappes obtenue. Le t-SNE mappe les échantillons de données dans un espace 2D afin de visualiser la proximité des échantillons les uns par rapport aux autres.

Visualisation des hiérarchies

Combien de fusions ?

Regroupement hiérarchique des données relatives aux grains

Hiérarchies d’actions

Étiquettes de clusters dans le regroupement hiérarchique

Quels sont les groupes les plus proches ?

Différents liens, différents regroupements hiérarchiques !

Regroupements intermédiaires

Extraction des étiquettes de cluster

t-SNE pour les cartes en deux dimensions

Visualisation t-SNE de l'ensemble de données sur les céréales

Une carte t-SNE du marché boursier

Commencer le chapitre

3

Décorrélation de vos données et réduction des dimensions

La réduction de dimension résume un ensemble de données à l'aide de ses modèles courants. Dans ce chapitre, vous découvrirez la technique de réduction de dimension la plus fondamentale, l'« analyse en composantes principales » (PCA). La PCA est souvent utilisée avant l'apprentissage supervisé afin d'améliorer les performances et la généralisation du modèle. Elle peut également être utile pour l'apprentissage non supervisé. Par exemple, vous utiliserez une variante de la PCA qui vous permettra de regrouper les articles de Wikipédia en fonction de leur contenu.

Visualisation de la transformation PCA

Données corrélées dans la nature

Décorréler les mesures des grains avec la PCA

Composantes principales

Dimension intrinsèque

La première composante principale

Variance des caractéristiques PCA

Dimension intrinsèque des données sur les poissons

Réduction de dimension avec PCA

Réduction des dimensions des mesures des poissons

Tableau de fréquence des mots tf-idf

Regroupement Wikipédia, partie I

Regroupement Wikipédia, partie II

Commencer le chapitre

4

Découverte de caractéristiques interprétables

Dans ce chapitre, vous découvrirez une technique de réduction de dimension appelée « factorisation matricielle non négative » (NMF) qui exprime les échantillons sous forme de combinaisons de parties interprétables. Par exemple, elle exprime les documents sous forme de combinaisons de thèmes et les images en termes de motifs visuels courants. Vous apprendrez également à utiliser la NMF pour créer des systèmes de recommandation capables de vous trouver des articles similaires à lire ou des artistes musicaux qui correspondent à votre historique d'écoute.

Factorisation non-négative de la matrice (NMF)

Données non négatives

NMF appliquée aux articles Wikipédia

Caractéristiques NMF des articles Wikipédia

NMF reconstruit les échantillons

La NMF identifie les parties interprétables

NMF apprend les sujets des documents

Explorer le jeu de données de chiffres LED

Le NMF apprend les composants des images

La PCA n'apprend pas les parties

Développement de systèmes de recommandation à l'aide de la NMF

Quels articles sont similaires à « Cristiano Ronaldo » ?

Recommander des artistes musicaux, partie I

Recommander des artistes musicaux, partie II

Dernières réflexions

Commencer le chapitre

Apprentissage non supervisé en Python

Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant

Pour les entreprises

Formation de 2 personnes ou plus ?

Offrez à votre équipe un accès complet à la plateforme DataCamp, avec toutes ses fonctionnalités.

Dans les cursus suivants

Associate Data Scientist en PythonCertification

Ingénieur IA associé pour les scientifiques de donnéesCertification

Principes fondamentaux de l'apprentissage automatique en Python

Chercheur en apprentissage automatique en Python

formateur

Benjamin Wilson

Benjamin Wilson

Director of Research at lateral.io

collaborateurs

Cours ressources

Company stock price movementsensemble de données

Eurovision 2016ensemble de données

Fish measurementsensemble de données

Grainsensemble de données

LCD digitsensemble de données

Musical artistsensemble de données

Wikipedia articlesensemble de données

Wineensemble de données

Course Glossaryensemble de données

Rejoignez plus de 19 millions d'utilisateurs et commencez Apprentissage non supervisé en Python dès aujourd'hui !

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.