Accéder au contenu principal
AccueilPython

Cours

Nettoyage des données en Python

IntermédiaireNiveau de compétence
Actualisé 12/2025
Apprenez à diagnostiquer et nettoyer les données sales pour transformer vos données brutes en insights précis et fiables !
Commencer le cours gratuitement
PythonData Preparation
4 h
13 vidéos
44 Exercices
3,500 XP
150K+
Certificat de formation

Créez votre compte gratuitement

Continuer avec GoogleAfficher plus d’options

ou


En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.

Apprécié par des utilisateurs provenant de milliers d'entreprises

Group

Former une équipe ?

Essayez pour les entreprises

Description du cours

Découvrez comment nettoyer des données en Python

La préparation des données est fondamentale : les scientifiques des données passent 80 % de leur temps à nettoyer et manipuler les données, et seulement 20 % de leur temps à les analyser. Le nettoyage des données est une étape essentielle pour tout scientifique des données, car l'analyse de données sales peut conduire à des conclusions inexactes.

Dans ce cours, vous apprendrez à identifier, diagnostiquer et traiter divers problèmes de nettoyage de données en Python, allant du plus simple au plus avancé. Vous traiterez les types de données inappropriés, vous vérifierez que vos données se situent dans la bonne plage, vous gérerez les données manquantes, vous effectuerez le couplage d'enregistrements, et bien plus encore !

Apprenez à nettoyer différents types de données

Le premier chapitre du cours explore les problèmes courants liés aux données et la manière dont vous pouvez les résoudre. Vous commencerez par comprendre les types de données de base et la manière de les traiter individuellement. Ensuite, vous appliquerez des contraintes de plage et supprimerez les points de données dupliqués.

Le dernier chapitre explore le couplage d'enregistrements, un outil puissant permettant de fusionner plusieurs ensembles de données. Vous apprendrez à lier des enregistrements en calculant la similarité entre les chaînes de caractères. Enfin, vous utiliserez vos nouvelles compétences pour fusionner deux ensembles de données de critiques de restaurants en un seul ensemble de données principal propre.

Gagnez en confiance dans le nettoyage des données

À la fin de la formation, vous serez en mesure de nettoyer des données de différents types et d'utiliser le couplage d'enregistrements pour fusionner plusieurs ensembles de données. Le nettoyage des données est une compétence essentielle pour les data scientists. Si vous souhaitez en savoir plus sur le nettoyage de données en Python et ses applications, consultez les cursus suivants : Data Scientist avec Python et Importation et nettoyage de données avec Python.

Prérequis

Python ToolboxJoining Data with pandas
1

Problèmes courants liés aux données

Dans ce chapitre, vous apprendrez comment surmonter certains des problèmes les plus courants liés aux données erronées. Vous convertirez les types de données, appliquerez des contraintes de plage pour supprimer les points de données futurs et supprimerez les points de données en double afin d'éviter les doubles comptages.
Commencer le chapitre
2

Problèmes liés aux données textuelles et catégorielles

Les données catégorielles et textuelles peuvent souvent constituer les parties les plus complexes d'un ensemble de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences en matière d'espaces et de majuscules dans les libellés de catégories, à regrouper plusieurs catégories en une seule et à reformater les chaînes de caractères pour plus de cohérence.
Commencer le chapitre
3

Problèmes liés aux données avancées

Dans ce chapitre, vous aborderez des problèmes plus avancés liés au nettoyage des données, tels que la vérification que tous les poids sont exprimés en kilogrammes plutôt qu'en livres. Vous acquerrez également des compétences inestimables qui vous aideront à vérifier que les valeurs ont été ajoutées correctement et que les valeurs manquantes n'ont pas d'impact négatif sur vos analyses.
Commencer le chapitre
4

Liaison d’enregistrements

Le couplage de données est une technique efficace utilisée pour fusionner plusieurs ensembles de données, notamment lorsque les valeurs contiennent des fautes de frappe ou des orthographes différentes. Dans ce chapitre, vous apprendrez à relier des enregistrements en calculant la similarité entre des chaînes de caractères. Vous utiliserez ensuite vos nouvelles compétences pour fusionner deux ensembles de données d'avis sur des restaurants en un seul ensemble de données propre.
Commencer le chapitre
Nettoyage des données en Python
Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performance
S'inscrire maintenant

Rejoignez plus de 19 millions d'utilisateurs et commencez Nettoyage des données en Python dès aujourd'hui !

Créez votre compte gratuitement

Continuer avec GoogleAfficher plus d’options

ou


En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.