Cours
Nettoyage des données en Python
IntermédiaireNiveau de compétence
Actualisé 12/2025
PythonData Preparation4 h13 vidéos44 Exercices3,500 XP150K+Certificat de formation
Créez votre compte gratuitement
Continuer avec GoogleAfficher plus d’optionsou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.
Apprécié par des utilisateurs provenant de milliers d'entreprises
Former une équipe ?
Essayez pour les entreprisesDescription du cours
Découvrez comment nettoyer des données en Python
La préparation des données est fondamentale : les scientifiques des données passent 80 % de leur temps à nettoyer et manipuler les données, et seulement 20 % de leur temps à les analyser. Le nettoyage des données est une étape essentielle pour tout scientifique des données, car l'analyse de données sales peut conduire à des conclusions inexactes.Dans ce cours, vous apprendrez à identifier, diagnostiquer et traiter divers problèmes de nettoyage de données en Python, allant du plus simple au plus avancé. Vous traiterez les types de données inappropriés, vous vérifierez que vos données se situent dans la bonne plage, vous gérerez les données manquantes, vous effectuerez le couplage d'enregistrements, et bien plus encore !
Apprenez à nettoyer différents types de données
Le premier chapitre du cours explore les problèmes courants liés aux données et la manière dont vous pouvez les résoudre. Vous commencerez par comprendre les types de données de base et la manière de les traiter individuellement. Ensuite, vous appliquerez des contraintes de plage et supprimerez les points de données dupliqués.Le dernier chapitre explore le couplage d'enregistrements, un outil puissant permettant de fusionner plusieurs ensembles de données. Vous apprendrez à lier des enregistrements en calculant la similarité entre les chaînes de caractères. Enfin, vous utiliserez vos nouvelles compétences pour fusionner deux ensembles de données de critiques de restaurants en un seul ensemble de données principal propre.
Gagnez en confiance dans le nettoyage des données
À la fin de la formation, vous serez en mesure de nettoyer des données de différents types et d'utiliser le couplage d'enregistrements pour fusionner plusieurs ensembles de données. Le nettoyage des données est une compétence essentielle pour les data scientists. Si vous souhaitez en savoir plus sur le nettoyage de données en Python et ses applications, consultez les cursus suivants : Data Scientist avec Python et Importation et nettoyage de données avec Python.Prérequis
Python ToolboxJoining Data with pandas1
Problèmes courants liés aux données
Dans ce chapitre, vous apprendrez comment surmonter certains des problèmes les plus courants liés aux données erronées. Vous convertirez les types de données, appliquerez des contraintes de plage pour supprimer les points de données futurs et supprimerez les points de données en double afin d'éviter les doubles comptages.
2
Problèmes liés aux données textuelles et catégorielles
Les données catégorielles et textuelles peuvent souvent constituer les parties les plus complexes d'un ensemble de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences en matière d'espaces et de majuscules dans les libellés de catégories, à regrouper plusieurs catégories en une seule et à reformater les chaînes de caractères pour plus de cohérence.
3
Problèmes liés aux données avancées
Dans ce chapitre, vous aborderez des problèmes plus avancés liés au nettoyage des données, tels que la vérification que tous les poids sont exprimés en kilogrammes plutôt qu'en livres. Vous acquerrez également des compétences inestimables qui vous aideront à vérifier que les valeurs ont été ajoutées correctement et que les valeurs manquantes n'ont pas d'impact négatif sur vos analyses.
4
Liaison d’enregistrements
Le couplage de données est une technique efficace utilisée pour fusionner plusieurs ensembles de données, notamment lorsque les valeurs contiennent des fautes de frappe ou des orthographes différentes. Dans ce chapitre, vous apprendrez à relier des enregistrements en calculant la similarité entre des chaînes de caractères. Vous utiliserez ensuite vos nouvelles compétences pour fusionner deux ensembles de données d'avis sur des restaurants en un seul ensemble de données propre.
Nettoyage des données en Python
Cours terminé
Obtenez un certificat de réussite
Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolioPartagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant
Rejoignez plus de 19 millions d'utilisateurs et commencez Nettoyage des données en Python dès aujourd'hui !
Créez votre compte gratuitement
Continuer avec GoogleAfficher plus d’optionsou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.
Apprenez où que vous soyez avec l'application DataCamp
Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.