Cours
Nettoyer des données avec R
IntermédiaireNiveau de compétence
Actualisé 08/2024
RData Preparation4 h13 vidéos44 Exercices3,700 XP60,980Certificat de formation
Créez votre compte gratuitement
Continuer avec GoogleAfficher plus d’optionsou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.
Apprécié par des utilisateurs provenant de milliers d'entreprises
Former une équipe ?
Essayez pour les entreprisesDescription du cours
Surmonter les problèmes courants liés aux données, tels que la suppression des doublons dans R
On affirme souvent que les scientifiques des données consacrent 80 % de leur temps au nettoyage et à la manipulation des données, et seulement 20 % à leur analyse. Le temps consacré au nettoyage est essentiel, car l'analyse de données erronées peut conduire à des conclusions inexactes.Dans ce cours, vous apprendrez diverses techniques pour vous aider à nettoyer les données sales à l'aide de R. Vous commencerez par convertir les types de données, appliquer des contraintes de plage et traiter les doublons complets et partiels afin d'éviter les doubles comptages.
Explorer les défis liés aux données avancées
Une fois que vous vous serez exercé à résoudre des problèmes courants liés aux données, vous passerez à des défis plus avancés, tels que garantir la cohérence des mesures et traiter les données manquantes. Après chaque nouveau concept, vous aurez l'opportunité de réaliser un exercice pratique afin de consolider vos connaissances et d'acquérir de l'expérience.Apprenez à utiliser le couplage d'enregistrements lors du nettoyage des données
Le couplage d'enregistrements est utilisé pour fusionner des ensembles de données lorsque les valeurs présentent des problèmes tels que des fautes de frappe ou des orthographes différentes. Vous découvrirez cette technique utile dans le dernier chapitre et vous vous exercerez à l'utiliser pour fusionner deux ensembles de données sur les critiques de restaurants en un seul ensemble de données.Prérequis
Joining Data with dplyr1
Problèmes courants de données
Dans ce chapitre, vous allez apprendre à résoudre certains des problèmes les plus courants de données imparfaites. Vous convertirez des types de données, appliquerez des contraintes de plage pour exclure des points futurs et supprimerez les doublons afin d’éviter les doubles comptages.
2
Données catégorielles et textuelles
Les données catégorielles et textuelles sont souvent parmi les plus désordonnées d’un jeu de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences d’espacement et de capitalisation dans les libellés de catégories, à regrouper plusieurs catégories en une seule et à reformater des chaînes pour assurer la cohérence.
3
Problèmes de données avancés
Dans ce chapitre, vous vous attaquerez à des problèmes de nettoyage plus avancés, comme garantir que les poids sont tous exprimés en kilogrammes et non en livres. Vous développerez également des compétences précieuses pour vérifier que les valeurs ont été saisies correctement et que les valeurs manquantes n’impactent pas négativement vos analyses.
4
Record Linkage
Le record linkage est une technique puissante pour fusionner plusieurs jeux de données lorsque les valeurs comportent des fautes ou des variantes d’orthographe. Dans ce chapitre, vous apprendrez à relier des enregistrements en calculant la similarité entre des chaînes ; vous mettrez ensuite en pratique vos nouvelles compétences pour réunir deux jeux de données d’avis de restaurants en un jeu maître propre.
Nettoyer des données avec R
Cours terminé
Obtenez un certificat de réussite
Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolioPartagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant
Rejoignez plus de 19 millions d'utilisateurs et commencez Nettoyer des données avec R dès aujourd'hui !
Créez votre compte gratuitement
Continuer avec GoogleAfficher plus d’optionsou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.
Apprenez où que vous soyez avec l'application DataCamp
Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.