Accéder au contenu principal
AccueilR

Cours

Nettoyer des données avec R

IntermédiaireNiveau de compétence
Actualisé 08/2024
Apprenez à nettoyer les données aussi rapidement et précisément que possible pour passer des données brutes à des informations pertinentes.
Commencer le cours gratuitement
RData Preparation
4 h
13 vidéos
44 Exercices
3,700 XP
60,980
Certificat de formation

Créez votre compte gratuitement

Continuer avec GoogleAfficher plus d’options

ou


En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.

Apprécié par des utilisateurs provenant de milliers d'entreprises

Group

Former une équipe ?

Essayez pour les entreprises

Description du cours

Surmonter les problèmes courants liés aux données, tels que la suppression des doublons dans R

On affirme souvent que les scientifiques des données consacrent 80 % de leur temps au nettoyage et à la manipulation des données, et seulement 20 % à leur analyse. Le temps consacré au nettoyage est essentiel, car l'analyse de données erronées peut conduire à des conclusions inexactes.

Dans ce cours, vous apprendrez diverses techniques pour vous aider à nettoyer les données sales à l'aide de R. Vous commencerez par convertir les types de données, appliquer des contraintes de plage et traiter les doublons complets et partiels afin d'éviter les doubles comptages.

Explorer les défis liés aux données avancées

Une fois que vous vous serez exercé à résoudre des problèmes courants liés aux données, vous passerez à des défis plus avancés, tels que garantir la cohérence des mesures et traiter les données manquantes. Après chaque nouveau concept, vous aurez l'opportunité de réaliser un exercice pratique afin de consolider vos connaissances et d'acquérir de l'expérience.

Apprenez à utiliser le couplage d'enregistrements lors du nettoyage des données

Le couplage d'enregistrements est utilisé pour fusionner des ensembles de données lorsque les valeurs présentent des problèmes tels que des fautes de frappe ou des orthographes différentes. Vous découvrirez cette technique utile dans le dernier chapitre et vous vous exercerez à l'utiliser pour fusionner deux ensembles de données sur les critiques de restaurants en un seul ensemble de données.

Prérequis

Joining Data with dplyr
1

Problèmes courants de données

Dans ce chapitre, vous allez apprendre à résoudre certains des problèmes les plus courants de données imparfaites. Vous convertirez des types de données, appliquerez des contraintes de plage pour exclure des points futurs et supprimerez les doublons afin d’éviter les doubles comptages.
Commencer le chapitre
2

Données catégorielles et textuelles

Les données catégorielles et textuelles sont souvent parmi les plus désordonnées d’un jeu de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences d’espacement et de capitalisation dans les libellés de catégories, à regrouper plusieurs catégories en une seule et à reformater des chaînes pour assurer la cohérence.
Commencer le chapitre
3

Problèmes de données avancés

Dans ce chapitre, vous vous attaquerez à des problèmes de nettoyage plus avancés, comme garantir que les poids sont tous exprimés en kilogrammes et non en livres. Vous développerez également des compétences précieuses pour vérifier que les valeurs ont été saisies correctement et que les valeurs manquantes n’impactent pas négativement vos analyses.
Commencer le chapitre
4

Record Linkage

Le record linkage est une technique puissante pour fusionner plusieurs jeux de données lorsque les valeurs comportent des fautes ou des variantes d’orthographe. Dans ce chapitre, vous apprendrez à relier des enregistrements en calculant la similarité entre des chaînes ; vous mettrez ensuite en pratique vos nouvelles compétences pour réunir deux jeux de données d’avis de restaurants en un jeu maître propre.
Commencer le chapitre
Nettoyer des données avec R
Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performance
S'inscrire maintenant

Rejoignez plus de 19 millions d'utilisateurs et commencez Nettoyer des données avec R dès aujourd'hui !

Créez votre compte gratuitement

Continuer avec GoogleAfficher plus d’options

ou


En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.