Cours
Nettoyer des données avec R
IntermédiaireNiveau de compétence
Actualisé 08/2024RData Preparation4 h13 vidéos44 Exercices3,700 XP59,981Certificat de réussite.
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.Apprécié par des utilisateurs provenant de milliers d'entreprises
Former 2 personnes ou plus ?
Essayez DataCamp for BusinessDescription du cours
Surmonter les problèmes courants liés aux données, tels que la suppression des doublons dans R
On affirme souvent que les scientifiques des données consacrent 80 % de leur temps au nettoyage et à la manipulation des données, et seulement 20 % à leur analyse. Le temps consacré au nettoyage est essentiel, car l'analyse de données erronées peut conduire à des conclusions inexactes.Dans ce cours, vous apprendrez diverses techniques pour vous aider à nettoyer les données sales à l'aide de R. Vous commencerez par convertir les types de données, appliquer des contraintes de plage et traiter les doublons complets et partiels afin d'éviter les doubles comptages.
Explorer les défis liés aux données avancées
Une fois que vous vous serez exercé à résoudre des problèmes courants liés aux données, vous passerez à des défis plus avancés, tels que garantir la cohérence des mesures et traiter les données manquantes. Après chaque nouveau concept, vous aurez l'opportunité de réaliser un exercice pratique afin de consolider vos connaissances et d'acquérir de l'expérience.Apprenez à utiliser le couplage d'enregistrements lors du nettoyage des données
Le couplage d'enregistrements est utilisé pour fusionner des ensembles de données lorsque les valeurs présentent des problèmes tels que des fautes de frappe ou des orthographes différentes. Vous découvrirez cette technique utile dans le dernier chapitre et vous vous exercerez à l'utiliser pour fusionner deux ensembles de données sur les critiques de restaurants en un seul ensemble de données.Prérequis
Joining Data with dplyr1
Common Data Problems
In this chapter, you'll learn how to overcome some of the most common dirty data problems. You'll convert data types, apply range constraints to remove future data points, and remove duplicated data points to avoid double-counting.
2
Categorical and Text Data
Categorical and text data can often be some of the messiest parts of a dataset due to their unstructured nature. In this chapter, you’ll learn how to fix whitespace and capitalization inconsistencies in category labels, collapse multiple categories into one, and reformat strings for consistency.
3
Advanced Data Problems
In this chapter, you’ll dive into more advanced data cleaning problems, such as ensuring that weights are all written in kilograms instead of pounds. You’ll also gain invaluable skills that will help you verify that values have been added correctly and that missing values don’t negatively impact your analyses.
4
Record Linkage
Record linkage is a powerful technique used to merge multiple datasets together, used when values have typos or different spellings. In this chapter, you'll learn how to link records by calculating the similarity between strings—you’ll then use your new skills to join two restaurant review datasets into one clean master dataset.
Nettoyer des données avec R
Cours terminé
Obtenez un certificat de réussite
Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolioPartagez-la sur les réseaux sociaux et dans votre évaluation de performance
Inclus avecPremium or Teams
S'inscrire MaintenantRejoignez plus de 19 millions d'utilisateurs et commencez Nettoyer des données avec R dès aujourd'hui !
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.