Accéder au contenu principal
Documents
Partager
LinkedIn
Facebook
Twitter
Copy
R DocumentationEntrée de données en RGestion des données en RGraphiques en RR InterfaceStatistiques en R

Données manquantes dans R

Dans R, les valeurs manquantes sont représentées par le symbole NA (non disponible). Les valeurs impossibles (par exemple, la division par zéro) sont représentées par le symbole NaN (not a number). Contrairement à SAS, R utilise le même symbole pour les données numériques et les données de caractères.

Pour plus de pratique sur le travail avec des données manquantes, essayez ce cours sur le nettoyage des données dans R.

Test pour les valeurs manquantes

is.na(x) # returns TRUE of x is missing
y <- c(1,2,3,NA)
is.na(y) # returns a vector (F F F T)

Recodage des valeurs en valeurs manquantes

# recode 99 to missing for variable v1
# select rows where v1 is 99 and recode column v1
mydata$v1[mydata$v1==99] <- NA

Exclusion des valeurs manquantes des analyses

Les fonctions arithmétiques sur les valeurs manquantes produisent des valeurs manquantes.

x <- c(1,2,NA,3)
mean(x) # returns NA
mean(x, na.rm=TRUE) # returns 2

La fonction complete.cases() renvoie un vecteur logique indiquant les cas complets.

# list rows of data that have missing values
mydata[!complete.cases(mydata),]

La fonction na.omit() renvoie l'objet avec suppression des valeurs manquantes dans le sens de la liste.

# create new dataset without missing data
newdata <- na.omit(mydata)

Traitement avancé des données manquantes

La plupart des fonctions de modélisation de R offrent des options pour traiter les valeurs manquantes. Vous pouvez aller au-delà de la suppression des valeurs manquantes par paire ou par liste grâce à des méthodes telles que l'imputation multiple. Parmi les bonnes implémentations accessibles via R, citons Amelia II, Mice et mitools.