Dans R, les valeurs manquantes sont représentées par le symbole NA (non disponible). Les valeurs impossibles (par exemple, la division par zéro) sont représentées par le symbole NaN (not a number). Contrairement à SAS, R utilise le même symbole pour les données numériques et les données de caractères.
is.na(x) # returns TRUE of x is missing
y <- c(1,2,3,NA)
is.na(y) # returns a vector (F F F T)
Recodage des valeurs en valeurs manquantes
# recode 99 to missing for variable v1
# select rows where v1 is 99 and recode column v1
mydata$v1[mydata$v1==99] <- NA
Exclusion des valeurs manquantes des analyses
Les fonctions arithmétiques sur les valeurs manquantes produisent des valeurs manquantes.
x <- c(1,2,NA,3)
mean(x) # returns NA
mean(x, na.rm=TRUE) # returns 2
La fonction complete.cases() renvoie un vecteur logique indiquant les cas complets.
# list rows of data that have missing values
mydata[!complete.cases(mydata),]
La fonction na.omit() renvoie l'objet avec suppression des valeurs manquantes dans le sens de la liste.
# create new dataset without missing data
newdata <- na.omit(mydata)
Traitement avancé des données manquantes
La plupart des fonctions de modélisation de R offrent des options pour traiter les valeurs manquantes. Vous pouvez aller au-delà de la suppression des valeurs manquantes par paire ou par liste grâce à des méthodes telles que l'imputation multiple. Parmi les bonnes implémentations accessibles via R, citons Amelia II, Mice et mitools.
Apprendre les bases de R
Maîtrisez les bases de l'analyse de données en R, y compris les vecteurs, les listes et les cadres de données, et pratiquez R avec des ensembles de données réels.