En R, los valores que faltan se representan con el símbolo NA (no disponible). Los valores imposibles (por ejemplo, dividir por cero) se representan con el símbolo NaN (no es un número). A diferencia de SAS, R utiliza el mismo símbolo para los datos numéricos y de caracteres.
is.na(x) # returns TRUE of x is missing
y <- c(1,2,3,NA)
is.na(y) # returns a vector (F F F T)
Recodificación de valores a ausentes
# recode 99 to missing for variable v1
# select rows where v1 is 99 and recode column v1
mydata$v1[mydata$v1==99] <- NA
Excluir los valores perdidos de los análisis
Las funciones aritméticas sobre valores perdidos producen valores perdidos.
x <- c(1,2,NA,3)
mean(x) # returns NA
mean(x, na.rm=TRUE) # returns 2
La función completar.casos() devuelve un vector lógico que indica qué casos están completos.
# list rows of data that have missing values
mydata[!complete.cases(mydata),]
La función na.omit() devuelve el objeto con la supresión en lista de los valores omitidos.
# create new dataset without missing data
newdata <- na.omit(mydata)
Tratamiento avanzado de los datos que faltan
La mayoría de las funciones de modelización en R ofrecen opciones para tratar los valores perdidos. Puedes ir más allá de la eliminación por pares o por listas de los valores perdidos mediante métodos como la imputación múltiple. Algunas buenas implementaciones a las que se puede acceder a través de R son Amelia II, Mice y mitools.
Aprende lo esencial de R
Domina los fundamentos del análisis de datos en R, incluyendo vectores, listas y marcos de datos, y practica R con conjuntos de datos reales.