Saltar al contenido principal
Documentos
Gestión de datos en RGráficos en RR DocumentaciónInterfaz REstadística en RIntroducción de datos en R

Datos perdidos en R

En R, los valores que faltan se representan con el símbolo NA (no disponible). Los valores imposibles (por ejemplo, dividir por cero) se representan con el símbolo NaN (no es un número). A diferencia de SAS, R utiliza el mismo símbolo para los datos numéricos y de caracteres.

Para practicar más el trabajo con datos omitidos, prueba este curso sobre limpieza de datos en R.

Comprobación de valores perdidos

is.na(x) # returns TRUE of x is missing
y <- c(1,2,3,NA)
is.na(y) # returns a vector (F F F T)

Recodificación de valores a ausentes

# recode 99 to missing for variable v1
# select rows where v1 is 99 and recode column v1
mydata$v1[mydata$v1==99] <- NA

Excluir los valores perdidos de los análisis

Las funciones aritméticas sobre valores perdidos producen valores perdidos.

x <- c(1,2,NA,3)
mean(x) # returns NA
mean(x, na.rm=TRUE) # returns 2

La función completar.casos() devuelve un vector lógico que indica qué casos están completos.

# list rows of data that have missing values
mydata[!complete.cases(mydata),]

La función na.omit() devuelve el objeto con la supresión en lista de los valores omitidos.

# create new dataset without missing data
newdata <- na.omit(mydata)

Tratamiento avanzado de los datos que faltan

La mayoría de las funciones de modelización en R ofrecen opciones para tratar los valores perdidos. Puedes ir más allá de la eliminación por pares o por listas de los valores perdidos mediante métodos como la imputación múltiple. Algunas buenas implementaciones a las que se puede acceder a través de R son Amelia II, Mice y mitools.

Aprende lo esencial de R

Domina los fundamentos del análisis de datos en R, incluyendo vectores, listas y marcos de datos, y practica R con conjuntos de datos reales.
Empieza a aprender R gratis