Dados ausentes no R
No R, os valores ausentes são representados pelo símbolo NA (não disponível). Valores impossíveis (por exemplo, dividir por zero) são representados pelo símbolo NaN (not a number). Ao contrário do SAS, o R usa o mesmo símbolo para dados numéricos e de caracteres.
Para praticar mais o trabalho com dados ausentes, experimente este curso sobre limpeza de dados no R.
Teste de valores ausentes
is.na(x) # returns TRUE of x is missing
y <- c(1,2,3,NA)
is.na(y) # returns a vector (F F F T)
Recodificação de valores para ausentes
# recode 99 to missing for variable v1
# select rows where v1 is 99 and recode column v1
mydata$v1[mydata$v1==99] <- NA
Exclusão de valores faltantes das análises
As funções aritméticas em valores ausentes geram valores ausentes.
x <- c(1,2,NA,3)
mean(x) # returns NA
mean(x, na.rm=TRUE) # returns 2
A função complete.cases() retorna um vetor lógico que indica quais casos estão completos.
# list rows of data that have missing values
mydata[!complete.cases(mydata),]
A função na.omit() retorna o objeto com a exclusão em lista dos valores ausentes.
# create new dataset without missing data
newdata <- na.omit(mydata)
Tratamento avançado de dados ausentes
A maioria das funções de modelagem no R oferece opções para lidar com valores ausentes. Você pode ir além da exclusão em pares ou em listas dos valores ausentes por meio de métodos como a imputação múltipla. Boas implementações que podem ser acessadas por meio do R incluem Amelia II, Mice e mitools.