Pular para o conteúdo principal
Documentos
Compartir
LinkedIn
Facebook
Twitter
Copy
Gerenciamento de dados em REntrada de dados em RGráficos em RDocumentação RInterface REstatísticas em R

Dados ausentes no R

No R, os valores ausentes são representados pelo símbolo NA (não disponível). Valores impossíveis (por exemplo, dividir por zero) são representados pelo símbolo NaN (not a number). Ao contrário do SAS, o R usa o mesmo símbolo para dados numéricos e de caracteres.

Para praticar mais o trabalho com dados ausentes, experimente este curso sobre limpeza de dados no R.

Teste de valores ausentes

is.na(x) # returns TRUE of x is missing
y <- c(1,2,3,NA)
is.na(y) # returns a vector (F F F T)

Recodificação de valores para ausentes

# recode 99 to missing for variable v1
# select rows where v1 is 99 and recode column v1
mydata$v1[mydata$v1==99] <- NA

Exclusão de valores faltantes das análises

As funções aritméticas em valores ausentes geram valores ausentes.

x <- c(1,2,NA,3)
mean(x) # returns NA
mean(x, na.rm=TRUE) # returns 2

A função complete.cases() retorna um vetor lógico que indica quais casos estão completos.

# list rows of data that have missing values
mydata[!complete.cases(mydata),]

A função na.omit() retorna o objeto com a exclusão em lista dos valores ausentes.

# create new dataset without missing data
newdata <- na.omit(mydata)

Tratamento avançado de dados ausentes

A maioria das funções de modelagem no R oferece opções para lidar com valores ausentes. Você pode ir além da exclusão em pares ou em listas dos valores ausentes por meio de métodos como a imputação múltipla. Boas implementações que podem ser acessadas por meio do R incluem Amelia II, Mice e mitools.