Estatísticas descritivas no R

O R oferece uma ampla gama de funções para a obtenção de estatísticas resumidas. Um método para obter estatísticas descritivas é usar a função sapply( ) com uma estatística de resumo especificada.

# get means for variables in data frame mydata
# excluding missing values

sapply(mydata, mean, na.rm=TRUE)

As possíveis funções usadas no sapply incluem média, sd, var, min, max, mediana, intervalo e quantil.

Há também várias funções do R projetadas para fornecer uma série de estatísticas descritivas de uma só vez. Por exemplo

# mean,median,25th and 75th quartiles,min,max
summary(mydata)

# Tukey min,lower-hinge, median,upper-hinge,max
fivenum(x)

Usando o pacote Hmisc

library(Hmisc)
describe(mydata)
# n, nmiss, unique, mean, 5,10,25,50,75,90,95th percentiles
# 5 lowest and 5 highest scores

Usando os pastecs pacote

library(pastecs)
stat.desc(mydata)

# nbr.val, nbr.null, nbr.na, min max, range, sum,
#
median, mean, SE.mean, CI.mean, var, std.dev, coef.var

Usando o pacote psych

library(psych)
describe(mydata)
# item name ,item number, nvalid,
mean, sd,
#
median, mad, min, max, skew, kurtosis, se

Estatísticas resumidas por grupo

Uma maneira simples de gerar estatísticas resumidas por variável de agrupamento está disponível no pacote psych.

library(psych)
describe.by(mydata, group,...)

O pacote doBy fornece grande parte da funcionalidade do SAS PROC SUMMARY. Ele define a tabela desejada usando uma fórmula de modelo e uma função. Aqui está um exemplo simples.

library(doBy)
summaryBy(mpg + wt ~ cyl + vs, data = mtcars,
  FUN = function(x) {
c(m = mean(x), s = sd(x))
} )
# produces mpg.m wt.m mpg.s wt.s for each
# combination of the levels of cyl and vs

Consulte também: agregação de dados.

Para praticar

Você quer praticar de forma interativa? Experimente este curso gratuito sobre estatística e R

Aprenda os fundamentos do R

Domine os conceitos básicos de análise de dados em R, incluindo vetores, listas e quadros de dados, e pratique o R com conjuntos de dados reais.

Comece a aprender R gratuitamente