Statistiques descriptives dans R

R offre un large éventail de fonctions permettant d'obtenir des statistiques sommaires. Une méthode pour obtenir des statistiques descriptives consiste à utiliser la fonction sapply( ) avec une statistique de synthèse spécifiée.

# get means for variables in data frame mydata
# excluding missing values

sapply(mydata, mean, na.rm=TRUE)

Les fonctions possibles utilisées dans sapply comprennent mean, sd, var, min, max, median, range et quantile.

Il existe également de nombreuses fonctions R conçues pour fournir une série de statistiques descriptives en une seule fois. Par exemple

# mean,median,25th and 75th quartiles,min,max
summary(mydata)

# Tukey min,lower-hinge, median,upper-hinge,max
fivenum(x)

Utilisation du paquet Hmisc

library(Hmisc)
describe(mydata)
# n, nmiss, unique, mean, 5,10,25,50,75,90,95th percentiles
# 5 lowest and 5 highest scores

En utilisant les pastecs le paquetage

library(pastecs)
stat.desc(mydata)

# nbr.val, nbr.null, nbr.na, min max, range, sum,
#
median, mean, SE.mean, CI.mean, var, std.dev, coef.var

Utiliser le paquet psych

library(psych)
describe(mydata)
# item name ,item number, nvalid,
mean, sd,
#
median, mad, min, max, skew, kurtosis, se

Statistiques sommaires par groupe

Une manière simple de générer des statistiques sommaires en regroupant les variables est disponible dans le paquet psych.

library(psych)
describe.by(mydata, group,...)

Le package doBy offre la plupart des fonctionnalités de la PROC SUMMARY de SAS. Il définit le tableau souhaité à l'aide d'une formule type et d'une fonction. Voici un exemple simple.

library(doBy)
summaryBy(mpg + wt ~ cyl + vs, data = mtcars,
  FUN = function(x) {
c(m = mean(x), s = sd(x))
} )
# produces mpg.m wt.m mpg.s wt.s for each
# combination of the levels of cyl and vs

Voir aussi: agrégation de données.

Pratiquer

Vous voulez vous entraîner de manière interactive ? Essayez ce cours gratuit sur les statistiques et R

Apprendre les bases de R

Maîtrisez les bases de l'analyse de données en R, y compris les vecteurs, les listes et les cadres de données, et pratiquez R avec des ensembles de données réels.

Commencez à apprendre R gratuitement