Statistiques descriptives dans R
R offre un large éventail de fonctions permettant d'obtenir des statistiques sommaires. Une méthode pour obtenir des statistiques descriptives consiste à utiliser la fonction sapply( ) avec une statistique de synthèse spécifiée.
# get means for variables in data frame mydata
# excluding missing values
sapply(mydata, mean, na.rm=TRUE)
Les fonctions possibles utilisées dans sapply comprennent mean, sd, var, min, max, median, range et quantile.
Il existe également de nombreuses fonctions R conçues pour fournir une série de statistiques descriptives en une seule fois. Par exemple
# mean,median,25th and 75th quartiles,min,max
summary(mydata)
# Tukey min,lower-hinge, median,upper-hinge,max
fivenum(x)
Utilisation du paquet Hmisc
library(Hmisc)
describe(mydata)
# n, nmiss, unique, mean, 5,10,25,50,75,90,95th percentiles
# 5 lowest and 5 highest scores
En utilisant les pastecs le paquetage
library(pastecs)
stat.desc(mydata)
# nbr.val, nbr.null, nbr.na, min max, range, sum,
#
median, mean, SE.mean, CI.mean, var, std.dev, coef.var
Utiliser le paquet psych
library(psych)
describe(mydata)
# item name ,item number, nvalid,
mean, sd,
#
median, mad, min, max, skew, kurtosis, se
Statistiques sommaires par groupe
Une manière simple de générer des statistiques sommaires en regroupant les variables est disponible dans le paquet psych.
library(psych)
describe.by(mydata, group,...)
Le package doBy offre la plupart des fonctionnalités de la PROC SUMMARY de SAS. Il définit le tableau souhaité à l'aide d'une formule type et d'une fonction. Voici un exemple simple.
library(doBy)
summaryBy(mpg + wt ~ cyl + vs, data = mtcars,
FUN = function(x) {
c(m = mean(x), s = sd(x))
} )
# produces mpg.m wt.m mpg.s wt.s for each
# combination of the levels of cyl and vs
Voir aussi: agrégation de données.
Pratiquer
Vous voulez vous entraîner de manière interactive ? Essayez ce cours gratuit sur les statistiques et R