R offre un large éventail de fonctions permettant d'obtenir des statistiques sommaires. Une méthode pour obtenir des statistiques descriptives consiste à utiliser la fonction sapply( ) avec une statistique de synthèse spécifiée.
# get means for variables in data frame mydata
# excluding missing values
sapply(mydata, mean, na.rm=TRUE)
Les fonctions possibles utilisées dans sapply comprennent mean, sd, var, min, max, median, range et quantile.
Il existe également de nombreuses fonctions R conçues pour fournir une série de statistiques descriptives en une seule fois. Par exemple
library(psych)
describe(mydata)
# item name ,item number, nvalid,
mean, sd,
#
median, mad, min, max, skew, kurtosis, se
Statistiques sommaires par groupe
Une manière simple de générer des statistiques sommaires en regroupant les variables est disponible dans le paquet psych.
library(psych)
describe.by(mydata, group,...)
Le package doBy offre la plupart des fonctionnalités de la PROC SUMMARY de SAS. Il définit le tableau souhaité à l'aide d'une formule type et d'une fonction. Voici un exemple simple.
library(doBy)
summaryBy(mpg + wt ~ cyl + vs, data = mtcars,
FUN = function(x) {
c(m = mean(x), s = sd(x))
} )
# produces mpg.m wt.m mpg.s wt.s for each
# combination of the levels of cyl and vs
Maîtrisez les bases de l'analyse de données en R, y compris les vecteurs, les listes et les cadres de données, et pratiquez R avec des ensembles de données réels.