Deskriptive Statistik in R

R bietet eine breite Palette von Funktionen, um zusammenfassende Statistiken zu erstellen. Eine Methode, um deskriptive Statistiken zu erhalten, ist die Verwendung der Funktion sapply( ) mit einer bestimmten zusammenfassenden Statistik.

# get means for variables in data frame mydata
# excluding missing values

sapply(mydata, mean, na.rm=TRUE)

Mögliche Funktionen, die in sapply verwendet werden, sind mean, sd, var, min, max, median, range und quantile.

Außerdem gibt es zahlreiche R-Funktionen, die eine Reihe von deskriptiven Statistiken auf einmal liefern. Zum Beispiel

# mean,median,25th and 75th quartiles,min,max
summary(mydata)

# Tukey min,lower-hinge, median,upper-hinge,max
fivenum(x)

Verwendung des Hmisc-Pakets

library(Hmisc)
describe(mydata)
# n, nmiss, unique, mean, 5,10,25,50,75,90,95th percentiles
# 5 lowest and 5 highest scores

Die Verwendung der pastecs Paket

library(pastecs)
stat.desc(mydata)

# nbr.val, nbr.null, nbr.na, min max, range, sum,
#
median, mean, SE.mean, CI.mean, var, std.dev, coef.var

Das Psych-Paket verwenden

library(psych)
describe(mydata)
# item name ,item number, nvalid,
mean, sd,
#
median, mad, min, max, skew, kurtosis, se

Zusammenfassende Statistik nach Gruppe

Eine einfache Möglichkeit, zusammenfassende Statistiken nach gruppierten Variablen zu erstellen, findest du im Psych-Paket.

library(psych)
describe.by(mydata, group,...)

Das doBy-Paket bietet einen Großteil der Funktionalität von SAS PROC SUMMARY. Sie definiert die gewünschte Tabelle mithilfe einer Modellformel und einer Funktion. Hier ist ein einfaches Beispiel.

library(doBy)
summaryBy(mpg + wt ~ cyl + vs, data = mtcars,
  FUN = function(x) {
c(m = mean(x), s = sd(x))
} )
# produces mpg.m wt.m mpg.s wt.s for each
# combination of the levels of cyl and vs

Siehe auch: Daten aggregieren.

Zum Üben

Willst du interaktiv üben? Probiere diesen kostenlosen Kurs über Statistik und R aus

R Grundlagen lernen

Beherrsche die Grundlagen der Datenanalyse in R, einschließlich Vektoren, Listen und Datenrahmen, und übe R mit echten Datensätzen.

Beginne R kostenlos zu lernen