Kurs
Die Kovarianz spielt in der Statistik eine wichtige Rolle, denn sie zeigt, wie sich zwei Variablen im Verhältnis zueinander verändern. Sie ist zentral für Ideen wie Korrelation, Hauptkomponentenanalyse und Regression.
In diesem Leitfaden erfährst du, was Kovarianz bedeutet, wie man sie berechnet und wo sie eingesetzt wird, von der Finanzmodellierung bis zum maschinellen Lernen.
Und weil die Kovarianz nur eine wichtige Sache ist, die man wissen muss, solltest du dich für unseren Lernpfad Statistik Grundlagen in Python und/oder unseren Kurs Einführung in die Statistik in R anmelden, um weiter zu lernen.
Was ist Kovarianz?
Die Kovarianz ist eine grundlegende statistische Funktion, die misst, wie sich zwei Variablen, x und y, gemeinsam verändern. Wenn die Variablen dazu neigen, gleichzeitig zu steigen oder zu fallen, ist die Kovarianz positiv. Wenn die eine zunimmt, während die andere abnimmt, ist die Kovarianz negativ.
Die mathematische Definition der Kovarianz für zwei Zufallsvariablen X und Y ist:
Dabei sind 𝜇x und 𝜇y die Mittelwerte von X und Ysind.
Für eine Stichprobe der Größe nwird die Kovarianz der Stichprobe wie folgt berechnet:
wobei x̅ und ȳ die Stichprobenmittelwerte von x und y sind.
Die Entscheidung, μ (mu) für Populationsmittelwerte und x̅ für Stichprobenmittelwerte zu verwenden, ist eine Konvention, die hilft, die beiden zu unterscheiden.
Warum Kovarianz wichtig ist
Das Verständnis der Kovarianz hilft dir, die Beziehung zwischen zwei Variablen zu analysieren. In der Finanzwelt wird die Kovarianz verwendet, um zu beurteilen, wie sich zwei Aktien zusammen bewegen. In der Datenwissenschaft wird die Kovarianz für Techniken wie PCA benötigt, die die Dimensionalität von Datensätzen reduziert. Sie gehört auch zur Regressionsanalyse, bei der es wichtig ist, zu verstehen, wie die Variablen miteinander variieren, um ihre linearen Beziehungen zu modellieren.
Kurz gesagt, die Kovarianz gibt Aufschluss über 1) tdie Richtung der linearen Beziehung zwischen den Variablen, 2) tdie Stärke der Beziehung (allerdings nicht standardisiert) und 3) die Grundlage für die Berechnung des Korrelationskoeffizienten.
Kovarianz von Hand berechnen
Lass uns üben. Um die Stichprobenkovarianz von Hand zu berechnen, befolge diese Schritte:
- Finde den Mittelwert für jede Variable.
- Ziehe den Mittelwert von jedem Wert ab, um die Abweichungen zu erhalten.
- Multipliziere die Abweichungen für die entsprechenden Paare.
- Addiere die Produkte.
- Teilt durch n - 1 für die Kovarianz der Stichprobe.
Nehmen wir zum Beispiel zwei Variablen:
- x: 2, 4, 6
- y: 5, 9, 13
Finde den Mittelwert der einzelnen Variablen
Berechne zunächst die Mittelwerte:
Ziehe den Mittelwert von jedem Wert ab, um die Abweichungen zu erhalten
Als Nächstes berechnest du die Abweichungen vom Mittelwert. Ich habe eine Tabelle erstellt, um zu zeigen, wie das funktioniert. Beachte, dass auf der rechten Seite der Tabelle jeder Datenpunkt entweder um 4 oder um 9 subtrahiert wird.
Multipliziere die Abweichungen für die entsprechenden Paare
Multipliziere nun die Abweichung für jedes Paar:
Summe der Produkte
Dann addieren wir die Produkte: 8 + 0 + 8 = 16
Dividiere durch n - 1 für die Kovarianz der Stichprobe
Schließlich dividieren wir durch n - 1, um die Kovarianz der Stichprobe zu erhalten.
Wir können unsere Antwort folgendermaßen schreiben:
Kovarianz in Python und R
Du könntest versuchen, die Kovarianz in einer Programmierumgebung herauszufinden. Ich zeige dir, wie du das in Python und R machen kannst, angefangen mit Python.
Kovarianz in Python
Du kannst die Kovarianz in Python mit NumPy berechnen.
Um die Funktion cov()
von NumPy zu verwenden, importiere zunächst NumPy und definiere deine Daten:
import numpy as np
x = np.array([2, 4, 6])
y = np.array([5, 9, 13])
cov_matrix = np.cov(x, y, ddof=1)
print(cov_matrix)
Die Ausgabe ist eine Kovarianzmatrix:
[[4. 8.]
[8. 16.]]
Wir sehen, dass die Kovarianz zwischen den beiden Variablen 8 beträgt, was dem Ergebnis entspricht, das wir per Hand ermittelt haben.
Kovarianz in R
Du kannst die Kovarianz in R mit der eingebauten Funktion cov()
berechnen.
Um loszulegen, definierst du deine Datenvektoren und übergibst sie an cov()
:
x <- c(2, 4, 6)
y <- c(5, 9, 13)
cov_matrix <- cov(cbind(x, y))
print(cov_matrix)
Die Ausgabe ist eine Kovarianzmatrix:
x y
x 4 8
y 8 16
Die Kovarianz zwischen den beiden Variablen ist 8, genau wie im Python-Beispiel.
Interpretation der Kovarianzmatrix
Die Kovarianzmatrix fasst die paarweise Kovarianz zwischen mehreren Variablen zusammen. Die Ausgabe, die wir gerade von Python und R-Code gesehen haben, war eine Kovarianzmatrix, wenn auch eine kleine (2x2).
Lass uns ein größeres Beispiel ausprobieren. Für drei Variablen x, y und z lautet die Kovarianzmatrix:
Diese Matrix ist symmetrisch, und die Diagonalelemente sind die Varianzen der einzelnen Variablen. (Das ist richtig, denn die Kovarianz einer Variablen mit sich selbst ist die Varianz).
Kovarianz vs. Korrelation
Während die Kovarianz die Richtung der Beziehung zwischen zwei Variablen misst, standardisiert sie das Ergebnis nicht. Die Korrelation standardisiert die Kovarianz auf einen Wert zwischen -1 und 1, wodurch es einfacher wird, die Stärke der Beziehung zu interpretieren.
Es gibt viele Formeln für den Korrelationskoeffizienten, aber eine der Formeln lautet:
Wo:
- Cov(x,y) ist die Kovarianz zwischen den Variablen x und y
- σx (ausgesprochen als "Sigma") ist die Standardabweichung von x
- σy ist die Standardabweichung von y
Zusätzliche Dinge zu wissen
Wenn du mit Kovarianz arbeitest, solltest du diese häufigen Probleme beachten:
- Die Kovarianz hängt von der Skala der Variablen ab. Große Werte können das Ergebnis aufblähen.
- Die Kovarianz zeigt die Stärke der Beziehung nicht in standardisierter Form an.
- Ausreißer können die Berechnung der Kovarianz erheblich beeinflussen.
Ziehe immer in Betracht, deine Daten zu standardisieren oder eine Korrelation zu verwenden, um sie besser interpretieren zu können.
Fazit
Die Kovarianz ist ein unverzichtbares statistisches Instrument, um zu verstehen, wie sich Variablen zueinander bewegen. Du musst die Kovarianz kennen, um die Beziehungen zwischen deinen Daten wirklich zu verstehen. Mach dir keine Sorgen, wenn dir einige Aspekte unklar sind. Wir haben die richtigen Ressourcen, um dir zu helfen, also melde dich noch heute an:

FAQs zur Kovarianz
Was bedeutet eine Kovarianz von 0?
Das bedeutet, dass die beiden Variablen keine lineare Beziehung haben, aber dennoch auf nichtlineare Weise voneinander abhängig sein können.
Wie wird die Kovarianz im Finanzwesen verwendet?
Sie hilft zu beurteilen, wie sich zwei Vermögenswerte zusammen bewegen und wird bei der Portfoliooptimierung und beim Risikomanagement eingesetzt.
Was ist der Unterschied zwischen Kovarianz und Korrelation?
Die Kovarianz zeigt die Richtung an, die Korrelation zeigt sowohl die Richtung als auch die Stärke, normalisiert zwischen -1 und 1.
Kann die Kovarianz negativ sein?
Ja, eine negative Kovarianz weist auf eine umgekehrte Beziehung hin.
Wird die Kovarianz von den Einheiten beeinflusst?
Ja, anders als die Korrelation behält die Kovarianz die Einheiten bei (z. B. cm-Jahre).