Kurs
Wenn wir Fragebögen mit Aussagen wie „Ich bin mit unserer Arbeit zufrieden“ oder „Ich arbeite gerne mit meinen Kollegen zusammen“ ausfüllen, helfen wir den Forschern dabei, Infos über Konzepte zu sammeln, die wir nicht direkt messen können. Nimm zum Beispiel Arbeitszufriedenheit, Motivation oder Angst. Das sind die sogenannten latenten Konstrukte in der Forschung. Das sind abstrakte Konzepte, die wir nicht direkt messen können, aber indirekt in Reaktionen, Verhalten oder Testaufgaben sehen können.
Aber die Frage ist, ob diese Fragen wirklich das messen, was gemessen werden soll, und nicht irgendwas anderes.
Hier kommt die konfirmatorische Faktorenanalyse (CFA) ins Spiel. CFA ist eine Statistikmethode, die checkt, ob es einen Zusammenhang zwischen beobachteten Variablen (wie Fragen in einer Umfrage) und nicht beobachteten Konstrukten (zum Beispiel Motivation) gibt. Wenn wir weitermachen und CFA genauer anschauen, ist es wichtig, es von der explorativen Faktorenanalyse (EFA) zu unterscheiden. Im Gegensatz zu EFA, das ohne Hypothesen nach Mustern sucht, geht CFA von einer Theorie aus und checkt, ob die Daten sie bestätigen.
Als wichtiger Teil der Strukturgleichungsmodellierung (SEM) stellt die CFA sicher, dass die Konzepteselbst zuverlässig und valide gemessen werden, bevor wir die Beziehungen zwischen ihnen untersuchen.
Was ist eine konfirmatorische Faktorenanalyse (CFA)?
CFA denkt über die folgende Frage nach: Passt mein Messmodell zur Realität?
Um diese Frage besser zu verstehen, schauen wir uns mal an, was ein Messmodell ist. Es ist eine Karte, die beobachtete Indikatoren (wie Umfragepunkte) mit versteckten Konstrukten (wie Depression, Motivation oder Zufriedenheit) verbindet. Bei CFA legen die Forscher diese Karte vorher fest, basierend auf Theorien oder früheren Untersuchungen, und schauen dann, ob die Daten zu dieser Struktur passen.
Wenn man CFA und EFA mit einer Analogie vergleicht, ist EFA wie das Herumfahren in einer neuen Stadt ohne Karte. CFA ist so ähnlich wie zu checken, ob die GPS-Anweisungen mit den echten Straßen übereinstimmen.
Wichtige Teile von CFA
Latente Konstrukte und beobachtete Indikatoren
- Latente Konstrukte sind so was wie abstrakte Ideen, die man nicht direkt messen kann, wie zum Beispiel Intelligenz, Burnout und Glück.
- Beobachtete Indikatoren sind das, was wir zum Messen verwenden, wie zum Beispiel Testergebnisse, Umfragepunkte und Verhaltensbewertungen.
Um die Zufriedenheit am Arbeitsplatz zu messen, könnten wir Folgendes nutzen:
- Ich bin mit meiner Arbeit zufrieden.
- Ich bin mit meinem Gehalt zufrieden.
- Ich komme mit meinen Kollegen super klar.
Diese unterschiedlichen Antworten zeigen alle denselben Grundfaktor, nämlich die Zufriedenheit mit dem Job.
Faktorladungen
Faktorladungen zeigen uns, wie stark jeder Indikator das zugrunde liegende Konstrukt erfasst. Hohe Ladungen, normalerweise über 0,7, zeigen uns eine starke Repräsentation, während moderate Ladungen zwischen 0,4 und 0,7 in den meisten Fällen okay sind.
Stell dir Faktorladungen wie die Signalstärke auf deinem Handy vor. Je stärker das Signal, desto besser der Indikator für das Konstrukt.
Messmodell
Das Messmodell zeigt, welche beobachteten Variablen den latenten Konstrukten laut Theorie entsprechen. Anders als bei der EFA, wo die Daten bestimmen, legt die CFA diese Struktur schon vorher fest und ist deshalb eher bestätigend als explorativ.
Der CFA-Prozess
Nachdem wir die wichtigsten Konzepte erklärt haben, schauen wir uns den CFA-Prozess Schritt für Schritt an. Diese Python-Demo nutzt dassemopy -Paket„ “.
Schritt 1: Modellspezifikation
Der erste Schritt bei der CFA ist, das theoretische Modell festzulegen. Die Forscher entscheiden, welche latenten Konstrukte es gibt und wie man sie anhand von Indikatoren beobachten kann.
Nehmen wir mal an, wir machen eine Studie zur Arbeitspsychologie. Wir wollen zwei Sachen messen:
-
Arbeitszufriedenheit (
JobSat), gemessen anhand von drei Umfragepunkten: -
JS1: Ich bin mit meiner Arbeit zufrieden. -
JS2: Ich bin mit meinem Gehalt zufrieden. -
JS3: Ich komme mit meinen Kollegen gut klar. -
Arbeitsengagement (WorkEng), gemessen anhand von drei Umfragepunkten:
-
WE1: Ich bin bei der Arbeit voller Energie. -
WE2: Ich bin total begeistert von meinem Job. -
WE3: Ich bin voll in meiner Arbeit drin.
Wir denken auch, dass Arbeitszufriedenheit und Arbeitsengagement zusammenhängen.
In „ semopy “, einer speziellen Python-Bibliothek, kann dieses Modell so ausgedrückt werden:
model_desc = """
JobSat =~ JS1 + JS2 + JS3
WorkEng =~ WE1 + WE2 + WE3
JobSat ~~ WorkEng
"""
Wo:
-
=~legt fest, welche beobachteten Elemente auf einen bestimmten latenten Faktor geladen werden. -
~~beschreibt eine Verbindung zwischen zwei versteckten Faktoren.
Schritt 2: Datenerfassung
CFA braucht ziemlich große Stichproben, um gute Schätzungen zu machen. Eine oft verwendete Regel ist mindestens 200 Probanden oder mindestens 10 Messungen pro geschätztem Parameter.
Um den Prozess zu zeigen, schauen wir uns mal einen kleinen Datensatz an:
import pandas as pd
df = pd.DataFrame({
"JS1": [3, 4, 5, 2, 4, 5, 3, 4],
"JS2": [4, 5, 4, 3, 5, 4, 3, 5],
"JS3": [2, 3, 4, 2, 3, 4, 2, 3],
"WE1": [5, 4, 5, 3, 4, 5, 4, 5],
"WE2": [4, 4, 5, 2, 3, 5, 3, 4],
"WE3": [3, 5, 4, 3, 4, 5, 3, 4]
})
In einer echten Studie würde der Datensatz hunderte von Umfrageantworten haben.
Schritt 3: Modellschätzung
Jetzt, wo wir unsere Daten und unser Modell haben, ist es Zeit, die Parameter zu schätzen. Die Schätzung liefert die Faktorladungen, die zeigen, wie stark die Beziehung zwischen Konstrukten und Items ist, zusammen mit anderen Parametern.
Die beliebteste Schätzmethode ist die Maximum-Likelihood-Methode (ML). Es geht davon aus, dass die Daten, die man beobachtet, kontinuierlich sind und einer multivariaten Normalverteilung folgen. Für Fälle, wo das nicht zutrifft, wie zum Beispiel bei schiefen oder kategorialen Daten, sind Schätzer wie Weighted Least Squares (WLS) eine gute Wahl.
In Python mit „ semopy “:
from semopy import Model
mod = Model(model_desc)
mod.fit(df)
Das passt das CFA-Modell an die Daten an und schätzt dabei Faktorladungen, Korrelationen und Varianzen.
Schritt 4: Modellanpassungsbewertung
Sobald das Modell geschätzt ist, geht's darum, zu checken, ob es gut zu den Daten passt.
Die Passgenauigkeit wird anhand statistischer Indizes bewertet:
- Chi-Quadrat (χ²): Ein nicht signifikanter Wert zeigt, dass die Anpassung gut ist, aber er hängt stark von der Größe der Stichprobe ab.
- RMSEA (< 0,06): Niedrigere Werte bedeuten eine bessere ungefähre Anpassung.
- CFI (> 0,95): Vergleicht das Zielmodell mit einem Basismodell.
- SRMR (< 0,08): Schätzt die mittleren Unterschiede zwischen vorhergesagten und beobachteten Korrelationen.
In Python:
from semopy import calc_stats
stats = calc_stats(mod)
print("Chi-square:", stats.get('chi2'))
print("Degrees of Freedom:", stats.get('df'))
print("CFI:", stats.get('cfi'))
print("RMSEA:", stats.get('rmsea'))
print("SRMR:", stats.get('srmr'))
Diese Ausgabe zeigt, ob das theoretische Modell mit den beobachteten Daten übereinstimmt. Wenn die Indizes innerhalb der empfohlenen Grenzwerte liegen, passt das Modell gut.
Schritt 5: Modellverfeinerung
Wenn die Passform nicht gut ist, schauen sich die Forscher oft die Modifikationsindizes an. Diese Indizes zeigen, wie die Modellanpassung verbessert werden könnte, wenn bestimmte Parameter, wie Fehlerkovarianzen zwischen bestimmten Items oder zusätzliche Faktorladungen, für die Schätzung freigegeben würden.
Man sollte aber bedenken, dass Änderungen auf der Theorie basieren müssen und nicht nur auf Statistiken. Sonst könnte das Modell zwar für einen Datensatz super passen, aber bei anderen versagen.
Die geschätzten Parameter (z. B. Faktorladungen) kannst du wie unten gezeigt überprüfen:
estimates = mod.inspect()
print(estimates[['lval', 'op', 'rval', 'Estimate']])
Es zeigt, wie stark jeder Punkt auf das zugrunde liegende Konstrukt einwirkt. Bei Sachen mit niedrigem Lading (< 0,4) kann man sich fragen, ob sie wirklich zuverlässig sind, wenn es darum geht, den wahren Wert zu messen, und sie könnten vielleicht rausgenommen oder überarbeitet werden.
Chi-square: Value 7.086071
Name: chi2, dtype: float64
DF: None
p-value: None
RMSEA: None
CFI: None
SRMR: None
Parameter estimates:
lval op rval Estimate Std. Err z-value p-value
0 JS1 ~ JobSat 1.000000 - - -
1 JS2 ~ JobSat 0.991985 0.079766 12.436258 0.0
2 JS3 ~ JobSat 0.901155 0.074451 12.103973 0.0
3 WE1 ~ WorkEng 1.000000 - - -
4 WE2 ~ WorkEng 0.879609 0.083147 10.578944 0.0
5 WE3 ~ WorkEng 0.758832 0.072321 10.492585 0.0
6 JobSat ~~ WorkEng -0.014492 0.017919 -0.808725 0.418674
7 JobSat ~~ JobSat 0.283181 0.033256 8.515047 0.0
8 WorkEng ~~ WorkEng 0.332945 0.042414 7.849889 0.0
9 JS1 ~~ JS1 0.182918 0.022465 8.142378 0.0
10 JS2 ~~ JS2 0.215892 0.023358 9.242882 0.0
11 JS3 ~~ JS3 0.293970 0.0243 12.097738 0.0
12 WE1 ~~ WE1 0.225318 0.030959 7.277931 0.0
13 WE2 ~~ WE2 0.304496 0.028694 10.611756 0.0
14 WE3 ~~ WE3 0.269805 0.023279 11.590123 0.0
Ein kurzes Beispiel im Kontext
Die CFA-Ergebnisse zeigen, dass die Arbeitszufriedenheit stark mit „ JS1 ” (1,00) und „ JS2 ” (0,992) zusammenhängt und etwas weniger stark mit „ JS3 ” (0,901). Das zeigt, dass alle drei Fragen der Umfrage echt wichtig sind, um die Jobzufriedenheit zu messen. Keiner der Punkte scheint ein Problem zu sein, weil alle Faktorladungen deutlich über dem Standardgrenzwert von 0,7 liegen.
Ähnlich sieht's bei der Arbeitsmotivation aus, die stark mit „ WE1 ” (1,00) und „ WE2 ” (0,880) zusammenhängt, während „ WE3 ” (0,759) zwar etwas weniger wichtig ist, aber trotzdem okay ist.
WorkEngDie Arbeitszufriedenheit hängt kaum mit der Arbeitsbelastung zusammen (-0,014), was zeigt, dass die Konstrukte in dieser Stichprobe ziemlich unabhängig voneinander sind.
Aufgrund dieser Ergebnisse ist unser Ansatz:
-
Behalte alle drei Punkte für die Arbeitszufriedenheit (
JS1,JS2,JS3), weil sie alle einen großen Einfluss auf das Konstrukt haben. -
Behalte alle drei Punkte für das Arbeitsengagement (
WE1,WE2,WE3), weil jeder davon aussagekräftige Ladungen zeigt. -
Es sind keine wesentlichen Änderungen nötig, weil die Faktorladungen hoch sind und alle geschätzten Parameter signifikant sind.
Das zeigt, dass das Messmodell so läuft, wie es soll. Die beobachteten Indikatoren zeigen die zugrunde liegenden Konzepte ziemlich genau.
CFA-Anforderungen und Annahmen
CFA stützt sich auf ein paar wichtige Annahmen, damit die Ergebnisse echt und klar sind. Wenn man diese Annahmen versteht, kann man besser einschätzen, wann CFA sinnvoll ist und wie man reagieren sollte, wenn die Daten nicht ganz damit übereinstimmen.
Multivariate Normalverteilung
CFA nutzt normalerweise die Maximum-Likelihood-Schätzung (ML), die davon ausgeht, dass die beobachteten Variablen einer multivariaten Normalverteilung folgen.
Wenn die Antworten aber stark verzerrt oder kategorisch sind, stimmt diese Annahme nicht. In solchen Fällen können die Faktorladungen, Standardfehler und Anpassungsindizes verzerrt sein. Um das zu lösen, werden alternative Schätzmethoden wie Weighted Least Squares (WLS) oder robuste Ansätze wie die Satorra-Bentler-Korrektur benutzt, die keine strenge Normalverteilung brauchen.
Ausreichende Stichprobengröße
Bei der CFA geht's darum, mehrere Parameter zu schätzen (Faktorladungen, Varianzen, Kovarianzen). Kleine Stichproben können zu unsicheren Schätzungen und unzuverlässigen Schlussfolgerungen führen.
Eine gängige Richtlinie sagt, dass man mindestens 200 Teilnehmer oder 10 Beobachtungen pro geschätztem Parameter haben sollte. Je größer die Stichprobe, desto genauer und allgemeingültiger die Ergebnisse.
Richtige Modellangabe
CFA testet ein vorher festgelegtes theoretisches Modell. Wenn das Modell falsch spezifiziert ist, z. B. wenn Indikatoren dem falschen latenten Faktor zugeordnet werden, kann CFA das nicht korrigieren.
Zufallsstichprobe
Die Daten sollten am besten aus einer Zufallsstichprobe kommen, damit die Ergebnisse über den in der Studie verwendeten Datensatz hinaus verallgemeinert werden können.
Nicht zufällige oder verzerrte Stichproben können zu Ergebnissen führen, die eher die Probleme der Stichprobe zeigen als das, was man eigentlich untersuchen wollte.
Die Bayes'sche CFA ist auch super flexibel und kann mit kleinen Stichproben, komplizierten Modellen oder nicht-normalen Daten umgehen, je nachdem, was man vorher schon weiß.
Vergleich mit der explorativen Faktorenanalyse (EFA)
Schauen wir uns nochmal den Vergleich zwischen EFA und CFA an. EFA ist datengesteuert und deckt versteckte Strukturen auf, ohne dass man vorher irgendwelche Annahmen treffen muss. Alle Faktorladungen werden frei geschätzt, sodass die Daten „für sich selbst sprechen“ können. CFA ist theoriegeleitet und testet vorher festgelegte hypothetische Strukturen mit eingeschränkten Ladungen.
Forscher nutzen die beiden Methoden normalerweise nacheinander, wobei die EFA dazu dient, mögliche Strukturen zu erkunden, und die CFA dabei hilft, diese zu bestätigen. Dieser Ansatz bietet Raum für empirische Entdeckungen und theoretische Validierung.
Fortgeschrittene Themen und Erweiterungen in CFA
Mehrstufige und longitudinale CFA
- Die mehrstufige CFA ist dafür gedacht, verschachtelte Daten zu berücksichtigen, zum Beispiel Schüler innerhalb von Klassenräumen.
- Die longitudinale CFA schaut sich an, wie sich Konstrukte entwickeln, was bei der Beurteilung der Messstabilität, Veränderung und zeitlichen Invarianz hilft.
Modelle zweiter Ordnung und Bifaktormodelle
- CFA-Modelle zweiter Ordnung zeigen die Beziehungen zwischen latenten Variablen, indem sie Faktoren erster Ordnung modellieren, zum Beispiel verbale, räumliche und numerische Fähigkeiten als Indikatoren für ein übergeordnetes Konstrukt wie allgemeine Intelligenz.
- Bifaktor-Modelle trennen die Varianz, die auf allgemeine Faktoren zurückzuführen ist, von der Varianz, die auf bestimmte Unterdimensionen zurückzuführen ist.
Bayesianische CFA
Die Bayes'sche CFA ist eine flexible Alternative zu den üblichen Methoden. Es nutzt vorherige Verteilungen bei der Parameterschätzung, was die Modellstabilität verbessert und es für kleine Stichproben, komplexe Modelle oder nicht normalverteilte Daten nützlich macht.
Anwendungen von CFA
CFA wird häufig verwendet für:
- Validierung der Skala, um sicherzustellen, dass die beobachteten Punkte das theoretische Konstrukt, das gemessen werden soll, richtig abbilden, z. B. bei einem neuen Fragebogen zur Angst.
- Wir testen theoretische Modelle, um zu sehen, ob die Struktur der Beziehungen zwischen latenten Konstrukten mit den theoretischen Erwartungen übereinstimmt.
- Vergleich zwischen Gruppen, um die Messinvarianz zu checken. Zum Beispiel hilft es dabei, herauszufinden, ob eine Zufriedenheitsskala in verschiedenen Kulturen oder bei verschiedenen Geschlechtern gleich funktioniert.
- Psychometrische Tools verbessern, indem man schwache oder überflüssige Punkte findet. Es macht Tests und Umfragen zuverlässiger und genauer.
Einschränkungen und Herausforderungen
Nachdem wir uns intensiv mit CFA beschäftigt haben, ist es wichtig zu wissen, dass es gewisse Einschränkungen gibt. Wie gut es funktioniert, hängt von diesen Sachen ab:
- Qualität der zugrunde liegenden Theorie: Schwache oder schlecht definierte theoretische Grundlagen können zu Modellen mit schlechter Passgenauigkeit führen.
- Annahmen: Nicht normale Datenverteilungen oder kleine Stichprobengrößen können die Schätzungen beeinträchtigen, was dann die Interpretierbarkeit beeinflusst.
- Risiko der Überanpassung, das entsteht, wenn Modelle zu stark verändert werden, um eine bessere Anpassung zu erreichen. Solche Optimierungen führen zu korrelierten Fehlern, die vielleicht bei einem einzelnen Datensatz funktionieren, aber anderswo nicht verallgemeinert werden können.
Fazit
Die konfirmatorische Faktorenanalyse hilft dabei, Theorie und Daten zu verbinden, sodass man nicht beobachtbare Sachen in der Psychologie, Pädagogik, im Marketing oder in der Organisationsforschung genau messen kann. Es bietet einen Rahmen, um versteckte Konzepte zu überprüfen und eine solide Basis für Messungen zu schaffen. Als Teil der Strukturgleichungsmodellierung entwickelt sich die CFA weiter, weil es neue Sachen wie mehrstufige, longitudinale und Bayes'sche Erweiterungen gibt.

Ich bin KI-Stratege und Ethiker und arbeite an der Schnittstelle von Datenwissenschaft, Produkt und Technik, um skalierbare maschinelle Lernsysteme zu entwickeln. Als einer der "Top 200 Business and Technology Innovators" der Welt bin ich auf der Mission, das maschinelle Lernen zu demokratisieren und den Fachjargon zu überwinden, damit jeder an diesem Wandel teilhaben kann.
FAQs
Was ist die konfirmatorische Faktorenanalyse (CFA) und wie unterscheidet sie sich von der explorativen Faktorenanalyse (EFA)?
CFA ist eine statistische Methode, um zu checken, ob eine vermutete Faktorstruktur zu den beobachteten Daten passt, während EFA mögliche Strukturen ohne vorab festgelegte Modelle untersucht.
Was sind latente Konstrukte und beobachtete Indikatoren in der CFA?
Latente Konstrukte sind Konzepte, die man nicht direkt beobachten kann, wie zum Beispiel Motivation oder Zufriedenheit im Job. Beobachtete Indikatoren sind messbare Sachen wie Umfragefragen oder Testergebnisse, die diese versteckten Konstrukte zeigen.
Was sind die wichtigsten Annahmen von CFA?
CFA geht von einem richtig spezifizierten Messmodell, multivariater Normalität (für die ML-Schätzung), einer angemessenen Stichprobengröße und im Idealfall von zufällig ausgewählten Daten aus.
Wie kann ich checken, ob mein CFA-Modell zu den Daten passt?
Die Modellanpassung wird anhand von Indizes wie Chi-Quadrat, RMSEA, CFI und SRMR bewertet. Akzeptable Schwellenwerte zeigen, ob das theoretische Modell mit den beobachteten Daten übereinstimmt.
Wie kann CFA in Python gemacht werden?
CFA kann in Python mit Paketen wie semopy gemacht werden. Der Artikel zeigt Schritt für Schritt, wie man Modelle spezifiziert, schätzt und die Faktorladungen und Anpassungsindizes interpretiert.
