Direkt zum Inhalt

Strukturelle Gleichungsmodellierung: Was es ist und wann man es benutzt

Erkunde die Arten von Strukturgleichungsmodellen. Lerne, wie du theoretische Annahmen triffst, ein Hypothesenmodell aufstellst, die Modellanpassung bewertest und die Ergebnisse der Strukturgleichungsmodellierung interpretierst.
Aktualisierte 2. Okt. 2024  · 9 Min. Lesezeit

Mit der Strukturgleichungsmodellierung (SEM) können wir die kausalen Beziehungen zwischen den Variablen untersuchen und verstehen, wie jede einzelne zur Gesamtleistung beiträgt. Die SEM ist ein leistungsstarkes Instrument, das die Faktorenanalyse und die multiple Regressionsanalyse kombiniert, um die Beziehungen zwischen mehreren Variablen zu analysieren. Das ist in etwa so, wie wir in unserem täglichen Leben berücksichtigen, wie sich Faktoren wie Körperhaltung, Selbstvertrauen und Kommunikationsfähigkeiten zusammen auf die Leistung bei einem Vorstellungsgespräch auswirken. 

Jetzt wollen wir uns mit SEM, seinen Anwendungen und praktischen Beispielen in Python beschäftigen. Wenn dir einige der zentralen Ideen, wie z. B. die Idee der latenten Faktoren, neu sind, kannst du auch unseren Kurs zur Faktorenanalyse ausprobieren.

Was ist die Strukturgleichungsmodellierung?

Die Strukturgleichungsmodellierung stellt die kausalen Beziehungen zwischen latenten und beobachteten Variablen dar. Die beobachteten Variablen sind das, was wir direkt messen können. Latente Konstrukte werden abgeleitet und nicht direkt gemessen. 

Um diese Beziehungen effektiv zu erfassen, wird die SEM in zwei Hauptkomponenten unterteilt: das Messmodell und das Strukturmodell. Das Messmodell beschreibt die Beziehungen zwischen den beobachteten Variablen und ihren entsprechenden latenten Variablen, während das Strukturmodell die Beziehungen zwischen den latenten Variablen beschreibt.

Warum verwenden Forscher die Strukturgleichungsmodellierung? 

Statistische Verfahren wie Korrelation und Regression sind bei der Untersuchung komplexer multivariater Beziehungen ineffizient. Die SEM eignet sich für die Modellierung komplexer, vielschichtiger Konstrukte, die mit Fehlern gemessen werden. Es ist auch nützlich, weil es hilft, ein System von Beziehungen zu definieren. Traditionelle Methoden helfen uns, eine unabhängige Variable und eine Reihe von Prädiktoren zu untersuchen. Obwohl Korrelation nicht gleichbedeutend mit Kausalität ist, hilft uns die SEM, die kausale Beziehung zwischen der beobachteten Variable und den latenten Konstrukten zu verstehen.

Einige der Anwendungen von SEM sind:

  • Sozialwissenschaften: Mit SEM lässt sich der Einfluss kultureller Werte auf das menschliche Verhalten in verschiedenen Gesellschaften untersuchen.
  • Bildung: SEM kann verwendet werden, um die Erfahrungen von Studierenden in Graduiertenschulen zu untersuchen. Zum Beispiel, um die Abbrecherquote von Doktoranden in den USA zu modellieren. 
  • Modellierung von Krankheitsrisiken: SEM kann bei der Modellierung von Krankheitsrisiken angewendet werden, um das Risiko von Krankheiten wie Diabetes oder Herzkrankheiten zu bestimmen.

Kernkonzepte der Strukturgleichungsmodellierung

Hier sind einige der wichtigsten Konzepte der Strukturgleichungsmodellierung: 

  • Beobachtete Variablen: Die beobachteten Variablen werden direkt in der Studie gemessen. Beispiele sind Antworten auf Fragebogenfelder.
  • Latente Variablen: Latente Variablen werden in der Studie aus den beobachteten Variablen abgeleitet. Zum Beispiel der Intelligenzgrad bei der Bewertung der schulischen Leistungen eines Schülers.
  • Endogene Variablen: Sie werden auch als abhängige Variablen bezeichnet. In zum Beispiel ist y= x1 + x2 + x3 die endogene Variable, da sie von den Werten von x1, x2, ..., xn abhängt .
  • Exogene Variablen: Sie sind unabhängige Variablen. Die Schlafzeit eines Sportlers ist zum Beispiel unabhängig von der Art des Rennrads. 
  • Messmodell: misst die Beziehungen zwischen latenten Konstrukten und beobachteten Variablen. Die konfirmatorische Faktorenanalyse prüft die dem Messmodell zugrunde liegende Hypothese.
  • Strukturelles Modell: Dieses Modell untersucht die kausalen Beziehungen zwischen latenten Konstrukten. Sie wird mithilfe der Pfadanalyse grafisch dargestellt.

Statistische Annahmen der Strukturgleichungsmodellierung

Die SEM eignet sich zwar hervorragend für die Modellierung zufälliger Beziehungen, aber sie geht von einigen Annahmen über die Daten aus. Zu den Annahmen gehören:

  1. Linearität: Die SEM geht von linearen Beziehungen zwischen den latenten Konstrukten und den beobachteten Variablen aus. Sie ist nicht für nicht-lineare Datensätze geeignet, da sie falsche Ergebnisse liefern kann. 
  2. Multikollinearität: Die SEM geht von einer minimalen Multikollinearität zwischen den beobachteten Variablen aus. Zum Beispiel könnten die Schlafzeit und die Ernährung eines Konkurrenten stark korreliert sein. Die SEM geht von einer geringen Korrelation zwischen diesen Variablen aus.
  3. Stichprobe Annahmen: Für SEM-Aufgaben brauchst du eine ausreichende Stichprobengröße von mindestens 200 für gute Ergebnisse. Du brauchst zwar keine großen Datensätze wie LLMs, aber eine kleinere Stichprobengröße kann zu ungenauen Ergebnissen führen.
  4. Multivariate Normalität: Die SEM geht davon aus, dass die Daten eine multivariate Normalverteilung haben. Sie ist nicht für nicht-normale Daten geeignet. Du kannst Tests durchführen, um die Normalität zu überprüfen.
  5. Fehlende Daten: SEM geht davon aus, dass die Daten vollständig sind. Eine Möglichkeit, wie SEM mit fehlenden Daten umgeht, ist die Annahme, dass die Daten nach dem Zufallsprinzip fehlen. Fehlende Daten können die Schätzung des Modells beeinträchtigen.
  6. Spezifikation Fehler: SEM geht davon aus, dass das definierte Modell korrekt angegeben ist. Dabei wird davon ausgegangen, dass die Mess- und Strukturmodelle zumindest alle relevanten Variablen enthalten.

Arten von Strukturgleichungsmodellen

Es gibt verschiedene Arten der Strukturgleichungsmodellierung. In keiner bestimmten Reihenfolge sind sie das:

  • Pfadanalyse: Es ist eine Art von SEM und eine Erweiterung von Regressionsmodellen, die sich nur mit beobachteten Variablen (auch Prädiktoren genannt) befassen. Pfaddiagramme stellen diese Beziehungen mithilfe von Pfeilen visuell dar, um die Richtung zu verdeutlichen. 
  • Konfirmatorische Faktorenanalyse (CFA): Sie ist eine Art von SEM, die dazu dient, die Gültigkeit von Messmodellen zu testen. Sie prüft, ob die beobachteten Daten zu einem vorgegebenen Modell passen.
  • Strukturelle Modelle mit latenten Variablen (LVSM): Sie modelliert die Beziehungen zwischen latenten Konstrukten und beobachteten Variablen. Sie modelliert auch die Beziehung zwischen den latenten Konstrukten selbst.
  • Latente Wachstumsmodelle: Latente Wachstumsmodelle sind eine spezielle Form der SEM, die sich auf die Modellierung von Veränderungen im Zeitverlauf konzentriert. Sie werden verwendet, um den Verlauf latenter Variablen (z. B. psychologische Eigenschaften oder Verhaltensweisen) und deren Entwicklung unter Berücksichtigung von Veränderungen auf individueller und Gruppenebene zu untersuchen.

Beispiel für Strukturgleichungsmodellierung in Python

Die Entwicklung eines SEM-Modells in Python erfordert nur wenige Schritte; wir können die Bibliothek semopy verwenden, um es einfach zu machen. Das folgende Tutorial setzt voraus, dass du mit der Python-Syntax vertraut bist.

Installation der erforderlichen Bibliotheken

pip install semopy

Hinweis: Für macOS-Nutzer. Wenn du bei der Installation des Pakets auf diesen Fehler stößt:

ExecutableNotFound: failed to execute PosixPath('dot'), make sure the Graphviz executables are on your systems' PATH

Installiere graphviz über Homebrew in deinem Terminal

brew install graphviz

Konstrukte definieren

Bevor wir unseren Datensatz herunterladen und unser Modell erstellen, nehmen wir uns eine Minute Zeit, um alle unsere Konstrukte zu definieren. Das heißt, wir müssen die latenten und beobachteten Variablen identifizieren. Im Fall unseres Datensatzes wurden uns die beobachteten Variablen als gelabelte Merkmale zur Verfügung gestellt und sie sind x1 bis x3 und y1 bis y8. Die latenten Variablen, die wir untersuchen wollen, haben diese Namen, die wir erklären werden: ind60, dem60, dem65

Beobachtete Variablen

  • y1: Pressefreiheit, 1960

  • y2: Freiheit der politischen Opposition, 1960

  • y3: Fairness der Wahlen, 1960

  • y4Effektivität der gewählten Legislative, 1960

  • y5 -y8: sind die gleichen Variablen wie y1-y4, jeweils gemessen im Jahr 1965

  • x1: das BSP pro Kopf, 1960

  • x2: der Energieverbrauch pro Kopf, 1960

  • x3: der Prozentsatz der Arbeitskräfte in der Industrie, 1960

Latente Variablen

  • ind60: exogene latente Variable zur Industrialisierung.

  • dem60: endogene latente Variable zur Demokratie im Jahr 1960.

  • dem65: endogene latente Variable zur Demokratie im Jahr 1965.

Entwicklung des Messmodells

Das Ziel ist es, ein theoretisches Modell zu definieren, das die Beziehung zwischen den latenten Konstrukten und den beobachteten Variablen beschreibt.

# Measurement model
ind60 =~ x1 + x2 + x3
demo60 =~ y1 + y2 + y3 + y4
dem65 =~ y5 + y6 + y7 + y8

Festlegen des Strukturmodells

Hier werden wir die Beziehungen zwischen den latenten Konstrukten selbst beschreiben. 

# regressions
dem60 ~ ind60
dem65 ~ ind60 + dem60

Festlegen der Korrelationen

Hier wollen wir Variablen angeben, die stark miteinander korreliert sind.

# Correlations
y1 ~~ y5 
y2 ~~ y4 
y2 ~~ y6 
y3 ~~ y7 
y4 ~~ y8 
y6 ~~ y5

Vorbereiten des Datensatzes

Für dieses Tutorial verwenden wir den PoliticalDemocracy.csv Datensatz, der von semopy bereitgestellt wird. Du kannst es in diesem GitHub-Repository herunterladen.

Import pandas as pd
data = pd.read_csv('PoliticalDemocracy.csv')

Definition des SEM-Modells

Wir müssen die Struktur- und Messdefinitionen in einer Modellspezifikation kombinieren.

# Define the SEM model specification
model_spec = """
# Measurement model
ind60 =~ x1 + x2 + x3
dem60 =~ y1 + y2 + y3 + y4
dem65 =~ y5 + y6 + y7 + y8
    
# regressions
dem60 ~ ind60
dem65 ~ ind60 + dem60
    
# Correlations
y1 ~~ y5 
y2 ~~ y4 
y2 ~~ y6 
y3 ~~ y7 
y4 ~~ y8 
y6 ~~ y5
"""

Als nächstes definieren wir das Modell und passen die Daten an

import semopy
# Define the model
model = semopy.Model(model_spec)
#Fit the model
model.fit(data)
# Inspect the results
print(model.inspect())

Interpretation der Ergebnisse

Wir werden das Ergebnis des Modells aufzeichnen, um die Pfaddarstellung zu verstehen. Der Plot wird als political_sem_model.png gespeichert.

semopy.semplot(model, 'political_sem_model.png')
print("SEM Model diagram saved as 'political_sem_model.png'.")
img = plt.imread('political_sem_model.png')
plt.imshow(img)
plt.axis('off')
plt.show()

Strukturgleichungsmodellierung Pfaddiagramm

SEM-Pfaddiagramm für den Datensatz zur politischen Demokratie. Quelle: Bild vom Autor

Das Diagramm zeigt, wie der Pfad die latenten Konstrukte (in Kreisen) und die beobachteten Variablen miteinander verbindet. Pfadkoeffizienten, die näher bei 1 oder -1 liegen, zeigen starke Beziehungen zwischen den Variablen an, während solche nahe 0 schwache Beziehungen anzeigen.

Die Standardabweichungen in der Tabelle liegen innerhalb der Spanne. Größere Werte können auf Multikollinearität oder eine Fehlspezifizierung des Modells hinweisen. Die p-Werte bestimmen die statistische Signifikanz der Pfadkoeffizienten. Ein p-Wert von weniger als 0,05 bedeutet normalerweise, dass der Pfad statistisch signifikant ist. Wir sehen 2 Fälle, in denen der p-Wert größer als 0,05 ist. 

Alles in allem zeigen die Ergebnisse, dass ind60 einen signifikanten Einfluss auf dem60 hat, was wiederum einen signifikanten Einfluss auf dem65 hat.

Bewertung der Modellanpassung

Das hypothetische Modell sollte mit den beobachteten Beziehungen übereinstimmen, damit das SEM-Modell passt. Verschiedene Anpassungsindizes werden verwendet, um zu beurteilen, wie gut das Modell zu den Daten passt. Hier sind die am häufigsten verwendeten:

  • Chi-Quadrat-Test: Vergleicht die beobachtete Kovarianzmatrix mit der vom Modell implizierten Kovarianzmatrix. Ein nicht signifikantes Chi-Quadrat bedeutet eine gute Anpassung. 
  • Mittlerer quadratischer Fehler der Approximation: Sie bewertet, wie gut das Modell die Daten annähert, wobei die Komplexität des Modells berücksichtigt wird. Werte unter 0,05 und bis zu 0,08 sind akzeptabel.

Gemeinsame Herausforderungen und Lösungen im SEM

Zu den allgemeinen Herausforderungen der Strukturgleichungsmodellierung gehören die folgenden:

  • Nicht-Normalität der Daten: Bei der SEM wird im Allgemeinen davon ausgegangen, dass die Daten einer Normalverteilung folgen. Die Verwendung nicht-normaler Daten kann die Standardfehler, p-Werte und Anpassungsindizes beeinflussen und zu unzuverlässigen Schätzungen führen. Um die Daten zu normalisieren, können Datenumwandlungstechniken angewendet werden.
  • Fehlende Daten: Für SEM werden vollständige Daten benötigt. Fehlende Daten können zu verzerrten Ergebnissen führen. Du kannst Likelihood-Schätzmethoden wie Full Information Maximum Likelihood (FIML) nutzen, um dieses Problem zu lösen.
  • Das Modell passt: Wenn das hypothetische Modell nicht zu den beobachteten Daten passt, führt es zu irreführenden Interpretationen über die Beziehung zwischen den Variablen. Du kannst theoriegeleitete Anpassungen am Modell vornehmen oder Änderungsindizes verwenden

Fazit

In diesem Artikel haben wir uns ausführlich mit dem SEM beschäftigt, einschließlich seiner Anwendungen, Umsetzung, Vorteile und Grenzen. Die SEM ist ein leistungsstarkes Instrument zur Untersuchung komplexer Beziehungen und kausaler Wechselwirkungen zwischen beobachteten und latenten Variablen. Du solltest es in Python oder R für dein nächstes Analyseprojekt ausprobieren.

Wenn du dich für die Idee der Strukturgleichungsmodellierung interessierst, aber R bevorzugst, kannst du den Kurs Strukturgleichungsmodellierung mit Lavaan in R besuchen, der eine detaillierte Schritt-für-Schritt-Anleitung enthält. Du kannst auch die Laufbahn Statistiker/in in R einschlagen. Wenn du dich für Python entscheidest, lies die Semopy-Dokumentation für weitere Anwendungsfälle von SEM in Python. Wenn du dich für fortgeschrittene Python-Modelle interessierst, die sowohl Vorhersagen als auch Erklärungen liefern, und Ideen für die Modellarchitektur und die Auswahl von Merkmalen erforschen möchtest, solltest du unseren Karrierepfad Machine Learning Scientist in Python ausprobieren.

Werde ein ML-Wissenschaftler

Bilde dich in Python weiter, um ein/e Wissenschaftler/in für maschinelles Lernen zu werden.
Kostenloses Lernen beginnen

Bunmi Akinremi's photo
Author
Bunmi Akinremi
LinkedIn
Twitter

Ingenieur für maschinelles Lernen und Dichter

FAQs zur Strukturgleichungsmodellierung

Was ist die Strukturgleichungsmodellierung (SEM) und wie funktioniert sie?

Die Strukturgleichungsmodellierung ist ein multivariates statistisches Verfahren, mit dem komplexe Beziehungen zwischen latenten und beobachteten Variablen analysiert werden können.

Was ist der Unterschied zwischen konfirmatorischer Faktorenanalyse (CFA) und Strukturgleichungsmodellierung (SEM)?

Die konfirmatorische Faktorenanalyse (CFA) ist eine Art der SEM, die sich auf die Beziehungen zwischen latenten Variablen und den zugehörigen beobachteten Variablen konzentriert. Die SEM hingegen geht über Messmodelle hinaus und umfasst sowohl strukturelle als auch Messkomponenten und ermöglicht die Analyse komplexer Ursache-Wirkungs-Beziehungen zwischen latenten und beobachteten Variablen.

Was sind die wichtigsten Schritte bei der Durchführung einer SEM-Analyse?

Die wichtigsten Schritte der SEM-Analyse sind: (1) Definiere die theoretischen Beziehungen zwischen den Variablen; (2) Bestimme das Modell und stelle sicher, dass die Anzahl der Datenpunkte die Anzahl der Parameter übersteigt; (3) Passe das Modell an die Daten an; (4) Beurteile die Modellanpassung mithilfe von Indizes wie Chi-Quadrat oder RMSEA und (5) interpretiere die Ergebnisse, indem du die Pfadkoeffizienten und die Indikatoren für die Modellanpassung untersuchst.

Was sind die Herausforderungen beim Einsatz von SEM?

Zu den häufigsten Herausforderungen gehören die Modellauswahl - wenn das Modell nicht genügend Datenpunkte hat, um die Parameter zu schätzen, Multikollinearität zwischen den Variablen, schlechte Modellanpassung - wenn die Daten nicht gut mit dem angenommenen Modell übereinstimmen - und ein großer Stichprobenumfang, da kleine Stichproben zu unzuverlässigen Ergebnissen führen können.

Welches Python-Paket kann ich für SEM verwenden?

semopy ist ein Python-Paket, das Operationen zur Modellierung von Strukturgleichungen unterstützt.

Themen

Lernen mit DataCamp

Zertifizierung verfügbar

Kurs

Strukturelle Gleichungsmodellierung mit lavaan in R

4 hr
8.9K
Lerne, wie du Messmodelle erstellst und bewertest, um die Struktur einer Skala oder eines Fragebogens zu bestätigen.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow