Strukturelle Gleichungsmodellierung: Was es ist und wann man es benutzt

Erkunde die Arten von Strukturgleichungsmodellen. Lerne, wie du theoretische Annahmen triffst, ein Hypothesenmodell aufstellst, die Modellanpassung bewertest und die Ergebnisse der Strukturgleichungsmodellierung interpretierst.

Aktualisiert 2. Okt. 2024 · 9 Min. lesen

Mit der Strukturgleichungsmodellierung (SEM) können wir die kausalen Beziehungen zwischen den Variablen untersuchen und verstehen, wie jede einzelne zur Gesamtleistung beiträgt. Die SEM ist ein leistungsstarkes Instrument, das die Faktorenanalyse und die multiple Regressionsanalyse kombiniert, um die Beziehungen zwischen mehreren Variablen zu analysieren. Das ist in etwa so, wie wir in unserem täglichen Leben berücksichtigen, wie sich Faktoren wie Körperhaltung, Selbstvertrauen und Kommunikationsfähigkeiten zusammen auf die Leistung bei einem Vorstellungsgespräch auswirken.

Jetzt wollen wir uns mit SEM, seinen Anwendungen und praktischen Beispielen in Python beschäftigen. Wenn dir einige der zentralen Ideen, wie z. B. die Idee der latenten Faktoren, neu sind, kannst du auch unseren Kurs zur Faktorenanalyse ausprobieren.

Was ist die Strukturgleichungsmodellierung?

Die Strukturgleichungsmodellierung stellt die kausalen Beziehungen zwischen latenten und beobachteten Variablen dar. Die beobachteten Variablen sind das, was wir direkt messen können. Latente Konstrukte werden abgeleitet und nicht direkt gemessen.

Um diese Beziehungen effektiv zu erfassen, wird die SEM in zwei Hauptkomponenten unterteilt: das Messmodell und das Strukturmodell. Das Messmodell beschreibt die Beziehungen zwischen den beobachteten Variablen und ihren entsprechenden latenten Variablen, während das Strukturmodell die Beziehungen zwischen den latenten Variablen beschreibt.

Warum verwenden Forscher die Strukturgleichungsmodellierung?

Statistische Verfahren wie Korrelation und Regression sind bei der Untersuchung komplexer multivariater Beziehungen ineffizient. Die SEM eignet sich für die Modellierung komplexer, vielschichtiger Konstrukte, die mit Fehlern gemessen werden. Es ist auch nützlich, weil es hilft, ein System von Beziehungen zu definieren. Traditionelle Methoden helfen uns, eine unabhängige Variable und eine Reihe von Prädiktoren zu untersuchen. Obwohl Korrelation nicht gleichbedeutend mit Kausalität ist, hilft uns die SEM, die kausale Beziehung zwischen der beobachteten Variable und den latenten Konstrukten zu verstehen.

Einige der Anwendungen von SEM sind:

Sozialwissenschaften: Mit SEM lässt sich der Einfluss kultureller Werte auf das menschliche Verhalten in verschiedenen Gesellschaften untersuchen.
Bildung: SEM kann verwendet werden, um die Erfahrungen von Studierenden in Graduiertenschulen zu untersuchen. Zum Beispiel, um die Abbrecherquote von Doktoranden in den USA zu modellieren.
Modellierung von Krankheitsrisiken: SEM kann bei der Modellierung von Krankheitsrisiken angewendet werden, um das Risiko von Krankheiten wie Diabetes oder Herzkrankheiten zu bestimmen.

Kernkonzepte der Strukturgleichungsmodellierung

Hier sind einige der wichtigsten Konzepte der Strukturgleichungsmodellierung:

Beobachtete Variablen: Die beobachteten Variablen werden direkt in der Studie gemessen. Beispiele sind Antworten auf Fragebogenfelder.
Latente Variablen: Latente Variablen werden in der Studie aus den beobachteten Variablen abgeleitet. Zum Beispiel der Intelligenzgrad bei der Bewertung der schulischen Leistungen eines Schülers.
Endogene Variablen: Sie werden auch als abhängige Variablen bezeichnet. In zum Beispiel ist y= x1 + x2 + x3 die endogene Variable, da sie von den Werten von x1, x2, ..., xn abhängt .
Exogene Variablen: Sie sind unabhängige Variablen. Die Schlafzeit eines Sportlers ist zum Beispiel unabhängig von der Art des Rennrads.
Messmodell: misst die Beziehungen zwischen latenten Konstrukten und beobachteten Variablen. Die konfirmatorische Faktorenanalyse prüft die dem Messmodell zugrunde liegende Hypothese.
Strukturelles Modell: Dieses Modell untersucht die kausalen Beziehungen zwischen latenten Konstrukten. Sie wird mithilfe der Pfadanalyse grafisch dargestellt.

Statistische Annahmen der Strukturgleichungsmodellierung

Die SEM eignet sich zwar hervorragend für die Modellierung zufälliger Beziehungen, aber sie geht von einigen Annahmen über die Daten aus. Zu den Annahmen gehören:

Linearität: Die SEM geht von linearen Beziehungen zwischen den latenten Konstrukten und den beobachteten Variablen aus. Sie ist nicht für nicht-lineare Datensätze geeignet, da sie falsche Ergebnisse liefern kann.
Multikollinearität: Die SEM geht von einer minimalen Multikollinearität zwischen den beobachteten Variablen aus. Zum Beispiel könnten die Schlafzeit und die Ernährung eines Konkurrenten stark korreliert sein. Die SEM geht von einer geringen Korrelation zwischen diesen Variablen aus.
Stichprobe Annahmen: Für SEM-Aufgaben brauchst du eine ausreichende Stichprobengröße von mindestens 200 für gute Ergebnisse. Du brauchst zwar keine großen Datensätze wie LLMs, aber eine kleinere Stichprobengröße kann zu ungenauen Ergebnissen führen.
Multivariate Normalität: Die SEM geht davon aus, dass die Daten eine multivariate Normalverteilung haben. Sie ist nicht für nicht-normale Daten geeignet. Du kannst Tests durchführen, um die Normalität zu überprüfen.
Fehlende Daten: SEM geht davon aus, dass die Daten vollständig sind. Eine Möglichkeit, wie SEM mit fehlenden Daten umgeht, ist die Annahme, dass die Daten nach dem Zufallsprinzip fehlen. Fehlende Daten können die Schätzung des Modells beeinträchtigen.
Spezifikation Fehler: SEM geht davon aus, dass das definierte Modell korrekt angegeben ist. Dabei wird davon ausgegangen, dass die Mess- und Strukturmodelle zumindest alle relevanten Variablen enthalten.

Arten von Strukturgleichungsmodellen

Es gibt verschiedene Arten der Strukturgleichungsmodellierung. In keiner bestimmten Reihenfolge sind sie das:

Pfadanalyse: Es ist eine Art von SEM und eine Erweiterung von Regressionsmodellen, die sich nur mit beobachteten Variablen (auch Prädiktoren genannt) befassen. Pfaddiagramme stellen diese Beziehungen mithilfe von Pfeilen visuell dar, um die Richtung zu verdeutlichen.
Konfirmatorische Faktorenanalyse (CFA): Sie ist eine Art von SEM, die dazu dient, die Gültigkeit von Messmodellen zu testen. Sie prüft, ob die beobachteten Daten zu einem vorgegebenen Modell passen.
Strukturelle Modelle mit latenten Variablen (LVSM): Sie modelliert die Beziehungen zwischen latenten Konstrukten und beobachteten Variablen. Sie modelliert auch die Beziehung zwischen den latenten Konstrukten selbst.
Latente Wachstumsmodelle: Latente Wachstumsmodelle sind eine spezielle Form der SEM, die sich auf die Modellierung von Veränderungen im Zeitverlauf konzentriert. Sie werden verwendet, um den Verlauf latenter Variablen (z. B. psychologische Eigenschaften oder Verhaltensweisen) und deren Entwicklung unter Berücksichtigung von Veränderungen auf individueller und Gruppenebene zu untersuchen.

Beispiel für Strukturgleichungsmodellierung in Python

Die Entwicklung eines SEM-Modells in Python erfordert nur wenige Schritte; wir können die Bibliothek semopy verwenden, um es einfach zu machen. Das folgende Tutorial setzt voraus, dass du mit der Python-Syntax vertraut bist.

Installation der erforderlichen Bibliotheken

pip install semopy

Hinweis: Für macOS-Nutzer. Wenn du bei der Installation des Pakets auf diesen Fehler stößt:

ExecutableNotFound: failed to execute PosixPath('dot'), make sure the Graphviz executables are on your systems' PATH

Installiere graphviz über Homebrew in deinem Terminal

brew install graphviz

Konstrukte definieren

Bevor wir unseren Datensatz herunterladen und unser Modell erstellen, nehmen wir uns eine Minute Zeit, um alle unsere Konstrukte zu definieren. Das heißt, wir müssen die latenten und beobachteten Variablen identifizieren. Im Fall unseres Datensatzes wurden uns die beobachteten Variablen als gelabelte Merkmale zur Verfügung gestellt und sie sind x1 bis x3 und y1 bis y8. Die latenten Variablen, die wir untersuchen wollen, haben diese Namen, die wir erklären werden: ind60, dem60, dem65.

Beobachtete Variablen

y1: Pressefreiheit, 1960
y2: Freiheit der politischen Opposition, 1960
y3: Fairness der Wahlen, 1960
y4Effektivität der gewählten Legislative, 1960
y5 -y8: sind die gleichen Variablen wie y1-y4, jeweils gemessen im Jahr 1965
x1: das BSP pro Kopf, 1960
x2: der Energieverbrauch pro Kopf, 1960
x3: der Prozentsatz der Arbeitskräfte in der Industrie, 1960

Latente Variablen

ind60: exogene latente Variable zur Industrialisierung.
dem60: endogene latente Variable zur Demokratie im Jahr 1960.
dem65: endogene latente Variable zur Demokratie im Jahr 1965.

Entwicklung des Messmodells

Das Ziel ist es, ein theoretisches Modell zu definieren, das die Beziehung zwischen den latenten Konstrukten und den beobachteten Variablen beschreibt.

# Measurement model
ind60 =~ x1 + x2 + x3
demo60 =~ y1 + y2 + y3 + y4
dem65 =~ y5 + y6 + y7 + y8

Festlegen des Strukturmodells

Hier werden wir die Beziehungen zwischen den latenten Konstrukten selbst beschreiben.

# regressions
dem60 ~ ind60
dem65 ~ ind60 + dem60

Festlegen der Korrelationen

Hier wollen wir Variablen angeben, die stark miteinander korreliert sind.

# Correlations
y1 ~~ y5 
y2 ~~ y4 
y2 ~~ y6 
y3 ~~ y7 
y4 ~~ y8 
y6 ~~ y5

Vorbereiten des Datensatzes

Für dieses Tutorial verwenden wir den PoliticalDemocracy.csv Datensatz, der von semopy bereitgestellt wird. Du kannst es in diesem GitHub-Repository herunterladen.

Import pandas as pd
data = pd.read_csv('PoliticalDemocracy.csv')

Definition des SEM-Modells

Wir müssen die Struktur- und Messdefinitionen in einer Modellspezifikation kombinieren.

# Define the SEM model specification
model_spec = """
# Measurement model
ind60 =~ x1 + x2 + x3
dem60 =~ y1 + y2 + y3 + y4
dem65 =~ y5 + y6 + y7 + y8
    
# regressions
dem60 ~ ind60
dem65 ~ ind60 + dem60
    
# Correlations
y1 ~~ y5 
y2 ~~ y4 
y2 ~~ y6 
y3 ~~ y7 
y4 ~~ y8 
y6 ~~ y5
"""

Als nächstes definieren wir das Modell und passen die Daten an

import semopy
# Define the model
model = semopy.Model(model_spec)
#Fit the model
model.fit(data)
# Inspect the results
print(model.inspect())

Interpretation der Ergebnisse

Wir werden das Ergebnis des Modells aufzeichnen, um die Pfaddarstellung zu verstehen. Der Plot wird als political_sem_model.png gespeichert.

semopy.semplot(model, 'political_sem_model.png')
print("SEM Model diagram saved as 'political_sem_model.png'.")
img = plt.imread('political_sem_model.png')
plt.imshow(img)
plt.axis('off')
plt.show()

SEM-Pfaddiagramm für den Datensatz zur politischen Demokratie. Quelle: Bild vom Autor

Das Diagramm zeigt, wie der Pfad die latenten Konstrukte (in Kreisen) und die beobachteten Variablen miteinander verbindet. Pfadkoeffizienten, die näher bei 1 oder -1 liegen, zeigen starke Beziehungen zwischen den Variablen an, während solche nahe 0 schwache Beziehungen anzeigen.

Die Standardabweichungen in der Tabelle liegen innerhalb der Spanne. Größere Werte können auf Multikollinearität oder eine Fehlspezifizierung des Modells hinweisen. Die p-Werte bestimmen die statistische Signifikanz der Pfadkoeffizienten. Ein p-Wert von weniger als 0,05 bedeutet normalerweise, dass der Pfad statistisch signifikant ist. Wir sehen 2 Fälle, in denen der p-Wert größer als 0,05 ist.

Alles in allem zeigen die Ergebnisse, dass ind60 einen signifikanten Einfluss auf dem60 hat, was wiederum einen signifikanten Einfluss auf dem65 hat.

Bewertung der Modellanpassung

Das hypothetische Modell sollte mit den beobachteten Beziehungen übereinstimmen, damit das SEM-Modell passt. Verschiedene Anpassungsindizes werden verwendet, um zu beurteilen, wie gut das Modell zu den Daten passt. Hier sind die am häufigsten verwendeten:

Chi-Quadrat-Test: Vergleicht die beobachtete Kovarianzmatrix mit der vom Modell implizierten Kovarianzmatrix. Ein nicht signifikantes Chi-Quadrat bedeutet eine gute Anpassung.
Mittlerer quadratischer Fehler der Approximation: Sie bewertet, wie gut das Modell die Daten annähert, wobei die Komplexität des Modells berücksichtigt wird. Werte unter 0,05 und bis zu 0,08 sind akzeptabel.

Gemeinsame Herausforderungen und Lösungen im SEM

Zu den allgemeinen Herausforderungen der Strukturgleichungsmodellierung gehören die folgenden:

Nicht-Normalität der Daten: Bei der SEM wird im Allgemeinen davon ausgegangen, dass die Daten einer Normalverteilung folgen. Die Verwendung nicht-normaler Daten kann die Standardfehler, p-Werte und Anpassungsindizes beeinflussen und zu unzuverlässigen Schätzungen führen. Um die Daten zu normalisieren, können Datenumwandlungstechniken angewendet werden.
Fehlende Daten: Für SEM werden vollständige Daten benötigt. Fehlende Daten können zu verzerrten Ergebnissen führen. Du kannst Likelihood-Schätzmethoden wie Full Information Maximum Likelihood (FIML) nutzen, um dieses Problem zu lösen.
Das Modell passt: Wenn das hypothetische Modell nicht zu den beobachteten Daten passt, führt es zu irreführenden Interpretationen über die Beziehung zwischen den Variablen. Du kannst theoriegeleitete Anpassungen am Modell vornehmen oder Änderungsindizes verwenden.

Fazit

In diesem Artikel haben wir uns ausführlich mit dem SEM beschäftigt, einschließlich seiner Anwendungen, Umsetzung, Vorteile und Grenzen. Die SEM ist ein leistungsstarkes Instrument zur Untersuchung komplexer Beziehungen und kausaler Wechselwirkungen zwischen beobachteten und latenten Variablen. Du solltest es in Python oder R für dein nächstes Analyseprojekt ausprobieren.

Wenn du dich für die Idee der Strukturgleichungsmodellierung interessierst, aber R bevorzugst, kannst du den Kurs Strukturgleichungsmodellierung mit Lavaan in R besuchen, der eine detaillierte Schritt-für-Schritt-Anleitung enthält. Du kannst auch die Laufbahn Statistiker/in in R einschlagen. Wenn du dich für Python entscheidest, lies die Semopy-Dokumentation für weitere Anwendungsfälle von SEM in Python. Wenn du dich für fortgeschrittene Python-Modelle interessierst, die sowohl Vorhersagen als auch Erklärungen liefern, und Ideen für die Modellarchitektur und die Auswahl von Merkmalen erforschen möchtest, solltest du unseren Karrierepfad Machine Learning Scientist in Python ausprobieren.

Werde ein ML-Wissenschaftler

Bilde dich in Python weiter, um ein/e Wissenschaftler/in für maschinelles Lernen zu werden.

Kostenloses Lernen beginnen

Author

Bunmi Akinremi

Was ist die Strukturgleichungsmodellierung (SEM) und wie funktioniert sie?

Was ist der Unterschied zwischen konfirmatorischer Faktorenanalyse (CFA) und Strukturgleichungsmodellierung (SEM)?

Was sind die wichtigsten Schritte bei der Durchführung einer SEM-Analyse?

Was sind die Herausforderungen beim Einsatz von SEM?

Welches Python-Paket kann ich für SEM verwenden?

Themen

Python

Datenwissenschaft

Lernen mit DataCamp

Lernpfad

Grundlagen des maschinellen Lernens in Python

16 Std.

Lerne die Kunst des maschinellen Lernens und werde zum Meister der Vorhersage, der Mustererkennung und der Anfänge des Deep und Reinforcement Learning.

Details anzeigen

Kurs starten

Lernpfad

Wissenschaftler für maschinelles Lernen in Python

85 Std.

Lerne maschinelles Lernen mit Python kennen und arbeite daran, ein Experte für maschinelles Lernen zu werden. Entdecke überwachtes, unüberwachtes und tiefes Lernen.

Details anzeigen

Kurs starten

Kurs

Structural Equation Modeling with lavaan in R

4 Std.

9.9K

Learn how to create and assess measurement models used to confirm the structure of a scale or questionnaire.

Details anzeigen

Kurs starten

Verwandt

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigen Mehr anzeigen

Was ist die Strukturgleichungsmodellierung?

Warum verwenden Forscher die Strukturgleichungsmodellierung?

Kernkonzepte der Strukturgleichungsmodellierung

Statistische Annahmen der Strukturgleichungsmodellierung

Arten von Strukturgleichungsmodellen

Beispiel für Strukturgleichungsmodellierung in Python

Installation der erforderlichen Bibliotheken

Konstrukte definieren

Beobachtete Variablen

Latente Variablen

Entwicklung des Messmodells

Festlegen des Strukturmodells

Festlegen der Korrelationen

Vorbereiten des Datensatzes

Definition des SEM-Modells

Interpretation der Ergebnisse

Bewertung der Modellanpassung

Gemeinsame Herausforderungen und Lösungen im SEM

Fazit

Werde ein ML-Wissenschaftler

FAQs zur Strukturgleichungsmodellierung

Was sind die wichtigsten Schritte bei der Durchführung einer SEM-Analyse?

Was sind die Herausforderungen beim Einsatz von SEM?

Welches Python-Paket kann ich für SEM verwenden?

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

2022-2023 DataCamp Classrooms Jahresbericht

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Grundlagen des maschinellen Lernens in Python

Wissenschaftler für maschinelles Lernen in Python

Structural Equation Modeling with lavaan in R

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

2022-2023 DataCamp Classrooms Jahresbericht

Grundlagen des maschinellen Lernens in Python