Pular para o conteúdo principal

Modelagem de equações estruturais: O que é e quando usá-lo

Explore os tipos de modelos de equações estruturais. Aprenda a fazer suposições teóricas, criar um modelo hipotético, avaliar a adequação do modelo e interpretar os resultados da modelagem de equações estruturais.
Actualizado 2 de out. de 2024  · 9 min de leitura

A modelagem de equações estruturais (SEM) nos permite investigar as relações causais entre as variáveis e entender como cada uma delas contribui para o desempenho geral. O SEM é uma ferramenta poderosa que combina análise fatorial e análise de regressão múltipla para analisar as relações entre diversas variáveis. Isso é um pouco semelhante a como, em nossa vida diária, consideramos como fatores como postura, confiança e habilidades de comunicação afetam coletivamente algo como o desempenho em uma entrevista. 

Vamos agora explorar o SEM, seus aplicativos e exemplos práticos em Python. Se você não conhece algumas das ideias centrais, como a ideia de fatores latentes, também pode experimentar nosso curso de análise de fatores.

O que é modelagem de equações estruturais?

A modelagem de equações estruturais representa as relações causais entre variáveis latentes e observadas. As variáveis observadas são o que podemos medir diretamente. Os construtos latentes são inferidos e não medidos diretamente. 

Para capturar efetivamente essas relações, o SEM é dividido em dois componentes principais: o modelo de medição e o modelo estrutural. O modelo de medição especifica as relações entre as variáveis observadas e suas variáveis latentes correspondentes, enquanto o modelo estrutural especifica as relações entre as variáveis latentes.

Por que os pesquisadores usam a modelagem de equações estruturais? 

Técnicas estatísticas como correlação e regressão são ineficientes no estudo de relações multivariadas complexas. O SEM é adequado para modelar construções complexas e multifacetadas que são medidas com erro. Também é útil porque ajuda a especificar um sistema de relacionamentos. Os métodos tradicionais nos ajudam a estudar uma variável independente e um conjunto de preditores. Embora correlação não seja causalidade, o SEM nos ajuda a entender a relação causal entre a variável observada e os construtos latentes.

Algumas das aplicações do SEM incluem:

  • Ciências sociais: O SEM pode ser usado para estudar a influência dos valores culturais no comportamento humano em diferentes sociedades.
  • Educação: O SEM pode ser usado para investigar a experiência dos alunos em escolas de pós-graduação. Por exemplo, para modelar as taxas de evasão de alunos de doutorado nos EUA. 
  • Modelagem de risco de doenças: O SEM pode ser aplicado à modelagem de risco de doenças para determinar o risco de doenças como diabetes ou doenças cardíacas.

Conceitos básicos de modelagem de equações estruturais

Aqui estão alguns dos principais conceitos da modelagem de equações estruturais: 

  • Variáveis observadas: As variáveis observadas são medidas diretamente no estudo. Exemplos são as respostas aos campos do questionário.
  • Variáveis latentes: As variáveis latentes são inferidas a partir das variáveis observadas no estudo. Por exemplo, o nível de inteligência na classificação do desempenho acadêmico de um aluno.
  • Variáveis endógenas: Elas também são conhecidas como variáveis dependentes. Por exemplo, em y= x1 + x2 + x3, y é a variável endógena, pois depende dos valores de x1, x2, ..., xn.
  • Variáveis exógenas: Elas são variáveis independentes. Por exemplo, o tempo de sono de um atleta é independente do tipo de bicicleta de corrida. 
  • Modelo de medição: mede as relações entre os construtos latentes e as variáveis observadas. A estrutura da análise fatorial confirmatória testa a hipótese subjacente do modelo de medição.
  • Modelo estrutural: Esse modelo investiga as relações causais entre os construtos latentes. Ele é representado em um diagrama usando a análise de caminho.

Pressupostos estatísticos da modelagem de equações estruturais

Embora o SEM seja ótimo para modelar relações casuais, ele tem algumas suposições subjacentes sobre os dados. As premissas incluem:

  1. Linearidade: O SEM pressupõe relações lineares entre os construtos latentes e as variáveis observadas. Não é adequado para conjuntos de dados não lineares, pois pode gerar resultados incorretos. 
  2. Multicolinearidade: O SEM pressupõe multicolinearidade mínima entre as variáveis observadas. Por exemplo, o tempo de sono e a nutrição de um concorrente podem estar altamente correlacionados. O SEM pressupõe pouca correlação entre essas variáveis.
  3. Amostragem Premissas: Para tarefas de SEM, você precisa de um tamanho de amostra suficiente de pelo menos 200 para obter bons resultados. Embora você não precise de grandes conjuntos de dados como os LLMs, um tamanho de amostra menor pode gerar resultados imprecisos.
  4. Multivariada Normalidade: O SEM pressupõe que os dados são uma distribuição normal multivariada. Não é adequado para dados não normais. Você pode realizar testes para verificar a normalidade.
  5. Dadosausentes : O SEM pressupõe que os dados estejam completos. Uma forma de o SEM abordar os dados ausentes é presumir que os dados estão ausentes de forma aleatória. Dados faltantes podem interferir na estimativa do modelo.
  6. Especificação Erro: O SEM pressupõe que o modelo definido foi especificado corretamente. Ele pressupõe que os modelos estruturais e de medição contenham pelo menos todas as variáveis relevantes.

Tipos de modelos de equações estruturais

Há diferentes tipos de modelagem de equações estruturais. Em nenhuma ordem específica, eles são:

  • Análise de caminho: É um tipo de SEM e uma extensão dos modelos de regressão que lida apenas com variáveis observadas (também conhecidas como preditores). Os diagramas de caminho representam visualmente esses relacionamentos usando setas para mostrar a direcionalidade. 
  • Análise fatorial confirmatória (CFA): É um tipo de SEM usado para testar a validade dos modelos de medição. Ele verifica se os dados observados se ajustam a um modelo pré-especificado.
  • Modelos estruturais de variáveis latentes (LVSM): Ele modela as relações entre os construtos latentes e as variáveis observadas. Ele também modela a relação entre os próprios construtos latentes.
  • Modelos de crescimento latente: Os modelos de crescimento latente são um tipo especializado de SEM que se concentra na modelagem de mudanças ao longo do tempo. Eles são usados para estudar as trajetórias de variáveis latentes (por exemplo, traços psicológicos ou comportamentos) e como elas evoluem, considerando mudanças individuais e em nível de grupo.

Exemplo de modelagem de equações estruturais em Python

O desenvolvimento de um modelo SEM em Python requer apenas algumas etapas; podemos usar a biblioteca semopy para facilitar esse processo. O tutorial a seguir pressupõe que você esteja familiarizado com a sintaxe do Python.

Instalação das bibliotecas necessárias

pip install semopy

Observação: Para usuários do macOS. Se você encontrar esse erro ao instalar o pacote:

ExecutableNotFound: failed to execute PosixPath('dot'), make sure the Graphviz executables are on your systems' PATH

Instale o graphviz por meio do homebrew em seu terminal

brew install graphviz

Definição de construções

Antes de baixarmos o conjunto de dados e criarmos o modelo, vamos dedicar um minuto para definir todos os construtos. Ou seja, precisaremos identificar as variáveis latentes e observadas. No caso de nosso conjunto de dados, as variáveis observadas foram fornecidas a nós como recursos rotulados e são x1 a x3 e y1 a y8. As variáveis latentes que queremos estudar têm estes nomes, que explicaremos: ind60, dem60, dem65

Variáveis observadas

  • y1: liberdade de imprensa, 1960

  • y2: liberdade de oposição política, 1960

  • y3: imparcialidade das eleições, 1960

  • y4: eficácia da legislatura eleita, 1960

  • y5 -y8: são as mesmas variáveis que y1-y4, respectivamente, medidas em 1965

  • x1: o PNB per capita, 1960

  • x2: o consumo de energia per capita, 1960

  • x3: a porcentagem da força de trabalho na indústria, 1960

Variáveis latentes

  • ind60variável latente exógena na industrialização.

  • dem60variável latente endógena sobre democracia em 1960.

  • dem65variável latente endógena sobre democracia em 1965.

Desenvolvimento do modelo de medição

O objetivo é definir um modelo teórico para especificar a relação entre os construtos latentes e as variáveis observadas.

# Measurement model
ind60 =~ x1 + x2 + x3
demo60 =~ y1 + y2 + y3 + y4
dem65 =~ y5 + y6 + y7 + y8

Especificação do modelo estrutural

Aqui, especificaremos as relações entre os próprios construtos latentes. 

# regressions
dem60 ~ ind60
dem65 ~ ind60 + dem60

Especificando as correlações

Aqui, queremos especificar as variáveis que são altamente correlacionadas entre si.

# Correlations
y1 ~~ y5 
y2 ~~ y4 
y2 ~~ y6 
y3 ~~ y7 
y4 ~~ y8 
y6 ~~ y5

Preparando o conjunto de dados

Para este tutorial, usaremos o conjunto de dados PoliticalDemocracy.csv fornecido por semopy. Você pode baixá-lo visitando este repositório do GitHub.

Import pandas as pd
data = pd.read_csv('PoliticalDemocracy.csv')

Definição do modelo SEM

Precisamos combinar as definições estruturais e de medição em uma especificação de modelo.

# Define the SEM model specification
model_spec = """
# Measurement model
ind60 =~ x1 + x2 + x3
dem60 =~ y1 + y2 + y3 + y4
dem65 =~ y5 + y6 + y7 + y8
    
# regressions
dem60 ~ ind60
dem65 ~ ind60 + dem60
    
# Correlations
y1 ~~ y5 
y2 ~~ y4 
y2 ~~ y6 
y3 ~~ y7 
y4 ~~ y8 
y6 ~~ y5
"""

Em seguida, definimos o modelo e ajustamos os dados

import semopy
# Define the model
model = semopy.Model(model_spec)
#Fit the model
model.fit(data)
# Inspect the results
print(model.inspect())

Interpretação dos resultados

Vamos plotar o resultado do modelo para entender a representação do caminho. O gráfico será salvo como political_sem_model.png.

semopy.semplot(model, 'political_sem_model.png')
print("SEM Model diagram saved as 'political_sem_model.png'.")
img = plt.imread('political_sem_model.png')
plt.imshow(img)
plt.axis('off')
plt.show()

diagrama de caminho de modelagem de equações estruturais

Diagrama de caminho SEM para o conjunto de dados de democracia política. Fonte: Imagem do autor

O diagrama mostra como o caminho relaciona os construtos latentes (em círculos) e as variáveis observadas. Os coeficientes de caminho mais próximos de 1 ou -1 mostram relações fortes entre as variáveis e os próximos de 0 mostram relações fracas.

Os desvios padrão na tabela estão dentro do intervalo. Valores maiores podem indicar multicolinearidade ou má especificação do modelo. Os valores de p determinam a significância estatística dos coeficientes de caminho. Um valor de p menor que 0,05 geralmente indica que o caminho é estatisticamente significativo. Vemos dois casos em que o valor de p é maior que 0,05. 

Em suma, os resultados mostram que o site ind60 influencia significativamente o site dem60, que, por sua vez, influencia significativamente o site dem65.

Avaliação da adequação do modelo

O modelo hipotético deve corresponder às relações observadas para avaliar a adequação do modelo SEM. Vários índices de ajuste são usados para avaliar a adequação do modelo aos dados. Aqui estão os comumente usados:

  • Teste qui-quadrado: Compara a matriz de covariância observada com a matriz de covariância implícita no modelo. Um qui-quadrado não significativo indica um bom ajuste. 
  • Raiz do erro quadrático médio da aproximação: Ele avalia o grau de aproximação do modelo com os dados, ajustando a complexidade do modelo. Valores abaixo de 0,05 e até 0,08 são aceitáveis.

Desafios e soluções comuns em SEM

Alguns desafios comuns da técnica de modelagem de equações estruturais são os seguintes:

  • Não normalidade dos dados: Em geral, o SEM pressupõe que os dados seguem uma distribuição normal. O uso de dados não normais pode afetar os erros padrão, os valores de p e os índices de ajuste, levando a estimativas não confiáveis. As técnicas de transformação de dados podem ser aplicadas para normalizar os dados.
  • Dados ausentes: Você precisa de dados completos para o SEM. A falta de dados pode levar a resultados tendenciosos. Você pode aproveitar os métodos de estimativa de verossimilhança, como a máxima verossimilhança com informações completas (FIML), para resolver esse problema.
  • Modelo adequado: Quando o modelo hipotético não se ajusta aos dados observados, ele leva a interpretações errôneas sobre a relação entre as variáveis. Você pode fazer ajustes orientados pela teoria no modelo ou usar índices de modificação

Conclusão

Neste artigo, analisamos o SEM em profundidade, incluindo suas aplicações, implementação, vantagens e limitações. O SEM é uma ferramenta poderosa para examinar relações complexas e interações causais entre variáveis observadas e latentes. Você deve experimentá-lo em Python ou R em seu próximo projeto de análise.

Se você estiver interessado na ideia de modelagem de equações estruturais, mas preferir o R, poderá fazer o curso Structural Equation Modeling with lavaan in R, que tem instruções detalhadas passo a passo. Você também pode embarcar na carreira de Estatístico em R. Se você estiver comprometido com o Python, leia a documentação do semopy para obter mais casos de uso do SEM no Python. Por fim, se você estiver interessado em modelos avançados em Python que preveem e explicam, e em explorar ideias de arquitetura de modelos e seleção de recursos, experimente nossa carreira de Cientista de Aprendizado de Máquina em Python.

Torne-se um cientista de ML

Aperfeiçoe suas habilidades em Python para se tornar um cientista de aprendizado de máquina.
Comece a aprender de graça

Bunmi Akinremi's photo
Author
Bunmi Akinremi
LinkedIn
Twitter

Engenheiro de machine learning e poeta

Perguntas frequentes sobre modelagem de equações estruturais

O que é modelagem de equações estruturais (SEM) e como ela funciona?

A modelagem de equações estruturais é uma técnica estatística multivariada usada para analisar relações complexas entre variáveis latentes e observadas.

Qual é a diferença entre a análise fatorial confirmatória (CFA) e a modelagem de equações estruturais (SEM)?

A análise fatorial confirmatória (CFA) é um tipo de SEM que se concentra nas relações entre variáveis latentes e suas variáveis observadas associadas. O SEM, por outro lado, vai além dos modelos de medição para incluir componentes estruturais e de medição, permitindo a análise de relações complexas de causa e efeito entre variáveis latentes e observadas.

Quais são as principais etapas envolvidas na realização da análise SEM?

As principais etapas da análise SEM são: (1) Definir as relações teóricas entre as variáveis; (2) Identificar o modelo, assegurando que o número de pontos de dados exceda o número de parâmetros; (3) Ajustar o modelo aos dados; (4) Avaliar o ajuste do modelo usando índices como Qui-quadrado ou RMSEA; e (5) Interpretar os resultados, examinando os coeficientes de caminho e os indicadores de ajuste do modelo.

Quais são os desafios de usar o SEM?

Alguns desafios comuns incluem a seleção de modelos, em que o modelo pode não ter pontos de dados suficientes para estimar os parâmetros, a multicolinearidade entre as variáveis, o ajuste inadequado do modelo, em que os dados não se alinham bem com o modelo hipotético, e o tamanho grande da amostra, pois amostras pequenas podem levar a resultados não confiáveis.

Que pacote Python posso usar para o SEM?

semopy é um pacote Python que oferece suporte a operações de modelagem de equações estruturais.

Temas

Aprenda com a DataCamp

curso

Structural Equation Modeling with lavaan in R

4 hr
8.9K
Learn how to create and assess measurement models used to confirm the structure of a scale or questionnaire.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

tutorial

O que é modelagem de tópicos? Uma introdução com exemplos

Obtenha insights de dados não estruturados com modelagem de tópicos. Explore os principais conceitos, técnicas como LSA e LDA, exemplos práticos e muito mais.
Kurtis Pykes 's photo

Kurtis Pykes

13 min

tutorial

Entendendo o desvio de dados e o desvio de modelo: Detecção de deriva em Python

Navegue pelos perigos do desvio de modelo e explore nosso guia prático para o monitoramento do desvio de dados.
Moez Ali's photo

Moez Ali

9 min

tutorial

Teste de hipóteses facilitado

O teste de hipótese é um método estatístico usado para avaliar afirmações sobre populações com base em dados de amostra.
Vinod Chugani's photo

Vinod Chugani

9 min

tutorial

Tutorial de conjuntos e teoria de conjuntos em Python

Aprenda sobre os conjuntos do Python: o que são, como criá-los, quando usá-los, funções incorporadas e sua relação com as operações da teoria dos conjuntos.
DataCamp Team's photo

DataCamp Team

13 min

tutorial

Tutorial para entender a regressão logística em Python

Aprenda sobre a regressão logística, suas propriedades básicas e crie um modelo de aprendizado de máquina em um aplicativo do mundo real em Python.
Avinash Navlani's photo

Avinash Navlani

10 min

tutorial

Introdução a modelos não lineares e percepções usando o R

Descubra as complexidades dos modelos não lineares em comparação com os modelos lineares. Saiba mais sobre suas aplicações, limitações e como ajustá-las usando conjuntos de dados do mundo real.

Somil Asthana

17 min

Ver maisVer mais