Curso
Quando respondemos a questionários com afirmações como “Estou satisfeito com o nosso trabalho” ou “Gosto de trabalhar com meus colegas”, estamos ajudando os pesquisadores a coletar informações sobre conceitos que não podemos medir diretamente. Pega, por exemplo, a satisfação no trabalho, a motivação ou a ansiedade. Isso é o que os pesquisadores chamam de construções latentes. São conceitos abstratos que não dá pra medir diretamente, mas dá pra ver indiretamente na resposta, no comportamento ou nos itens de teste.
Mas a questão é se essas perguntas medem o conceito que está sendo medido, e não outra coisa.
É aí que entra a análise fatorial confirmatória (AFC). A CFA é uma técnica estatística que verifica se existe uma relação entre variáveis observadas (pense em perguntas de uma pesquisa) e construções não observadas (por exemplo, motivação). À medida que avançamos e entendemos melhor a CFA, é importante diferenciá-la da análise fatorial exploratória (EFA). Diferente da EFA, que procura padrões sem fazer hipóteses, a CFA começa com uma teoria e vê se os dados confirmam ela.
Como parte essencial da modelagem de equações estruturais (SEM), a CFA garante que, antes de investigarmos as relações entre conceitos, ospróprios conceitossejam medidos de forma confiável e válida.
O que é a Análise Fatorial Confirmatória (AFC)?
A CFA pensa na seguinte questão: O meu modelo de medição corresponde à realidade?
Para entender melhor essa questão, vamos entender o que é um modelo de medição. É um mapa que liga indicadores observados (como itens de pesquisa) a conceitos latentes (como depressão, motivação ou satisfação). Na CFA, os pesquisadores definem esse mapa com antecedência, com base em teorias ou pesquisas anteriores, e depois testam se os dados se encaixam nessa estrutura.
Comparando CFA e EFA com uma analogia, EFA é como andar por uma cidade nova sem um mapa. Enquanto CFA é tipo verificar se as direções do nosso GPS batem com as ruas de verdade.
Principais componentes da CFA
Construções latentes e indicadores observados
- Construtos latentes são noções conceituais que não podem ser medidas diretamente, por exemplo, inteligência, esgotamento e felicidade.
- Os indicadores observados são o que a gente usa pra fazer medições, tipo notas de provas, itens de pesquisas e avaliações de comportamento.
Para medir a satisfação no trabalho, podemos usar o seguinte:
- Estou satisfeito com meu trabalho.
- Estou satisfeito com o meu salário.
- Tenho um bom relacionamento de trabalho com meus colegas.
Essas respostas diferentes refletem todas o mesmo fator subjacente, ou seja, a satisfação no trabalho.
Cargas fatoriais
As cargas fatoriais mostram em que medida cada indicador está captando seu conceito subjacente. Cargas altas, normalmente acima de 0,7, indicam uma representação forte, enquanto cargas moderadas entre 0,4 e 0,7 são adequadas para a maioria dos casos.
Pense nas cargas fatoriais como a intensidade do sinal no nosso celular. Quanto mais forte o sinal, melhor o indicador da construção.
Modelo de medição
O modelo de medição mostra quais variáveis observadas correspondem a quais construções latentes, de acordo com a teoria. Diferente da EFA, onde os dados mandam, a CFA já vem com essa estrutura pronta e, por isso, é mais para confirmar do que para explorar.
O Processo CFA
Depois de apresentar os conceitos básicos, vamos ver o processo CFA passo a passo. Essa demonstração em Python usa o pacotesemopy .
Passo 1: Especificações do modelo
O primeiro passo na CFA é definir o modelo teórico. Os pesquisadores decidem quais construções latentes existem e como elas são observadas por meio de indicadores.
Imagina que estamos fazendo um estudo de psicologia no trabalho. Queremos medir dois conceitos:
-
Satisfação no trabalho (
JobSat), medida por três itens da pesquisa: -
JS1: Estou satisfeito com meu trabalho. -
JS2: Estou satisfeito com o meu salário. -
JS3: Tenho um bom relacionamento com os colegas. -
Engajamento no Trabalho (WorkEng), medido por três itens da pesquisa:
-
WE1: Eu me sinto cheio de energia no trabalho. -
WE2: Eu curto muito meu trabalho. -
WE3: Eu fico super envolvido no meu trabalho.
Também achamos que a satisfação no trabalho e o engajamento profissional estão ligados.
Em semopy, que é uma biblioteca Python dedicada, esse modelo pode ser expresso como:
model_desc = """
JobSat =~ JS1 + JS2 + JS3
WorkEng =~ WE1 + WE2 + WE3
JobSat ~~ WorkEng
"""
Onde:
-
=~define quais itens observados carregam em um fator latente específico. -
~~define uma correlação entre dois fatores latentes.
Passo 2: Coleta de dados
A CFA precisa de amostras relativamente grandes pra fazer uma boa estimativa. Uma regra que se usa bastante é um mínimo de 200 indivíduos ou um mínimo de 10 medições por parâmetro estimado.
Pra mostrar como funciona, vamos usar um conjunto de dados de brinquedo:
import pandas as pd
df = pd.DataFrame({
"JS1": [3, 4, 5, 2, 4, 5, 3, 4],
"JS2": [4, 5, 4, 3, 5, 4, 3, 5],
"JS3": [2, 3, 4, 2, 3, 4, 2, 3],
"WE1": [5, 4, 5, 3, 4, 5, 4, 5],
"WE2": [4, 4, 5, 2, 3, 5, 3, 4],
"WE3": [3, 5, 4, 3, 4, 5, 3, 4]
})
Em um estudo real, o conjunto de dados incluiria centenas de respostas de pesquisas.
Passo 3: Estimativa do modelo
Agora que temos nossos dados e nosso modelo, é hora de fazer estimativas de parâmetros. A estimativa fornece as cargas fatoriais que mostram a força da relação entre os constructos e os itens, junto com outros parâmetros.
O método de estimativa mais popular é o de máxima verossimilhança (ML). Ele assume que os dados observados são contínuos e seguem uma distribuição normal multivariada. Para cenários em que essa suposição não se aplica, como aquele com dados distorcidos ou categóricos, recomenda-se o uso de estimadores como o Mínimos Quadrados Ponderados (WLS).
Em Python, usando semopy:
from semopy import Model
mod = Model(model_desc)
mod.fit(df)
Isso ajusta o modelo CFA aos dados, estimando cargas fatoriais, correlações e variâncias.
Passo 4: Avaliação do ajuste do modelo
Depois que o modelo for estimado, o próximo passo é ver se ele se encaixa bem nos dados.
O ajuste é avaliado usando índices estatísticos:
- Qui-quadrado (χ²): Um valor não significativo mostra que o ajuste é bom, mas é bem sensível ao tamanho da amostra.
- RMSEA (< 0.06): Valores mais baixos indicam um ajuste aproximado melhor.
- CFI (> 0.95): Compare o modelo alvo com um modelo de referência.
- SRMR (< 0,08): Calcula as diferenças médias entre as correlações previstas e observadas.
Em Python:
from semopy import calc_stats
stats = calc_stats(mod)
print("Chi-square:", stats.get('chi2'))
print("Degrees of Freedom:", stats.get('df'))
print("CFI:", stats.get('cfi'))
print("RMSEA:", stats.get('rmsea'))
print("SRMR:", stats.get('srmr'))
Essa saída mostra se o modelo teórico bate com os dados observados. Se os índices estiverem dentro dos limites recomendados, o modelo é considerado adequado.
Passo 5: Aperfeiçoamento do modelo
Quando o ajuste não é bom, os pesquisadores costumam dar uma olhada nos índices de modificação. Esses índices mostram como o ajuste do modelo pode melhorar se certos parâmetros, como covariâncias de erro entre itens específicos ou cargas fatoriais adicionais, forem liberados para estimativa.
Mas é importante lembrar que as mudanças devem ser baseadas na teoria e não só nas estatísticas. Caso contrário, o modelo pode se ajustar muito bem a um conjunto de dados, mas falhar em outros.
Os parâmetros estimados (por exemplo, cargas fatoriais) podem ser verificados conforme mostrado abaixo:
estimates = mod.inspect()
print(estimates[['lval', 'op', 'rval', 'Estimate']])
Mostra o quanto cada item está contribuindo para a construção subjacente. Itens com baixo carregamento (< 0,4) podem ser questionados quanto à sua confiabilidade na medição da pontuação real e podem se tornar candidatos a remoção ou revisão.
Chi-square: Value 7.086071
Name: chi2, dtype: float64
DF: None
p-value: None
RMSEA: None
CFI: None
SRMR: None
Parameter estimates:
lval op rval Estimate Std. Err z-value p-value
0 JS1 ~ JobSat 1.000000 - - -
1 JS2 ~ JobSat 0.991985 0.079766 12.436258 0.0
2 JS3 ~ JobSat 0.901155 0.074451 12.103973 0.0
3 WE1 ~ WorkEng 1.000000 - - -
4 WE2 ~ WorkEng 0.879609 0.083147 10.578944 0.0
5 WE3 ~ WorkEng 0.758832 0.072321 10.492585 0.0
6 JobSat ~~ WorkEng -0.014492 0.017919 -0.808725 0.418674
7 JobSat ~~ JobSat 0.283181 0.033256 8.515047 0.0
8 WorkEng ~~ WorkEng 0.332945 0.042414 7.849889 0.0
9 JS1 ~~ JS1 0.182918 0.022465 8.142378 0.0
10 JS2 ~~ JS2 0.215892 0.023358 9.242882 0.0
11 JS3 ~~ JS3 0.293970 0.0243 12.097738 0.0
12 WE1 ~~ WE1 0.225318 0.030959 7.277931 0.0
13 WE2 ~~ WE2 0.304496 0.028694 10.611756 0.0
14 WE3 ~~ WE3 0.269805 0.023279 11.590123 0.0
Um exemplo rápido no contexto
Os resultados da CFA mostram que a satisfação no trabalho tem um impacto forte no “ JS1 ” (1,00) e no “ JS2 ” (0,992), e um impacto um pouco menor no “ JS3 ” (0,901). Isso mostra que as três perguntas da pesquisa ajudam bastante a medir a satisfação no trabalho. Nenhum dos itens parece problemático, já que todas as cargas fatoriais são significativamente mais altas do que o limite padrão de 0,7.
Da mesma forma, o Comprometimento com o Trabalho tem uma carga forte em WE1 (1,00) e WE2 (0,880), com uma carga um pouco menor para WE3 (0,759), mas ainda aceitável.
A satisfação no trabalho não tem muita relação com a satisfação no trabalho ( WorkEng ) (-0,014), o que mostra que os conceitos são bem independentes um do outro nesta amostra.
Com base nesses resultados, nossa abordagem é:
-
Mantenha os três itens para Satisfação no Trabalho (
JS1,JS2,JS3), já que todos eles têm grande peso na construção. -
Mantenha os três itens para o Comprometimento com o Trabalho (
WE1,WE2,WE3), pois cada um deles apresenta cargas significativas. -
Não são necessárias alterações substanciais, uma vez que as cargas fatoriais são elevadas e todos os parâmetros estimados são significativos.
Isso mostra que o modelo de medição está funcionando como deveria. Os indicadores observados refletem de forma confiável seus conceitos latentes.
Requisitos e pressupostos da CFA
A CFA depende de várias premissas importantes para que os resultados sejam válidos e interpretáveis. Entender essas premissas ajuda a avaliar os casos em que a CFA é apropriada e como reagir se os dados não forem totalmente consistentes com elas.
Normalidade multivariada
A CFA normalmente usa a estimativa de máxima verossimilhança (ML), que assume que as variáveis observadas seguem uma distribuição normal multivariada.
Mas, quando as respostas são muito distorcidas ou categóricas, essa suposição não se aplica. Nesses casos, as cargas fatoriais, os erros padrão e os índices de ajuste podem ser tendenciosos. Para resolver isso, usam-se métodos alternativos de estimativa, como Mínimos Quadrados Ponderados (WLS) ou uma abordagem robusta como a correção de Satorra-Bentler, que não exigem normalidade estrita.
Tamanho adequado da amostra
A CFA envolve estimar vários parâmetros (cargas fatoriais, variâncias, covariâncias). Amostras pequenas podem levar a estimativas instáveis e conclusões pouco confiáveis.
Uma regra geral é ter pelo menos 200 participantes ou 10 observações por parâmetro estimado. Quanto maior a amostra, mais precisos e generalizáveis serão os resultados.
Especificação correta do modelo
A CFA testa um modelo teórico pré-especificado. Se o modelo estiver mal especificado, tipo, atribuir indicadores ao fator latente errado, a CFA não consegue corrigir isso.
Amostragem aleatória
Os dados devem, idealmente, vir de uma amostra aleatória para que as conclusões possam ser generalizadas para além do conjunto de dados usado no estudo.
Amostras não aleatórias ou tendenciosas podem dar resultados que mostram anomalias da amostra e não a ideia que está sendo estudada.
A CFA bayesiana também é super flexível e dá conta de amostras pequenas, modelos complexos ou dados não normais, de acordo com o que a gente já sabe de antemão.
Comparando com a Análise Fatorial Exploratória (EFA)
Vamos revisitar a comparação entre EFA e CFA. A EFA é baseada em dados, o que revela estruturas latentes sem suposições prévias. Todas as cargas fatoriais são estimadas livremente, o que permite que os dados “falem por si mesmos”. A CFA é baseada em teoria e testa estruturas hipotéticas pré-especificadas com cargas restritas.
Os pesquisadores geralmente usam os dois métodos em sequência, onde a EFA é usada para explorar estruturas potenciais e a CFA ajuda a confirmá-las. Essa abordagem abre espaço tanto para descobertas empíricas quanto para validação teórica.
Tópicos avançados e extensões em CFA
CFA multinível e longitudinal
- A CFA multinível foi criada pra lidar com dados aninhados, tipo alunos dentro de salas de aula.
- A CFA longitudinal analisa como os conceitos evoluem, o que ajuda a avaliar a estabilidade, a mudança e a invariância temporal das medições.
Modelos de segunda ordem e bifatoriais
- A CFA de segunda ordem modela as relações entre variáveis latentes modelando fatores de primeira ordem, por exemplo, habilidades verbais, espaciais e numéricas como indicadores de um conceito de ordem superior, como a inteligência geral.
- Os modelos bifatoriais separam a variância atribuída a fatores gerais daquela devida a subdimensões específicas.
CFA bayesiana
A CFA bayesiana é uma alternativa flexível aos métodos tradicionais. Inclui distribuições prévias na estimativa de parâmetros que aumentam a estabilidade do modelo e o tornam útil para amostras pequenas, modelos complexos ou dados não normais.
Aplicações da CFA
O CFA é muito usado para:
- Validação da escala para verificar se um conjunto de itens observados reflete com precisão o conceito teórico que se pretende medir, por exemplo, um novo questionário sobre ansiedade.
- Testar modelos teóricos para ver se a estrutura das relações entre os conceitos latentes bate com o que a gente esperava.
- Comparando os grupos pra ver se a medição é a mesma. Por exemplo, ajuda a descobrir se uma escala de satisfação funciona da mesma forma em diferentes culturas ou gêneros.
- Aperfeiçoar e melhorar as ferramentas psicométricas identificando itens fracos ou que não servem pra nada. Melhora a confiabilidade e a validade dos testes e pesquisas.
Limitações e desafios
Depois de falar bastante sobre o CFA, é importante saber que ele tem algumas limitações. A eficácia depende dos seguintes fatores:
- Qualidade da teoria subjacente: Fundamentos teóricos fracos ou mal especificados podem levar a modelos com ajuste inadequado.
- Suposições: Distribuições de dados não normais ou amostras pequenas podem comprometer as estimativas, o que, por sua vez, afeta a interpretabilidade.
- Risco de sobreajuste, que surge quando a gente modifica demais os modelos pra tentar fazer com que eles se encaixem melhor. Esses ajustes adicionam erros correlacionados que podem funcionar para um único conjunto de dados, mas não conseguem generalizar em outros lugares.
Conclusão
A análise fatorial confirmatória ajuda a conectar teoria e dados, permitindo medir com precisão os fatores não observáveis em psicologia, educação, marketing ou pesquisa organizacional. Ele oferece uma estrutura para validar conceitos latentes e criar bases sólidas para a medição. Como parte da modelagem de equações estruturais, a CFA continua evoluindo à medida que novos desenvolvimentos, como extensões multiníveis, longitudinais e bayesianas, acontecem.

Transformador de dados e estrategista de IA | Palestrante internacional | Ético em IA | Inventor | Mulher de sucesso global | Autor
Perguntas frequentes
O que é a análise fatorial confirmatória (AFC) e como ela difere da análise fatorial exploratória (AFE)?
A CFA é uma técnica estatística pra testar se uma estrutura de fatores hipotética se encaixa nos dados observados, enquanto a EFA explora estruturas potenciais sem modelos pré-especificados.
O que são construtos latentes e indicadores observados na CFA?
Construtos latentes são conceitos que não dá pra ver, tipo motivação ou satisfação no trabalho. Os indicadores observados são itens mensuráveis, como perguntas de pesquisas ou notas de testes, que refletem esses conceitos latentes.
Quais são as principais premissas da CFA?
A CFA assume um modelo de medição corretamente especificado, normalidade multivariada (para estimativa ML), tamanho de amostra adequado e, idealmente, dados amostrados aleatoriamente.
Como posso avaliar se meu modelo CFA se encaixa nos dados?
A adequação do modelo é avaliada usando índices como Qui-quadrado, RMSEA, CFI e SRMR. Limites aceitáveis mostram se o modelo teórico bate com os dados observados.
Como o CFA pode ser implementado em Python?
A CFA pode ser implementada em Python usando pacotes como o semopy. O artigo traz uma demonstração passo a passo mostrando a especificação do modelo, a estimativa e a interpretação das cargas fatoriais e dos índices de ajuste.