Accéder au contenu principal

Analyse factorielle confirmatoire : Guide pour tester les concepts

Comprenez comment l'analyse factorielle confirmatoire (CFA) teste les modèles théoriques en reliant les indicateurs observés aux concepts latents. Découvrez les étapes, les hypothèses et les extensions qui rendent la CFA indispensable dans la validation des mesures et la modélisation par équations structurelles.
Actualisé 16 déc. 2025  · 9 min lire

Lorsque nous répondons à des questionnaires par des affirmations telles que « Je suis satisfait de notre travail » ou « J'apprécie travailler avec mes collègues », nous aidons les chercheurs à recueillir des informations sur des concepts que nous ne pouvons pas mesurer directement. Prenons, par exemple, la satisfaction professionnelle, la motivation ou l'anxiété. Ce sont ce que les chercheurs appellent des concepts latents. Il s'agit de concepts abstraits que nous ne pouvons pas mesurer directement, mais que nous pouvons observer indirectement dans les réactions, les comportements ou les éléments de test.

Cependant, la question est de savoir si ces questions évaluent bien le concept qui doit être évalué, et non pas autre chose.

C'est là qu'intervient l'analyse factorielle confirmatoire (AFC). L'AIC est une technique statistique qui permet de vérifier s'il existe une relation entre des variables observées (par exemple, les questions d'un sondage) et des concepts non observés (par exemple, la motivation). À mesure que nous avançons et approfondissons notre compréhension de l'ACF, il est important de la distinguer de l'analyse factorielle exploratoire (AFE). Contrairement à l'EFA, qui recherche des modèles sans émettre d'hypothèses, l'AFC part d'une théorie et vérifie si les données la valident.

En tant qu'élément essentiel de la modélisation par équations structurelles (SEM), l'AFC garantit que, avant d'étudier les relations entre les concepts,ces derniers sont mesurés de manière fiable et valide.

Qu'est-ce que l'analyse factorielle confirmatoire (AFC) ?

La CFA examine la question suivante : Mon modèle de mesure correspond-il à la réalité ?

Afin de mieux appréhender cette question, examinons ce qu'est un modèle de mesure. Il s'agit d'une carte qui relie les indicateurs observés (tels que les éléments d'enquête) à des concepts latents (tels que la dépression, la motivation ou la satisfaction). Dans l'analyse factorielle confirmatoire (AFC), les chercheurs prédéfinissent cette carte à l'avance, sur la base de la théorie ou de recherches antérieures, puis vérifient si les données correspondent à cette structure.

En comparant la CFA et l'EFA à l'aide d'une analogie, l'EFA s'apparente à la navigation dans une nouvelle ville sans carte. Alors que l'analyse factorielle confirmatoire (CFA) équivaut à vérifier si les indications de notre GPS correspondent aux rues réelles.

Éléments clés du CFA

Concepts latents et indicateurs observés

  • Les concepts latents sont des notions conceptuelles qui ne peuvent être mesurées directement, par exemple l'intelligence, l'épuisement professionnel et le bonheur.
  • Les indicateurs observés sont les éléments que nous utilisons pour effectuer des mesures, tels que les résultats de tests, les éléments d'enquête et les évaluations de comportement.

Pour mesurer la satisfaction professionnelle, nous pourrions utiliser les éléments suivants :

  • Je suis satisfait de mon travail.
  • Je suis satisfait de ma rémunération.
  • J'entretiens de bonnes relations de travail avec mes collègues.

Ces différentes réponses reflètent toutes le même facteur sous-jacent, à savoir la satisfaction professionnelle.

Chargements factoriels

Les coefficients de charge nous indiquent dans quelle mesure chaque indicateur reflète la structure sous-jacente. Des charges élevées, généralement supérieures à 0,7, indiquent une forte représentation, tandis que des charges modérées comprises entre 0,4 et 0,7 sont adéquates dans la plupart des cas.

Considérez les coefficients de pondération comme l'intensité du signal sur notre téléphone portable. Plus le signal est fort, plus l'indicateur de la construction est fiable.

Modèle de mesure

Le modèle de mesure précise quelles variables observées correspondent à quelles constructions latentes, conformément à la théorie. Contrairement à l'EFA, où les données dictent la structure, la CFA impose cette structure à l'avance et est donc confirmatoire plutôt qu'exploratoire.

Le processus CFA

Après avoir présenté les concepts fondamentaux, examinons étape par étape le processus CFA. Cette démonstration Python utilise le packagesemopy disponible sur .

Étape 1 : Spécifications du modèle

La première étape de l'analyse factorielle confirmatoire consiste à définir le modèle théorique. Les chercheurs déterminent quels concepts latents existent et comment ils sont observés à l'aide d'indicateurs.

Supposons que nous menions une étude sur la psychologie du travail. Nous souhaitons évaluer deux concepts :

  • Satisfaction professionnelle (JobSat), évaluée à l'aide de trois questions :

    • JS1: Je suis satisfait de mon travail.

    • JS2: Je suis satisfait de ma rémunération.

    • JS3: J'entretiens de bonnes relations avec mes collègues.

  • L'engagement au travail (WorkEng), mesuré à l'aide de trois questions d'enquête :

    • WE1: Je me sens plein d'énergie au travail.

    • WE2: Je suis enthousiaste à l'égard de mon travail.

    • WE3: Je suis absorbé par mon travail.

Nous nous attendons également à ce que la satisfaction professionnelle et l'engagement au travail soient corrélés.

Dans semopy, qui est une bibliothèque Python dédiée, ce modèle peut être exprimé comme suit :

model_desc = """
JobSat =~ JS1 + JS2 + JS3
WorkEng =~ WE1 + WE2 + WE3
JobSat ~~ WorkEng
"""

Où :

  • =~ définit la manière dont les éléments observés s'appliquent à un facteur latent spécifique.

  • ~~ définit une corrélation entre deux facteurs latents.

Étape 2 : Collecte de données

La CFA nécessite des échantillons relativement importants pour obtenir une estimation fiable. Une règle fréquemment appliquée est d'utiliser au moins 200 sujets ou d'effectuer au moins 10 mesures par paramètre estimé.

Pour illustrer le processus, nous allons utiliser un ensemble de données fictif :

import pandas as pd
df = pd.DataFrame({
    "JS1": [3, 4, 5, 2, 4, 5, 3, 4],
    "JS2": [4, 5, 4, 3, 5, 4, 3, 5],
    "JS3": [2, 3, 4, 2, 3, 4, 2, 3],
    "WE1": [5, 4, 5, 3, 4, 5, 4, 5],
    "WE2": [4, 4, 5, 2, 3, 5, 3, 4],
    "WE3": [3, 5, 4, 3, 4, 5, 3, 4]
})

Dans une étude réelle, l'ensemble de données comprendrait des centaines de réponses à un sondage.

Étape 3 : Estimation du modèle

Maintenant que nous disposons de nos données et de notre modèle, il est temps de procéder à l'estimation des paramètres. L'estimation fournit les coefficients de charge qui indiquent la force de la relation entre les concepts et les items, ainsi que d'autres paramètres.

La méthode d'estimation la plus couramment utilisée est celle du maximum de vraisemblance (ML). Il suppose que les données observées sont continues et suivent une distribution normale multivariée. Dans les cas où cette hypothèse ne se vérifie pas, par exemple lorsque les données sont asymétriques ou catégorielles, il est recommandé d'utiliser des estimateurs tels que les moindres carrés pondérés (WLS).

En Python, en utilisant semopy:

from semopy import Model
mod = Model(model_desc)
mod.fit(df)

Ceci permet d'ajuster le modèle CFA aux données, en estimant les chargements factoriels, les corrélations et les variances.

Étape 4 : Évaluation de l'adéquation du modèle

Une fois le modèle estimé, l'étape suivante consiste à évaluer si ce modèle correspond bien aux données.

L'ajustement est évalué à l'aide d'indices statistiques :

  • Chi-carré (χ²) : Une valeur non significative indique un bon ajustement, mais elle est très sensible à la taille de l'échantillon.
  • RMSEA (< 0,06) : Des valeurs plus faibles indiquent un meilleur ajustement approximatif.
  • CFI (SUPÉRIEUR À 0,95) : Compare le modèle cible avec un modèle de référence.
  • SRMR (< 0,08) : Estime les différences moyennes entre les corrélations prédites et observées.

En Python :

from semopy import calc_stats
stats = calc_stats(mod)

print("Chi-square:", stats.get('chi2'))
print("Degrees of Freedom:", stats.get('df'))
print("CFI:", stats.get('cfi'))
print("RMSEA:", stats.get('rmsea'))
print("SRMR:", stats.get('srmr'))

Ce résultat indique si le modèle théorique correspond aux données observées. Si les indices se situent dans les limites recommandées, le modèle est considéré comme adapté.

Étape 5 : Amélioration du modèle

Dans les cas où l'ajustement est médiocre, les chercheurs examinent souvent les indices de modification. Ces indices suggèrent comment l'ajustement du modèle pourrait être amélioré si certains paramètres, tels que les covariances d'erreur entre des éléments spécifiques ou des chargements factoriels supplémentaires, étaient libérés pour l'estimation.

Il est toutefois important de noter que les modifications doivent être guidées par la théorie et non pas uniquement par les statistiques. Dans le cas contraire, le modèle pourrait être parfaitement adapté à un ensemble de données, mais ne pas fonctionner correctement avec d'autres.

Les paramètres estimés (par exemple, les chargements factoriels) peuvent être examinés comme indiqué ci-dessous :

estimates = mod.inspect()
print(estimates[['lval', 'op', 'rval', 'Estimate']])

Il indique dans quelle mesure chaque élément contribue à la construction sous-jacente. Les éléments présentant un faible coefficient de charge (< 0,4) peuvent être remis en question quant à leur fiabilité dans la mesure du score réel et pourraient être supprimés ou révisés.

Chi-square: Value    7.086071
Name: chi2, dtype: float64
DF: None
p-value: None
RMSEA: None
CFI: None
SRMR: None

Parameter estimates:
       lval  op     rval  Estimate  Std. Err    z-value   p-value
0       JS1   ~   JobSat  1.000000         -          -         -
1       JS2   ~   JobSat  0.991985  0.079766  12.436258       0.0
2       JS3   ~   JobSat  0.901155  0.074451  12.103973       0.0
3       WE1   ~  WorkEng  1.000000         -          -         -
4       WE2   ~  WorkEng  0.879609  0.083147  10.578944       0.0
5       WE3   ~  WorkEng  0.758832  0.072321  10.492585       0.0
6    JobSat  ~~  WorkEng -0.014492  0.017919  -0.808725  0.418674
7    JobSat  ~~   JobSat  0.283181  0.033256   8.515047       0.0
8   WorkEng  ~~  WorkEng  0.332945  0.042414   7.849889       0.0
9       JS1  ~~      JS1  0.182918  0.022465   8.142378       0.0
10      JS2  ~~      JS2  0.215892  0.023358   9.242882       0.0
11      JS3  ~~      JS3  0.293970    0.0243  12.097738       0.0
12      WE1  ~~      WE1  0.225318  0.030959   7.277931       0.0
13      WE2  ~~      WE2  0.304496  0.028694  10.611756       0.0
14      WE3  ~~      WE3  0.269805  0.023279  11.590123       0.0

Un exemple rapide en contexte

JS1 JS2 JS3 Les résultats de l'analyse factorielle confirmée (CFA) indiquent que la satisfaction professionnelle a une forte incidence sur l'engagement émotionnel positif (1,00) et l'engagement émotionnel négatif (0,992), et une incidence modérément plus faible sur l'engagement émotionnel neutre (0,901). Cela indique que les trois questions de l'enquête contribuent de manière significative à mesurer la satisfaction professionnelle. Aucun des éléments ne semble poser problème, car toutes les charges factorielles sont nettement supérieures au seuil standard de 0,7.

De même, l'engagement au travail a une forte incidence sur l'engagement émotionnel ( WE1 ) (1,00) et l'engagement cognitif ( WE2 ) (0,880), avec une incidence légèrement inférieure pour l'engagement comportemental ( WE3 ) (0,759), qui reste toutefois acceptable.

La satisfaction professionnelle n'est pas significativement liée à l' WorkEng e (-0,014), ce qui indique que les concepts sont relativement indépendants les uns des autres dans cet échantillon.

Sur la base de ces résultats, notre approche est la suivante :

  • Conservez les trois éléments relatifs à la satisfaction professionnelle (JS1, JS2, JS3), car ils ont tous une forte incidence sur le concept.

  • Conservez les trois éléments relatifs à l'engagement au travail (WE1, WE2, WE3), car chacun d'entre eux présente des coefficients significatifs.

  • Aucune modification substantielle n'est nécessaire, car les chargements factoriels sont élevés et tous les paramètres estimés sont significatifs.

Cela confirme que le modèle de mesure fonctionne comme prévu. Les indicateurs observés reflètent de manière fiable leurs concepts latents.

Exigences et hypothèses de l'analyse financière certifiée (CFA)

La CFA repose sur plusieurs hypothèses clés pour que les résultats soient valides et interprétables. La compréhension de ces hypothèses permet d'évaluer les cas dans lesquels l'analyse factorielle confirmatoire est appropriée et la manière de réagir si les données ne sont pas entièrement cohérentes avec celles-ci.

Normalité multivariée

La CFA utilise généralement l'estimation du maximum de vraisemblance (ML), qui suppose que les variables observées suivent une distribution normale multivariée.

Cependant, lorsque les réponses sont fortement biaisées ou catégoriques, cette hypothèse ne tient pas. Dans de tels cas, les chargements factoriels, les erreurs types et les indices d'ajustement peuvent être biaisés. Pour remédier à cela, on utilise des méthodes d'estimation alternatives telles que les moindres carrés pondérés (WLS) ou une approche robuste telle que la correction de Satorra-Bentler, qui ne nécessitent pas une normalité stricte.

Taille adéquate de l'échantillon

L'ACP implique l'estimation de plusieurs paramètres (charges factorielles, variances, covariances). Les échantillons de petite taille peuvent conduire à des estimations instables et à des conclusions peu fiables.

Une directive courante recommande au moins 200 participants ou 10 observations par paramètre estimé. Plus l'échantillon est grand, plus les résultats sont précis et généralisables.

Spécification correcte du modèle

La CFA évalue un modèle théorique prédéfini. Si le modèle est mal spécifié, par exemple s'il attribue des indicateurs au mauvais facteur latent, l'AFC ne peut pas le corriger.

Échantillonnage aléatoire

Les données devraient idéalement provenir d'un échantillon aléatoire afin que les résultats puissent être généralisés au-delà de l'ensemble de données utilisé dans l'étude.

Les échantillons non aléatoires ou biaisés peuvent produire des résultats qui reflètent des anomalies de l'échantillon et non l'idée étudiée.

L'AFC bayésienne est également extrêmement flexible et s'adapte aux petits échantillons, aux modèles complexes ou aux données non normales en fonction des connaissances a priori.

Comparaison avec l'analyse factorielle exploratoire (AFE)

Revenons à la comparaison entre l'EFA et la CFA. L'EFA est une approche axée sur les données qui permet de mettre en évidence des structures latentes sans hypothèses préalables. Tous les coefficients de pondération sont estimés librement, ce qui permet aux données de « parler d'elles-mêmes ». L'ACF est une approche fondée sur la théorie qui teste des structures hypothétiques prédéfinies avec des chargements contraints.

Les chercheurs utilisent généralement ces deux méthodes de manière séquentielle, l'EFA servant à explorer les structures potentielles et la CFA à les confirmer. Cette approche offre des possibilités tant pour la découverte empirique que pour la validation théorique.

Sujets avancés et approfondissements en CFA

Analyse factorielle confirmatoire multiniveaux et longitudinale

  • L'ACF multiniveaux est conçue pour prendre en compte les données imbriquées, par exemple les élèves au sein d'une classe.
  • L'AFC longitudinale examine l'évolution des concepts, ce qui facilite l'évaluation de la stabilité des mesures, des changements et de l'invariance temporelle.

Modèles de second ordre et bifactoriels

  • La CFA de second ordre modélise les relations entre les variables latentes en modélisant des facteurs de premier ordre, par exemple les capacités verbales, spatiales et numériques, comme indicateurs d'un concept de niveau supérieur, tel que l'intelligence générale.
  • Les modèles bifactoriels distinguent la variance attribuée aux facteurs généraux de celle due à des sous-dimensions spécifiques.

Analyse factorielle confirmatoire bayésienne

L'ACF bayésienne constitue une alternative flexible aux méthodes traditionnelles. Il inclut des distributions a priori dans l'estimation des paramètres, ce qui améliore la stabilité du modèle et le rend utile pour les petits échantillons, les modèles complexes ou les données non normales.

Applications de la CFA

Le CFA est largement utilisé pour :

  • Validation de l'échelle afin de vérifier qu'un ensemble d'éléments observés reflète fidèlement le concept théorique qu'il est censé mesurer, par exemple un nouveau questionnaire sur l'anxiété.
  • Tester des modèles théoriques afin d'évaluer si la structure des relations entre les concepts latents est conforme aux attentes théoriques.
  • Comparaison entre les groupes afin de vérifier l'invariance des mesures. Par exemple, cela permet de déterminer si une échelle de satisfaction fonctionne de la même manière dans toutes les cultures ou pour tous les genres.
  • Affiner et améliorer les outils psychométriques en identifiant les éléments faibles ou redondants. Cela améliore la fiabilité et la validité des tests et des enquêtes.

Limites et défis

Après avoir examiné en détail le CFA, il est important de reconnaître qu'il comporte certaines limites. Son efficacité dépend des facteurs suivants :

  • Qualité de la théorie sous-jacente: Des fondements théoriques insuffisants ou mal définis peuvent conduire à des modèles peu adaptés.
  • Hypothèses: Les distributions de données non normales ou les petits échantillons peuvent compromettre les estimations, ce qui a une incidence sur l'interprétabilité. 
  • Risque de surajustement, qui résulte d'une modification excessive des modèles dans le but d'obtenir un meilleur ajustement. Ces ajustements introduisent des erreurs corrélées qui peuvent fonctionner pour un ensemble de données donné, mais qui ne peuvent être généralisées à d'autres contextes.

Conclusion

L'analyse factorielle confirmatoire contribue à établir un lien entre la théorie et les données, permettant ainsi de mesurer avec précision les éléments non observables dans les domaines de la psychologie, de l'éducation, du marketing ou de la recherche organisationnelle. Il fournit un cadre permettant de valider les concepts latents et d'établir des bases solides pour la mesure. Dans le cadre de la modélisation par équations structurelles, l'AFC continue d'évoluer à mesure que de nouveaux développements tels que les extensions multiniveaux, longitudinales et bayésiennes voient le jour.


Vidhi Chugh's photo
Author
Vidhi Chugh
LinkedIn

Je suis un stratège de l'IA et un éthicien qui travaille à l'intersection de la science des données, du produit et de l'ingénierie pour construire des systèmes d'apprentissage automatique évolutifs. Considéré comme l'un des 200 plus grands innovateurs commerciaux et technologiques au monde, je me suis donné pour mission de démocratiser l'apprentissage automatique et de briser le jargon pour que tout le monde puisse participer à cette transformation.

Questions fréquentes

Qu'est-ce que l'analyse factorielle confirmatoire (AFC) et en quoi diffère-t-elle de l'analyse factorielle exploratoire (AFE) ?

L'ACP est une technique statistique permettant de vérifier si une structure factorielle hypothétique correspond aux données observées, tandis que l'AFE explore les structures potentielles sans modèles prédéfinis.

Que sont les constructions latentes et les indicateurs observés dans l'ACF ?

Les concepts latents sont des concepts non observables tels que la motivation ou la satisfaction professionnelle. Les indicateurs observés sont des éléments mesurables, tels que des questions d'enquête ou des résultats de tests, qui reflètent ces concepts latents.

Quelles sont les principales hypothèses du CFA ?

La CFA suppose un modèle de mesure correctement spécifié, une normalité multivariée (pour l'estimation ML), une taille d'échantillon adéquate et, idéalement, des données échantillonnées de manière aléatoire.

Comment puis-je évaluer si mon modèle CFA correspond aux données ?

L'adéquation du modèle est évaluée à l'aide d'indices tels que le chi carré, le RMSEA, le CFI et le SRMR. Les seuils acceptables indiquent si le modèle théorique est cohérent avec les données observées.

Comment mettre en œuvre la CFA en Python ?

L'analyse factorielle en composantes principales (CFA) peut être mise en œuvre en Python à l'aide de paquets tels que semopy. Cet article fournit une démonstration étape par étape illustrant la spécification du modèle, l'estimation et l'interprétation des chargements factoriels et des indices d'ajustement.

Sujets

Apprenez avec DataCamp

Cours

Modélisation par équations structurelles avec lavaan en R

4 h
9.9K
Apprenez à créer et à évaluer des modèles de mesure utilisés pour confirmer la structure d'une échelle ou d'un questionnaire.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow