Analyse des correspondances en R
L'analyse des correspondances fournit une méthode graphique pour explorer la relation entre les variables d'un tableau de contingence. Il existe de nombreuses options pour l'analyse des correspondances dans R. Je vous recommande l'outil ca de Nenadic et Greenacre, car il prend en charge les points complémentaires, les analyses de sous-ensembles et les graphiques complets. Vous pouvez obtenir le paquet ici.
Bien que ca puisse effectuer une analyse des correspondances multiples (plus de deux variables catégorielles), seule l'analyse des correspondances simples est abordée ici. Consultez leur article pour plus de détails sur l'AC multiple.
Analyse simple des correspondances
Dans l'exemple suivant, A et B sont des facteurs catégoriels.
# Correspondence Analysis
library(ca)
mytable <- with(mydata, table(A,B)) # create a 2 way table
prop.table(mytable, 1) # row percentages
prop.table(mytable, 2) # column percentages
fit <- ca(mytable)
print(fit) # basic results
summary(fit) # extended results
plot(fit) # symmetric map
plot(fit, mass = TRUE, contrib = "absolute", map =
"rowgreen", arrows = c(FALSE, TRUE)) # asymmetric map
Le premier graphique est la représentation symétrique standard d'une analyse des correspondances simple, les lignes et les colonnes étant représentées par des points.
Les points de ligne (points de colonne) qui sont plus proches les uns des autres ont des profils de colonne (profils de ligne) plus similaires. Gardez à l'esprit que vous ne pouvez pas interpréter directement la distance entre les points de la ligne et de la colonne.
Le second graphique est asymétrique, avec des lignes dans les coordonnées principales et des colonnes dans les reconstructions des résidus normalisés. En outre, la masse est représentée par des points et les colonnes par des flèches. L'intensité des points (ombrage) correspond aux contributions absolues pour les lignes. Cet exemple a pour but de mettre en évidence certaines des options disponibles.
Aller plus loin
Essayez ce cours interactif sur l'analyse exploratoire des données.