Análise de correspondência em R
A análise de correspondência fornece um método gráfico para explorar a relação entre as variáveis em uma tabela de contingência. Há muitas opções para análise de correspondência no R. Eu recomendo o programa ca de Nenadic e Greenacre, pois ele oferece suporte a pontos suplementares, análises de subconjuntos e gráficos abrangentes. Você pode obter o pacote aqui.
Embora o ca possa executar a análise de correspondência múltipla (mais de duas variáveis categóricas), apenas a análise de correspondência simples é abordada aqui. Consulte o artigo deles para obter detalhes sobre várias CA.
Análise de correspondência simples
No exemplo a seguir, A e B são fatores categóricos.
# Correspondence Analysis
library(ca)
mytable <- with(mydata, table(A,B)) # create a 2 way table
prop.table(mytable, 1) # row percentages
prop.table(mytable, 2) # column percentages
fit <- ca(mytable)
print(fit) # basic results
summary(fit) # extended results
plot(fit) # symmetric map
plot(fit, mass = TRUE, contrib = "absolute", map =
"rowgreen", arrows = c(FALSE, TRUE)) # asymmetric map
O primeiro gráfico é a representação simétrica padrão de uma análise de correspondência simples com linhas e colunas representadas por pontos.
Os pontos de linha (pontos de coluna) que estão mais próximos têm perfis de coluna (perfis de linha) mais semelhantes. Lembre-se de que você não pode interpretar diretamente a distância entre os pontos de linha e coluna.
O segundo gráfico é assimétrico, com linhas nas coordenadas principais e colunas nas reconstruções dos resíduos padronizados. Além disso, a massa é representada por pontos e as colunas são representadas por setas. A intensidade do ponto (sombreamento) corresponde às contribuições absolutas para as linhas. Este exemplo foi incluído para destacar algumas das opções disponíveis.
Indo além
Experimente este curso interativo sobre análise exploratória de dados.