Curso
Cuando respondemos a cuestionarios con afirmaciones como «Estoy satisfecho con nuestro trabajo» o «Me gusta trabajar con mis compañeros», estamos ayudando a los investigadores a recopilar información sobre conceptos que no podemos medir directamente. Tomemos, por ejemplo, la satisfacción laboral, la motivación o la ansiedad. Esto es lo que los investigadores llaman constructos latentes. Se trata de conceptos abstractos que no podemos medir directamente, pero que podemos observar indirectamente en las respuestas, el comportamiento o los elementos de las pruebas.
Pero la cuestión es si estas preguntas miden el concepto que se pretende medir y no otra cosa.
Aquí es donde entra en juego el análisis factorial confirmatorio (AFC). El CFA es una técnica estadística que verifica si existe una relación entre las variables observadas (piensa en las preguntas de una encuesta) y los constructos no observados (por ejemplo, la motivación). A medida que avanzamos y comprendemos el CFA en profundidad, es importante diferenciarlo del análisis factorial exploratorio (EFA). A diferencia del EFA, que busca patrones sin formular hipótesis, el CFA parte de una teoría y verifica si los datos la validan.
Como parte fundamental del modelado de ecuaciones estructurales (SEM), el CFA garantiza que, antes de investigar las relaciones entre conceptos,estos se midan de forma fiable y válida.
¿Qué es el análisis factorial confirmatorio (AFC)?
La CFA considera la siguiente pregunta: ¿Tu modelo de medición se ajusta a la realidad?
Para poder entender mejor esta pregunta, veamos qué es un modelo de medición. Es un mapa que vincula indicadores observados (como elementos de encuestas) con constructos latentes (como depresión, motivación o satisfacción). En el CFA, los investigadores especifican este mapa de antemano, basándose en la teoría o en investigaciones anteriores, y luego comprueban si los datos se ajustan a esa estructura.
Comparando CFA y EFA con la ayuda de una analogía, EFA es como navegar por una ciudad nueva sin mapa. Mientras que el CFA equivale a comprobar si las indicaciones de nuestro GPS coinciden con las calles reales.
Componentes clave de CFA
Construcciones latentes e indicadores observados
- Los constructos latentes son nociones conceptuales que no pueden medirse directamente, por ejemplo, la inteligencia, el agotamiento y la felicidad.
- Los indicadores observados son los que utilizamos para realizar mediciones, como puntuaciones de exámenes, preguntas de encuestas y valoraciones de comportamiento.
Para medir la satisfacción laboral, podríamos utilizar lo siguiente:
- Me siento satisfecho con mi trabajo.
- Estoy satisfecho con mi salario.
- Tengo una buena relación laboral con tus compañeros.
Estas diferentes respuestas reflejan todas el mismo factor subyacente, es decir, la satisfacción laboral.
Cargas factoriales
Las cargas factoriales nos indican en qué medida cada indicador refleja el constructo subyacente. Las cargas altas, normalmente superiores a 0,7, indican una representación fuerte, mientras que las cargas moderadas, entre 0,4 y 0,7, son adecuadas para la mayoría de los casos.
Piensa en las cargas factoriales como la intensidad de la señal de tu teléfono móvil. Cuanto más fuerte sea la señal, mejor será el indicador del constructo.
Modelo de medición
El modelo de medición especifica qué variables observadas corresponden a qué constructos latentes, según la teoría. A diferencia del EFA, donde los datos dictan, el CFA impone esta estructura de antemano y, por lo tanto, es confirmatorio en lugar de exploratorio.
El proceso CFA
Una vez introducidos los conceptos básicos, repasemos paso a paso el proceso CFA. Esta demostración de Python utiliza el paquetesemopy de .
Paso 1: Especificaciones del modelo
El primer paso en el CFA es definir el modelo teórico. Los investigadores deciden qué constructos latentes existen y cómo se observan a través de indicadores.
Supongamos que estamos llevando a cabo un estudio de psicología laboral. Queremos medir dos constructos:
-
Satisfacción laboral (
JobSat), medida mediante tres preguntas de la encuesta: -
JS1: Me siento satisfecho con mi trabajo. -
JS2: Estoy satisfecho con mi salario. -
JS3: Tengo buenas relaciones con tus colegas. -
Compromiso laboral (WorkEng), medido mediante tres preguntas de la encuesta:
-
WE1: Me siento con energía en el trabajo. -
WE2: Me encanta mi trabajo. -
WE3: Me absorbe tu trabajo.
También esperamos que la satisfacción laboral y el compromiso con el trabajo estén correlacionados.
En semopy, que es una biblioteca dedicada a Python, este modelo se puede expresar como:
model_desc = """
JobSat =~ JS1 + JS2 + JS3
WorkEng =~ WE1 + WE2 + WE3
JobSat ~~ WorkEng
"""
Dónde:
-
=~define qué elementos observados se cargan en un factor latente específico. -
~~define una correlación entre dos factores latentes.
Paso 2: Recopilación de datos
El CFA requiere muestras relativamente grandes para obtener una buena estimación. Una regla que se utiliza con frecuencia es un mínimo de 200 sujetos o un mínimo de 10 mediciones por parámetro estimado.
Para ilustrar el proceso, trabajemos con un conjunto de datos de juguete:
import pandas as pd
df = pd.DataFrame({
"JS1": [3, 4, 5, 2, 4, 5, 3, 4],
"JS2": [4, 5, 4, 3, 5, 4, 3, 5],
"JS3": [2, 3, 4, 2, 3, 4, 2, 3],
"WE1": [5, 4, 5, 3, 4, 5, 4, 5],
"WE2": [4, 4, 5, 2, 3, 5, 3, 4],
"WE3": [3, 5, 4, 3, 4, 5, 3, 4]
})
En un estudio real, el conjunto de datos incluiría cientos de respuestas a la encuesta.
Paso 3: Estimación del modelo
Ahora que tenemos nuestros datos y nuestro modelo, es hora de realizar estimaciones de parámetros. La estimación proporciona las cargas factoriales que indican la fuerza de la relación entre los constructos y los ítems, junto con otros parámetros.
El método de estimación más popular es el de máxima verosimilitud (ML). Se supone que los datos observados son continuos y siguen una distribución normal multivariante. Para los casos en los que esta suposición no se cumple, como en el caso de datos sesgados o categóricos, se recomiendan estimadores como los mínimos cuadrados ponderados (WLS).
En Python, utilizando semopy:
from semopy import Model
mod = Model(model_desc)
mod.fit(df)
Esto ajusta el modelo CFA a los datos, estimando las cargas factoriales, las correlaciones y las varianzas.
Paso 4: Evaluación del ajuste del modelo
Una vez estimado el modelo, el siguiente paso es evaluar si este modelo se ajusta bien a los datos.
El ajuste se evalúa utilizando índices estadísticos:
- Chi-cuadrado (χ²): Un valor no significativo indica un buen ajuste, pero es muy sensible al tamaño de la muestra.
- RMSEA (< 0.06): Los valores más bajos indican un mejor ajuste aproximado.
- CFI (> 0.95): Compara el modelo objetivo con un modelo de referencia.
- SRMR (< 0.08): Estima las diferencias medias entre las correlaciones previstas y observadas.
En Python:
from semopy import calc_stats
stats = calc_stats(mod)
print("Chi-square:", stats.get('chi2'))
print("Degrees of Freedom:", stats.get('df'))
print("CFI:", stats.get('cfi'))
print("RMSEA:", stats.get('rmsea'))
print("SRMR:", stats.get('srmr'))
Este resultado muestra si el modelo teórico coincide con los datos observados. Si los índices se encuentran dentro de los límites recomendados, se considera que el modelo es adecuado.
Paso 5: Refinamiento del modelo
En los casos en los que el ajuste es deficiente, los investigadores suelen inspeccionar los índices de modificación. Estos índices sugieren cómo podría mejorar el ajuste del modelo si se liberaran para su estimación determinados parámetros, como las covarianzas de error entre ítems específicos o las cargas factoriales adicionales.
Sin embargo, es importante tener en cuenta que las modificaciones deben basarse en la teoría y no solo en las estadísticas. De lo contrario, el modelo puede ajustarse muy bien a un conjunto de datos, pero fallar en otros.
Los parámetros estimados (por ejemplo, las cargas factoriales) se pueden inspeccionar como se muestra a continuación:
estimates = mod.inspect()
print(estimates[['lval', 'op', 'rval', 'Estimate']])
Muestra en qué medida cada elemento se carga en su constructo subyacente. Los ítems con una carga baja (< 0,4) pueden poner en duda su fiabilidad a la hora de medir la puntuación real y podrían ser candidatos para su eliminación o revisión.
Chi-square: Value 7.086071
Name: chi2, dtype: float64
DF: None
p-value: None
RMSEA: None
CFI: None
SRMR: None
Parameter estimates:
lval op rval Estimate Std. Err z-value p-value
0 JS1 ~ JobSat 1.000000 - - -
1 JS2 ~ JobSat 0.991985 0.079766 12.436258 0.0
2 JS3 ~ JobSat 0.901155 0.074451 12.103973 0.0
3 WE1 ~ WorkEng 1.000000 - - -
4 WE2 ~ WorkEng 0.879609 0.083147 10.578944 0.0
5 WE3 ~ WorkEng 0.758832 0.072321 10.492585 0.0
6 JobSat ~~ WorkEng -0.014492 0.017919 -0.808725 0.418674
7 JobSat ~~ JobSat 0.283181 0.033256 8.515047 0.0
8 WorkEng ~~ WorkEng 0.332945 0.042414 7.849889 0.0
9 JS1 ~~ JS1 0.182918 0.022465 8.142378 0.0
10 JS2 ~~ JS2 0.215892 0.023358 9.242882 0.0
11 JS3 ~~ JS3 0.293970 0.0243 12.097738 0.0
12 WE1 ~~ WE1 0.225318 0.030959 7.277931 0.0
13 WE2 ~~ WE2 0.304496 0.028694 10.611756 0.0
14 WE3 ~~ WE3 0.269805 0.023279 11.590123 0.0
Un ejemplo rápido en contexto
Los resultados del CFA indican que la satisfacción laboral tiene una carga alta en « JS1 » (1,00) y « JS2 » (0,992), y una carga moderadamente menor en « JS3 » (0,901). Esto sugiere que las tres preguntas de la encuesta contribuyen de manera significativa a medir la satisfacción laboral. Ninguno de los ítems parece problemático, ya que todas las cargas factoriales son significativamente superiores al umbral estándar de 0,7.
Del mismo modo, el compromiso laboral tiene una carga elevada en « WE1 » (1,00) y « WE2 » (0,880), con una carga ligeramente inferior en « WE3 » (0,759), aunque sigue siendo aceptable.
La satisfacción laboral no guarda relación alguna con la autoeficacia ( WorkEng ) (-0,014), lo que indica que los constructos son bastante independientes entre sí en esta muestra.
Basándonos en estos resultados, nuestro enfoque es el siguiente:
-
Conserva los tres ítems relativos a la satisfacción laboral (
JS1,JS2,JS3), ya que todos ellos tienen un gran peso en el constructo. -
Conserva los tres ítems relativos al compromiso laboral (
WE1,WE2,WE3), ya que cada uno de ellos muestra cargas significativas. -
No se requieren cambios sustanciales, ya que las cargas factoriales son elevadas y todos los parámetros estimados son significativos.
Esto confirma que el modelo de medición funciona según lo previsto. Los indicadores observados reflejan de manera fiable sus constructos latentes.
Requisitos y supuestos del CFA
El CFA se basa en varios supuestos clave para que los resultados sean válidos e interpretables. Comprender estas hipótesis ayuda a evaluar los casos en los que el CFA es adecuado y cómo responder si los datos no son totalmente coherentes con ellas.
Normalidad multivariante
El CFA suele utilizar la estimación de máxima verosimilitud (ML), que asume que las variables observadas siguen una distribución normal multivariante.
Sin embargo, cuando las respuestas son muy sesgadas o categóricas, esta suposición no se cumple. En tales casos, las cargas factoriales, los errores estándar y los índices de ajuste pueden estar sesgados. Para solucionar este problema, se utilizan métodos de estimación alternativos, como los mínimos cuadrados ponderados (WLS) o un enfoque robusto como la corrección de Satorra-Bentler, que no requieren una normalidad estricta.
Tamaño adecuado de la muestra
El CFA implica estimar múltiples parámetros (cargas factoriales, varianzas, covarianzas). Las muestras de tamaño reducido pueden dar lugar a estimaciones inestables y conclusiones poco fiables.
Una pauta común sugiere al menos 200 participantes o 10 observaciones por parámetro estimado. Cuanto mayor sea el tamaño de la muestra, más precisos y generalizables serán los resultados.
Especificación correcta del modelo
El CFA comprueba un modelo teórico preestablecido. Si el modelo está mal especificado, por ejemplo, si asigna indicadores al factor latente incorrecto, el AFC no puede corregirlo.
Muestreo aleatorio
Lo ideal es que los datos procedan de una muestra aleatoria, de modo que los resultados sean generalizables más allá del conjunto de datos utilizado en el estudio.
Las muestras no aleatorias o sesgadas pueden producir resultados que reflejen anomalías de la muestra y no la idea que se está estudiando.
El CFA bayesiano también es extremadamente flexible y se adapta a muestras pequeñas, modelos complejos o datos no normales según el conocimiento a priori.
Comparación con el análisis factorial exploratorio (AFE)
Revisemos la comparación entre EFA y CFA. EFA se basa en datos, lo que permite descubrir estructuras latentes sin supuestos previos. Todas las cargas factoriales se estiman libremente, lo que permite que los datos «hablen por sí mismos». El CFA se basa en la teoría y comprueba estructuras hipotéticas preespecificadas con cargas restringidas.
Los investigadores suelen utilizar los dos métodos de forma secuencial, utilizando el EFA para explorar posibles estructuras y el CFA para confirmarlas. Este enfoque ofrece posibilidades tanto para el descubrimiento empírico como para la validación teórica.
Temas avanzados y extensiones en CFA
AFC multinivel y longitudinal
- El AFC multinivel está diseñado para tener en cuenta datos anidados, por ejemplo, alumnos dentro de las aulas.
- El CFA longitudinal examina cómo evolucionan los constructos, lo que ayuda a evaluar la estabilidad de la medición, el cambio y la invarianza temporal.
Modelos de segundo orden y bifactoriales
- El AFC de segundo orden modela las relaciones entre variables latentes mediante el modelado de factores de primer orden, por ejemplo, las habilidades verbales, espaciales y numéricas como indicadores de un constructo de orden superior, como la inteligencia general.
- Los modelos bifactoriales separan la varianza atribuida a factores generales de la debida a subdimensiones específicas.
CFA bayesiana
El CFA bayesiano es una alternativa flexible a los métodos tradicionales. Incluye distribuciones previas en la estimación de parámetros que mejoran la estabilidad del modelo y lo hacen útil para muestras pequeñas, modelos complejos o datos no normales.
Aplicaciones de CFA
El CFA se utiliza ampliamente para:
- Validación de la escala para verificar que un conjunto de elementos observados refleja con precisión el constructo teórico que se pretende medir, por ejemplo, un nuevo cuestionario sobre ansiedad.
- Prueba de modelos teóricos para evaluar si la estructura de las relaciones entre los constructos latentes se ajusta a las expectativas teóricas.
- Comparación entre grupos para comprobar la invarianza de la medición. Por ejemplo, ayuda a determinar si una escala de satisfacción funciona igual en todas las culturas o géneros.
- Perfeccionar y mejorar las herramientas psicométricas identificando elementos débiles o redundantes. Mejora la fiabilidad y validez de las pruebas y encuestas.
Limitaciones y retos
Tras haber analizado en profundidad el CFA, es importante reconocer que presenta ciertas limitaciones. Su eficacia depende de los siguientes factores:
- Calidad de la teoría subyacente: Los fundamentos teóricos débiles o mal especificados pueden dar lugar a modelos con un ajuste deficiente.
- Supuestos: Las distribuciones de datos no normales o los tamaños de muestra pequeños pueden comprometer las estimaciones, lo que a su vez afecta a la interpretabilidad.
- Riesgo de sobreajuste, que se deriva de modificar excesivamente los modelos para lograr un mejor ajuste. Estos ajustes añaden errores correlacionados que pueden funcionar para un único conjunto de datos, pero que no se pueden generalizar a otros casos.
Conclusión
El análisis factorial confirmatorio ayuda a tender un puente entre la teoría y los datos, lo que permite medir con precisión los elementos no observables en los campos de la psicología, la educación, el marketing o la investigación organizativa. Proporciona un marco para validar constructos latentes y sentar bases sólidas para la medición. Como parte del modelado de ecuaciones estructurales, el CFA sigue evolucionando a medida que se producen nuevos avances, como las extensiones multinivel, longitudinales y bayesianas.

Transformadora de Datos y Estratega de IA | Conferenciante Internacional | Ética de la IA | Inventora | Mujer Logradora Global | Autora
Preguntas frecuentes
¿Qué es el análisis factorial confirmatorio (AFC) y en qué se diferencia del análisis factorial exploratorio (AFE)?
El CFA es una técnica estadística que permite comprobar si una estructura factorial hipotética se ajusta a los datos observados, mientras que el EFA explora estructuras potenciales sin modelos preestablecidos.
¿Qué son los constructos latentes y los indicadores observados en el AFC?
Los constructos latentes son conceptos no observables, como la motivación o la satisfacción laboral. Los indicadores observados son elementos medibles, como preguntas de encuestas o puntuaciones de exámenes, que reflejan estos constructos latentes.
¿Cuáles son los supuestos clave del CFA?
CFA asume un modelo de medición correctamente especificado, normalidad multivariante (para la estimación ML), un tamaño de muestra adecuado y, en el caso ideal, datos muestreados aleatoriamente.
¿Cómo evalúas si tu modelo CFA se ajusta a los datos?
El ajuste del modelo se evalúa utilizando índices como Chi-cuadrado, RMSEA, CFI y SRMR. Los umbrales aceptables indican si el modelo teórico es coherente con los datos observados.
¿Cómo se puede implementar CFA en Python?
El CFA se puede implementar en Python utilizando paquetes como semopy. El artículo ofrece una demostración paso a paso que muestra la especificación del modelo, la estimación y la interpretación de las cargas factoriales y los índices de ajuste.


