Curso
La covarianza desempeña un papel clave en estadística al revelar cómo cambian dos variables entre sí. Es fundamental para ideas como la correlación, el análisis de componentes principales y la regresión.
En esta guía aprenderás qué significa covarianza, cómo calcularla y dónde se utiliza, desde la modelización financiera al machine learning.
Y como la covarianza es sólo una cosa importante que hay que saber, asegúrate de inscribirte en nuestro programa de conocimientos Fundamentos de Estadística en Python y/o en nuestro curso Introducción a la Estadística en R para seguir aprendiendo.
¿Qué es la covarianza?
La covarianza es una función estadística fundamental que mide cómo dos variables, x e y, cambian juntas. Si las variables tienden a aumentar o disminuir simultáneamente, la covarianza es positiva. Si una aumenta mientras la otra disminuye, la covarianza es negativa.
La definición matemática de covarianza para dos variables aleatorias X y Y es
donde 𝜇x y 𝜇y son las medias de X y Yrespectivamente.
Para una muestra de tamaño nla covarianza muestral se calcula como
donde x̅ y ȳ son las medias muestrales de x e y.
La decisión de utilizar μ (mu) para las medias poblacionales y x̅ para las medias muestrales es una convención que ayuda a distinguirlas.
Por qué es importante la covarianza
Comprender la covarianza te ayuda a analizar la relación entre dos variables. En finanzas, la covarianza se utiliza para evaluar cómo se mueven juntas dos acciones. En la ciencia de datos, la covarianza es necesaria para técnicas como el PCA, que reduce la dimensionalidad de los conjuntos de datos. También se encuadra en el análisis de regresión, en el que comprender cómo covarían las variables es importante para modelizar sus relaciones lineales.
En pocas palabras, la covarianza permite conocer 1) tla dirección de la relación lineal entre variables, 2) lala fuerza de la relación (aunque no está estandarizada), y 3) la base para calcular el coeficiente de correlación.
Cálculo manual de la covarianza
Practiquemos. Para calcular la covarianza muestral a mano, sigue estos pasos:
- Halla la media de cada variable.
- Resta la media de cada valor para obtener las desviaciones.
- Multiplica las desviaciones de los pares correspondientes.
- Suma los productos.
- Divide por n - 1 para obtener la covarianza de la muestra.
Por ejemplo, dadas dos variables:
- x: 2, 4, 6
- y: 5, 9, 13
Halla la media de cada variable
Primero, calcula las medias:
Resta la media de cada valor para obtener las desviaciones
A continuación, calcula las desviaciones de la media. He creado una tabla para mostrar cómo funciona. Observa cómo en la parte derecha de la tabla, a cada punto de datos se le resta 4 ó 9.
Multiplica las desviaciones de los pares correspondientes
Ahora, multiplica la desviación de cada par:
Suma los productos
A continuación, sumamos los productos: 8 + 0 + 8 = 16
Divide por n - 1 para obtener la covarianza muestral
Por último, dividimos por n - 1 para obtener la covarianza muestral.
Podemos escribir nuestra respuesta así:
Covarianza en Python y R
Puede que estés intentando averiguar la covarianza en un entorno de programación. Te mostraré cómo hacerlo en Python y R, empezando por Python.
Covarianza en Python
Puedes calcular la covarianza en Python utilizando NumPy.
Para utilizar la función cov()
de NumPy, primero importa NumPy y define tus datos:
import numpy as np
x = np.array([2, 4, 6])
y = np.array([5, 9, 13])
cov_matrix = np.cov(x, y, ddof=1)
print(cov_matrix)
El resultado es una matriz de covarianza:
[[4. 8.]
[8. 16.]]
Vemos que la covarianza entre las dos variables es 8, que es el mismo resultado que obtuvimos a mano.
Covarianza en R
Puedes calcular la covarianza en R utilizando la función incorporada cov()
.
Para empezar, define tus vectores de datos y pásalos a cov()
:
x <- c(2, 4, 6)
y <- c(5, 9, 13)
cov_matrix <- cov(cbind(x, y))
print(cov_matrix)
El resultado es una matriz de covarianza:
x y
x 4 8
y 8 16
La covarianza entre las dos variables es 8, igual que en el ejemplo de Python.
Interpretar la matriz de covarianza
La matriz de covarianza resume la covarianza por pares entre múltiples variables. La salida que acabamos de ver del código Python y R era una matriz de covarianza, aunque pequeña (2x2).
Probemos con un ejemplo más amplio. Para tres variables x, y, y z, la matriz de covarianzas es:
Esta matriz es simétrica, y los elementos diagonales son las varianzas de cada variable. (Esto es cierto porque la covarianza de una variable consigo misma es la varianza).
Covarianza vs. Correlación
Aunque la covarianza mide la dirección de la relación entre dos variables, no estandariza el resultado. La correlación normaliza la covarianza a un valor entre -1 y 1, lo que facilita la interpretación de la fuerza de la relación.
Existen muchas fórmulas para el coeficiente de correlación, pero una de ellas es:
Dónde:
- Cov(x,y) es la covarianza entre las variables x e y
- σx (pronunciado como "sigma") es la desviación estándar de x
- σy es la desviación estándar de y
Cosas adicionales que debes saber
Cuando trabajes con covarianza, ten en cuenta estos problemas comunes:
- La covarianza es sensible a la escala de las variables. Los valores grandes pueden inflar el resultado.
- La covarianza no indica la fuerza de la relación de forma estandarizada.
- Los valores atípicos pueden afectar significativamente al cálculo de la covarianza.
Considera siempre la posibilidad de normalizar tus datos o de utilizar la correlación para una interpretación más clara.
Conclusión
La covarianza es una herramienta estadística imprescindible para comprender cómo se mueven juntas las variables. Necesitas conocer la covarianza para comprender realmente las relaciones de tus datos. No te preocupes si no tienes claros algunos aspectos, tenemos los recursos adecuados para ayudarte, así que inscríbete hoy mismo:
- Programa de Fundamentos de Estadística en Python
- Curso de Introducción a la Estadística en R

Preguntas frecuentes sobre la covarianza
¿Qué significa una covarianza de 0?
Significa que las dos variables no tienen una relación lineal, pero pueden seguir siendo dependientes de forma no lineal.
¿Cómo se utiliza la covarianza en finanzas?
Ayuda a evaluar cómo se mueven juntos dos activos y se utiliza en la optimización del portafolio y la gestión del riesgo.
¿Cuál es la diferencia entre covarianza y correlación?
La covarianza muestra la dirección, la correlación muestra tanto la dirección como la fuerza, normalizadas entre -1 y 1.
¿La covarianza puede ser negativa?
Sí, una covarianza negativa indica una relación inversa.
¿Se ve afectada la covarianza por las unidades?
Sí, a diferencia de la correlación, la covarianza conserva las unidades (por ejemplo, cm-años).