Cours
La covariance joue un rôle clé dans les statistiques en révélant comment deux variables évoluent l'une par rapport à l'autre. Elle est au cœur d'idées telles que la corrélation, l'analyse en composantes principales et la régression.
Dans ce guide, vous apprendrez ce que signifie la covariance, comment la calculer et où elle est utilisée, de la modélisation financière à l'apprentissage automatique.
Et parce que la covariance n'est qu'une chose importante à connaître, assurez-vous de vous inscrire à notre cursus de compétences Fondamentaux de la statistique en Python et/ou à notre cours Introduction à la statistique en R pour continuer à apprendre.
Qu'est-ce que la covariance ?
La covariance est une fonction statistique fondamentale qui mesure la façon dont deux variables, x et y, évoluent ensemble. Si les variables ont tendance à augmenter ou à diminuer simultanément, la covariance est positive. Si l'un augmente tandis que l'autre diminue, la covariance est négative.
La définition mathématique de la covariance pour deux variables aléatoires est la suivante X et Y est la suivante :
où 𝜇x et 𝜇y sont les moyennes de X et de Yrespectivement.
Pour un échantillon de taille nla covariance de l'échantillon est calculée comme suit :
où x̅ et ȳ sont les moyennes d'échantillon de x et y.
La décision d'utiliser μ (mu) pour les moyennes de population et x̅ pour les moyennes d'échantillon est une convention qui permet de distinguer les deux.
L'importance de la covariance
Comprendre la covariance vous aide à analyser la relation entre deux variables. En finance, la covariance est utilisée pour évaluer l'évolution conjointe de deux actions. En science des données, la covariance est nécessaire pour des techniques telles que l'ACP, qui réduit la dimensionnalité des ensembles de données. Elle s'inscrit également dans le cadre de l'analyse de régression, où la compréhension de la covariation des variables est importante pour modéliser leurs relations linéaires.
En bref, la covariance fournit des informations sur 1) la direction de la relation linéaire entre les variables, 2) le sens de la relation linéaire entre les variables et 3) le sens de la relation linéaire.a direction de la relation linéaire entre les variables, 2) lla force de la relation (bien qu'elle ne soit pas normalisée), et 3) la base du calcul du coefficient de corrélation.
Calculer la covariance à la main
Entraînez-vous. Pour calculer la covariance de l'échantillon à la main, procédez comme suit :
- Trouvez la moyenne de chaque variable.
- Soustrayez la moyenne de chaque valeur pour obtenir les écarts.
- Multipliez les écarts pour les paires correspondantes.
- Faites la somme des produits.
- Diviser par n - 1 pour la covariance de l'échantillon.
Par exemple, étant donné deux variables :
- x: 2, 4, 6
- y: 5, 9, 13
Trouvez la moyenne de chaque variable
Calculez d'abord les moyennes :
Soustrayez la moyenne de chaque valeur pour obtenir les écarts.
Ensuite, calculez les écarts par rapport à la moyenne. J'ai créé un tableau pour montrer comment cela fonctionne. Remarquez que dans la partie droite du tableau, chaque point de données est soustrait de 4 ou de 9.
Multiplier les écarts pour les paires correspondantes
Multipliez maintenant l'écart pour chaque paire :
Additionner les produits
Ensuite, nous additionnons les produits : 8 + 0 + 8 = 16
Divisez par n - 1 pour obtenir la covariance de l'échantillon.
Enfin, nous divisons par n - 1 pour obtenir la covariance de l'échantillon.
Nous pouvons écrire notre réponse comme suit :
La covariance en Python et R
Vous essayez peut-être de comprendre la covariance dans un environnement de programmation. Je vais vous montrer comment le faire en Python et en R, en commençant par Python.
La covariance en Python
Vous pouvez calculer la covariance en Python à l'aide de NumPy.
Pour utiliser la fonction cov()
de NumPy, commencez par importer NumPy et définissez vos données :
import numpy as np
x = np.array([2, 4, 6])
y = np.array([5, 9, 13])
cov_matrix = np.cov(x, y, ddof=1)
print(cov_matrix)
Le résultat est une matrice de covariance :
[[4. 8.]
[8. 16.]]
Nous constatons que la covariance entre les deux variables est de 8, ce qui est le même résultat que celui que nous avons obtenu à la main.
Covariance dans R
Vous pouvez calculer la covariance dans R à l'aide de la fonction intégrée cov()
.
Pour commencer, définissez vos vecteurs de données et transmettez-les à cov()
:
x <- c(2, 4, 6)
y <- c(5, 9, 13)
cov_matrix <- cov(cbind(x, y))
print(cov_matrix)
Le résultat est une matrice de covariance :
x y
x 4 8
y 8 16
La covariance entre les deux variables est de 8, comme dans l'exemple de Python.
Interprétation de la matrice de covariance
La matrice de covariance résume la covariance par paire entre plusieurs variables. La sortie que nous venons de voir du code Python et R était une matrice de covariance, bien que petite (2x2).
Prenons un exemple plus large. Pour trois variables x, y et z, la matrice de covariance est :
Cette matrice est symétrique et les éléments diagonaux sont les variances de chaque variable. (Ceci est vrai car la covariance d'une variable avec elle-même est la variance).
Covariance vs. Correlation
Si la covariance mesure le sens de la relation entre deux variables, elle ne normalise pas le résultat. La corrélation normalise la covariance à une valeur comprise entre -1 et 1, ce qui facilite l'interprétation de la force de la relation.
Il existe de nombreuses formules pour le coefficient de corrélation, mais l'une d'entre elles est la suivante :
Où ?
- Cov(x,y) est la covariance entre les variables x et y
- σx (prononcé comme "sigma") est l'écart-type de x
- σy est l'écart-type de y
Autres éléments à connaître
Lorsque vous travaillez avec la covariance, soyez attentif à ces problèmes courants :
- La covariance est sensible à l'échelle des variables. Des valeurs élevées peuvent gonfler le résultat.
- La covariance n'indique pas la force de la relation de manière standardisée.
- Les valeurs aberrantes peuvent affecter de manière significative le calcul de la covariance.
Pensez toujours à normaliser vos données ou à utiliser la corrélation pour une interprétation plus claire.
Conclusion
La covariance est un outil statistique indispensable pour comprendre comment les variables évoluent ensemble. Vous devez connaître la covariance pour vraiment comprendre les relations entre vos données. Ne vous inquiétez pas si certains aspects ne vous semblent pas clairs, nous avons les ressources nécessaires pour vous aider, alors inscrivez-vous dès aujourd'hui :
- Parcours de compétences sur les principes fondamentaux de la statistique en Python.
- Cours d'introduction aux statistiques en R

Je suis rédacteur et éditeur dans le domaine de la science des données. Je suis particulièrement intéressé par l'algèbre linéaire, les statistiques, R, etc. Je joue également beaucoup aux échecs !
FAQ sur la covariance
Que signifie une covariance de 0 ?
Cela signifie que les deux variables n'ont pas de relation linéaire, mais qu'elles peuvent encore être dépendantes d'une manière non linéaire.
Comment la covariance est-elle utilisée en finance ?
Il permet d'évaluer la façon dont deux actifs évoluent ensemble et est utilisé pour l'optimisation des portefeuilles et la gestion des risques.
Quelle est la différence entre la covariance et la corrélation ?
La covariance indique la direction, la corrélation indique à la fois la direction et la force, normalisée entre -1 et 1.
La covariance peut-elle être négative ?
Oui, une covariance négative indique une relation inverse.
La covariance est-elle affectée par les unités ?
Oui, contrairement à la corrélation, la covariance conserve les unités (par exemple, les cm-années).