Accéder au contenu principal

Comprendre la covariance : Guide d'introduction

Découvrez comment la covariance révèle les relations entre les variables. Apprenez à le calculer et à l'interpréter dans les domaines de la statistique, de la finance et de l'apprentissage automatique.
Actualisé 24 juin 2025  · 5 min de lecture

La covariance joue un rôle clé dans les statistiques en révélant comment deux variables évoluent l'une par rapport à l'autre. Elle est au cœur d'idées telles que la corrélation, l'analyse en composantes principales et la régression.

Dans ce guide, vous apprendrez ce que signifie la covariance, comment la calculer et où elle est utilisée, de la modélisation financière à l'apprentissage automatique.

Et parce que la covariance n'est qu'une chose importante à connaître, assurez-vous de vous inscrire à notre cursus de compétences Fondamentaux de la statistique en Python et/ou à notre cours Introduction à la statistique en R pour continuer à apprendre.

Qu'est-ce que la covariance ?

La covariance est une fonction statistique fondamentale qui mesure la façon dont deux variables, x et y, évoluent ensemble. Si les variables ont tendance à augmenter ou à diminuer simultanément, la covariance est positive. Si l'un augmente tandis que l'autre diminue, la covariance est négative.

La définition mathématique de la covariance pour deux variables aléatoires est la suivante X et Y est la suivante :

formule de covariance de la population

𝜇x et 𝜇y sont les moyennes de X et de Yrespectivement.

Pour un échantillon de taille nla covariance de l'échantillon est calculée comme suit :

formule de covariance de l'échantillon

et ȳ sont les moyennes d'échantillon de x et y.

La décision d'utiliser μ (mu) pour les moyennes de population et pour les moyennes d'échantillon est une convention qui permet de distinguer les deux.

L'importance de la covariance

Comprendre la covariance vous aide à analyser la relation entre deux variables. En finance, la covariance est utilisée pour évaluer l'évolution conjointe de deux actions. En science des données, la covariance est nécessaire pour des techniques telles que l'ACP, qui réduit la dimensionnalité des ensembles de données. Elle s'inscrit également dans le cadre de l'analyse de régression, où la compréhension de la covariation des variables est importante pour modéliser leurs relations linéaires.

En bref, la covariance fournit des informations sur 1) la direction de la relation linéaire entre les variables, 2) le sens de la relation linéaire entre les variables et 3) le sens de la relation linéaire.a direction de la relation linéaire entre les variables, 2) lla force de la relation (bien qu'elle ne soit pas normalisée), et 3) la base du calcul du coefficient de corrélation.

Calculer la covariance à la main

Entraînez-vous. Pour calculer la covariance de l'échantillon à la main, procédez comme suit :

  1. Trouvez la moyenne de chaque variable.
  2. Soustrayez la moyenne de chaque valeur pour obtenir les écarts.
  3. Multipliez les écarts pour les paires correspondantes.
  4. Faites la somme des produits.
  5. Diviser par n - 1 pour la covariance de l'échantillon.

Par exemple, étant donné deux variables :

  • x: 2, 4, 6
  • y: 5, 9, 13

Trouvez la moyenne de chaque variable

Calculez d'abord les moyennes :

calculer la moyenne de x pour aider à trouver la covariance

calculer la moyenne de y pour aider à trouver la covariance

Soustrayez la moyenne de chaque valeur pour obtenir les écarts.

Ensuite, calculez les écarts par rapport à la moyenne. J'ai créé un tableau pour montrer comment cela fonctionne. Remarquez que dans la partie droite du tableau, chaque point de données est soustrait de 4 ou de 9.

un tableau des écarts types par rapport à la moyenne

Multiplier les écarts pour les paires correspondantes

Multipliez maintenant l'écart pour chaque paire :

en multipliant les écarts types pour chaque paire

Additionner les produits

Ensuite, nous additionnons les produits : 8 + 0 + 8 = 16

additionner les produits pour trouver la covariance

Divisez par n - 1 pour obtenir la covariance de l'échantillon.

Enfin, nous divisons par n - 1 pour obtenir la covariance de l'échantillon.

calculer la covariance de l'échantillon à partir de nos données

Nous pouvons écrire notre réponse comme suit :

la réponse à la formule de covariance

La covariance en Python et R

Vous essayez peut-être de comprendre la covariance dans un environnement de programmation. Je vais vous montrer comment le faire en Python et en R, en commençant par Python. 

La covariance en Python

Vous pouvez calculer la covariance en Python à l'aide de NumPy.

Pour utiliser la fonction cov() de NumPy, commencez par importer NumPy et définissez vos données :

import numpy as np

x = np.array([2, 4, 6])
y = np.array([5, 9, 13])

cov_matrix = np.cov(x, y, ddof=1)
print(cov_matrix)

Le résultat est une matrice de covariance :

[[4. 8.]
 [8. 16.]]

Nous constatons que la covariance entre les deux variables est de 8, ce qui est le même résultat que celui que nous avons obtenu à la main.

Covariance dans R

Vous pouvez calculer la covariance dans R à l'aide de la fonction intégrée cov().

Pour commencer, définissez vos vecteurs de données et transmettez-les à cov():

x <- c(2, 4, 6)
y <- c(5, 9, 13)

cov_matrix <- cov(cbind(x, y))
print(cov_matrix)

Le résultat est une matrice de covariance :

  x  y
x 4  8
y 8 16

La covariance entre les deux variables est de 8, comme dans l'exemple de Python.

Interprétation de la matrice de covariance

La matrice de covariance résume la covariance par paire entre plusieurs variables. La sortie que nous venons de voir du code Python et R était une matrice de covariance, bien que petite (2x2).

Prenons un exemple plus large. Pour trois variables x, y et z, la matrice de covariance est :

Cette matrice est symétrique et les éléments diagonaux sont les variances de chaque variable. (Ceci est vrai car la covariance d'une variable avec elle-même est la variance).

Covariance vs. Correlation

Si la covariance mesure le sens de la relation entre deux variables, elle ne normalise pas le résultat. La corrélation normalise la covariance à une valeur comprise entre -1 et 1, ce qui facilite l'interprétation de la force de la relation.

Il existe de nombreuses formules pour le coefficient de corrélation, mais l'une d'entre elles est la suivante :

formule de covariance liée à la corrélation

Où ?

  • Cov(x,y) est la covariance entre les variables x et y
  • σx (prononcé comme "sigma") est l'écart-type de x
  • σy​ est l'écart-type de y

Autres éléments à connaître

Lorsque vous travaillez avec la covariance, soyez attentif à ces problèmes courants :

  • La covariance est sensible à l'échelle des variables. Des valeurs élevées peuvent gonfler le résultat.
  • La covariance n'indique pas la force de la relation de manière standardisée.
  • Les valeurs aberrantes peuvent affecter de manière significative le calcul de la covariance.

Pensez toujours à normaliser vos données ou à utiliser la corrélation pour une interprétation plus claire.

Conclusion

La covariance est un outil statistique indispensable pour comprendre comment les variables évoluent ensemble. Vous devez connaître la covariance pour vraiment comprendre les relations entre vos données. Ne vous inquiétez pas si certains aspects ne vous semblent pas clairs, nous avons les ressources nécessaires pour vous aider, alors inscrivez-vous dès aujourd'hui : 


Josef Waples's photo
Author
Josef Waples

Je suis rédacteur et éditeur dans le domaine de la science des données. Je suis particulièrement intéressé par l'algèbre linéaire, les statistiques, R, etc. Je joue également beaucoup aux échecs ! 

FAQ sur la covariance

Que signifie une covariance de 0 ?

Cela signifie que les deux variables n'ont pas de relation linéaire, mais qu'elles peuvent encore être dépendantes d'une manière non linéaire.

Comment la covariance est-elle utilisée en finance ?

Il permet d'évaluer la façon dont deux actifs évoluent ensemble et est utilisé pour l'optimisation des portefeuilles et la gestion des risques.

Quelle est la différence entre la covariance et la corrélation ?

La covariance indique la direction, la corrélation indique à la fois la direction et la force, normalisée entre -1 et 1.

La covariance peut-elle être négative ?

Oui, une covariance négative indique une relation inverse.

La covariance est-elle affectée par les unités ?

Oui, contrairement à la corrélation, la covariance conserve les unités (par exemple, les cm-années).

Sujets

Apprenez avec DataCamp

Cours

Foundations of Probability in Python

5 h
14.2K
Learn fundamental probability concepts like random variables, mean and variance, probability distributions, and conditional probabilities.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow