Accéder au contenu principal

Matrice de corrélation dans Excel : Un guide complet pour créer et interpréter

Apprenez le concept statistique de corrélation et suivez le calcul et l'interprétation des corrélations pour un échantillon de données, dans un didacticiel étape par étape.
Actualisé 16 janv. 2025  · 9 min de lecture

La disponibilité des fonctions intégrées et des compléments d'Excel signifie que même les analyses les plus avancées sont désormais possibles dans Excel. En tant que professionnel de la science des données débutant, vous familiariser avec Excel pour diverses techniques d'analyse est devenu crucial.

Ce tutoriel présente le concept statistique de corrélation, ses différents types et ses applications. Après avoir présenté les fonctions intégrées et les compléments pertinents, nous utiliserons des échantillons de données pour créer, visualiser et interpréter la matrice de corrélation d'Excel.

Qu'est-ce qu'une matrice de corrélation ?

La corrélation est une mesure statistique qui décrit la mesure dans laquelle deux variables ou plus sont liées les unes aux autres. Il indique la force et la direction d'une relation entre des variables.

Lorsque des variables sont corrélées, cela signifie que les variations d'une variable sont associées aux variations d'une autre variable, que ce soit positivement ou négativement :

  • Corrélation positive: Lorsque deux variables augmentent ou diminuent ensemble, elles sont positivement corrélées. Par exemple, la taille et le poids sont généralement corrélés positivement ; lorsque la taille augmente, le poids a tendance à augmenter également.
  • Corrélation négative: Lorsqu'une variable augmente alors que l'autre diminue. Par exemple, la vitesse à laquelle un véhicule se déplace et le temps qu'il met pour atteindre une destination ; plus la vitesse augmente, plus le temps nécessaire diminue.

Les coefficients de corrélation sont des mesures numériques qui quantifient la force et la direction de cette relation. Ce degré de corrélation peut être mesuré à l'aide de différents outils statistiques, le coefficient de corrélation de Pearson étant le plus courant.

Comprendre le coefficient de Pearson

Le coefficient de corrélation de Pearson, souvent appelé simplement "r de Pearson", est une mesure de la corrélation linéaire entre deux variables 𝑋 et 𝑌. Il quantifie la mesure dans laquelle une relation entre ces variables peut être décrite à l'aide d'une ligne droite.

Le coefficient de corrélation de Pearson est calculé comme la covariance des deux variables divisée par le produit de leurs écarts types. Mathématiquement, cela s'exprime comme suit :

Notez que 𝑋‾et 𝑌‾ sont les moyennes des variables 𝑋 et 𝑌, respectivement.

La valeur du coefficient calculé sera comprise entre -1 et +1, où :

  • +1 indique une relation linéaire positive parfaite: Lorsqu'une variable augmente, l'autre variable augmente de manière parfaitement linéaire.
  • -1 indique une relation linéaire négative parfaite: Lorsqu'une variable augmente, l'autre variable diminue de manière parfaitement linéaire.
  • 0 indique l'absence de corrélation linéaire: Il n'y a pas de relation linéaire entre les variables.

Voici comment se présentent les différents types de corrélations :

Représentation visuelle des corrélationsReprésentation visuelledes corrélations(Source)

Maintenant que nous avons compris des termes tels que la corrélation et les coefficients de corrélation, nous allons comprendre comment tout cela se présente sous la forme d'une matrice de corrélation.

Une matrice de corrélation est un tableau qui affiche les coefficients de corrélation entre plusieurs variables. Chaque cellule de la matrice représente la corrélation entre deux variables.

Cette matrice est un outil utile pour analyser la force et la direction des relations entre les variables dans l'analyse statistique des données. Au-delà de cette utilisation évidente de la matrice de corrélation, celle-ci est utilisée pour diverses applications dans les domaines de la science des données, de la finance, des études de marché, etc.

Voici quelques-unes de ces applications :

  • En science des données, nous l'utilisons pour sélectionner ou exclure des caractéristiques (variables) des modèles en fonction de leurs relations. Les caractéristiques fortement corrélées peuvent entraîner une multicolinéarité dans les modèles de régression, ce qui peut fausser les résultats. En identifiant ces corrélations, nous réduisons la redondance et améliorons les performances du modèle.
  • En finance, les matrices de corrélation sont utilisées pour comprendre comment différents actifs évoluent les uns par rapport aux autres. Cet aspect est crucial pour la diversification du portefeuille et la gestion des risques, car il permet de sélectionner des actifs qui ne sont pas fortement corrélés, réduisant ainsi potentiellement le risque.
  • Les entreprises utilisent les matrices de corrélation pour trouver des relations entre les différents comportements des consommateurs, les évaluations des produits et les variables démographiques. Cela permet d'améliorer le ciblage et le positionnement des produits. Nous verrons un exemple similaire plus loin dans ce tutoriel.

Maintenant que nous avons compris le concept de corrélation, ses calculs et ses applications, plongeons dans sa mise en œuvre dans Excel.

Matrice de corrélation : Fonctions et compléments pertinents dans Excel

Les deux outils que nous utiliserons pour calculer les matrices de corrélation dans Excel sont la fonction CORREL et le complément Analysis ToolPak.

Fonction CORREL

La fonction CORREL d'Excel fournit une méthode simple pour calculer le coefficient de corrélation de Pearson entre deux ensembles de données.

La syntaxe de la fonction CORREL est la suivante :

CORREL(array1, array2)

où :

  • array1 : Il s'agit de la plage de cellules qui contient le premier ensemble de données/colonne.
  • array2 : Il s'agit de la plage de cellules qui contient le deuxième ensemble de données/colonne.

Chaque tableau doit avoir le même nombre d'éléments. Excel renvoie le coefficient de corrélation pour ces tableaux, qui va de -1 à +1.

Analyse ToolPak

Pour une analyse statistique plus complète, y compris la génération d'une matrice de corrélation complète entre plusieurs variables, la boîte à outils d'analyse d'Excel peut s'avérer utile.

L'Analysis Toolpak n'est pas nécessairement activé dans votre document Excel. Vérifiez que l'icône "Analyse des données" est visible dans le coin droit sous l'onglet "Données", comme indiqué ci-dessous.

Kit d'outils d'analyse dans Excel

Analysis Toolpak dans Excel.

Si vous ne le voyez pas, ne vous inquiétez pas ; suivez les étapes ci-dessous et vous pourrez activer l'Analysis ToolPak.

  • Cliquez sur File dans le menu, puis sélectionnez Options.

Sélection d'options à partir de l'onglet Fichier.

Sélection d'options à partir de l'onglet Fichier.

  • Dans la boîte de dialogue Excel Options, sélectionnez Add-ins.

Sélectionnez Compléments dans la boîte de dialogue Options Excel.

Sélectionnez Compléments dans la boîte de dialogue Options Excel.

  • Dans la boîte Manage au bas de la vue, sélectionnez Excel Add-ins et cliquez sur Go.

Gestion des compléments d'Excel.

Gestion des compléments d'Excel.

  • Dans la boîte Add-Ins, cochez Analysis ToolPak puis cliquez sur OK.

Activation de la boîte à outils d'analyse.

Activation de la boîte à outils d'analyse.

Vous devriez voir l'icône "Analyse de données" sous l'onglet Data, dans le groupe Analysis, si vous avez suivi les instructions et l'avez activée correctement.

Comme vous le verrez plus loin, Analysis ToolPak rend le processus de calcul de la matrice de corrélation beaucoup plus simple et direct.

Comment créer une matrice de corrélation dans Excel : Un exemple

Imaginez un scénario dans lequel vous êtes analyste de données dans une grande entreprise de biens de consommation qui possède plusieurs magasins dans tout le pays. L'entreprise a compilé des données sur les ventes et les caractéristiques démographiques des clients.

Votre objectif est de comprendre les relations entre les caractéristiques des clients et leurs habitudes d'achat. Cette analyse visera à identifier les produits qui sont couramment achetés ensemble et à étudier l'impact des différents facteurs démographiques sur les tendances des ventes.

Vous avez décidé d'utiliser une matrice de corrélation pour l'analyse. Les données suivantes de 10 clients vous ont été fournies dans un fichier Excel :

Exemple de données provenant d'une grande entreprise de biens de consommation.

Exemple de données provenant d'une grande entreprise de biens de consommation.

Les colonnes sont les suivantes :

  • Identifiant du client: Identifiant unique pour chaque client.
  • L'âge: Âge du client en années.
  • Revenu annuel (K$) : Le revenu annuel du client en milliers de dollars.
  • Fréquence des visites (par mois): Fréquence mensuelle des visites du client dans le magasin.
  • Dépenses par visite ($): Montant moyen dépensé par le client lors de chaque visite en magasin.
  • Électronique ($) / Vêtements ($) / Épicerie ($): Montant dépensé pour différentes catégories de produits par visite.

Corrélations manuelles à l'aide de la fonction CORREL

Voici les étapes à suivre pour calculer le coefficient de corrélation de Pearson dans Excel :

  • Étape 1: Sélectionnez la cellule appropriée qui constitue la partie de la matrice de corrélation. Nous sélectionnons ici B16.

Sélection d'une cellule pour calculer la corrélation.

Sélection d'une cellule pour calculer la corrélation.

  • Étape 2: Saisissez la formule suivante qui utilise la fonction CORREL. Nous allons d'abord calculer la corrélation entre l'âge et le revenu annuel.

=CORREL(B2:B11,C2:C11)

Tapez la formule.

Tapez la formule.

  • Étape 3: Saisissez la cellule et répétez le processus pour toutes les autres combinaisons de colonnes.

Calcul de la corrélation.

Calcul de la corrélation.

Comme vous le voyez, le calcul manuel des valeurs de corrélation pour chaque combinaison de colonnes peut devenir fastidieux, en particulier lorsque le nombre de colonnes dans les données augmente.

Nous avons également la possibilité d'utiliser la fonction OFFSET pour automatiser les changements dans les plages de cellules afin de remplir les valeurs des coefficients dans le tableau.

S'il est important de savoir que la fonction CORREL existe et qu'elle est utile pour calculer des corrélations individuelles, lorsqu'il s'agit de considérer une matrice de corrélation complète, la boîte à outils d'analyse est beaucoup plus facile et rapide, et donc recommandée.

Matrice de corrélation à l'aide de Analysis Toolpak

Voici les étapes à suivre pour créer la matrice de corrélation :

  • Étape 1: Cliquez sur l'icône Analyse des données sous l'onglet Données.

En cliquant sur l'icône Analyse des données.

En cliquant sur l'icône Analyse des données.

  • Étape 2: Sélectionnez l'option "Corrélation" et cliquez sur "OK".

Sélection de l'option de corrélation.

Sélection de l'option de corrélation.

  • Étape 3: Indiquez la plage d'entrée, y compris le nom des colonnes. Cochez l'option "Étiquettes sur la première ligne". Pour la plage de sortie, sélectionnez n'importe quelle cellule dans laquelle vous souhaitez afficher les résultats, par exemple $A$14, ici. Enfin, appuyez sur OK.

Remplir les détails des corrélations à l'aide du complément Analysis Toolpak.

Remplir les détails des corrélations à l'aide du complément Analysis Toolpak.

Vous devriez voir la matrice de corrélation comme indiqué ci-dessous :

Données avec leur matrice de corrélation.

Données avec leur matrice de corrélation.

La valeur de corrélation d'une colonne avec elle-même est de 1, ce qui signifie une corrélation parfaite avec elle-même. La matrice comporte également toutes les colonnes présentes dans la ligne, créant ainsi toutes les combinaisons de colonnes entre elles. La diagonale supérieure droite de la matrice est vide, car elle ressemblera exactement aux combinaisons de la diagonale inférieure gauche.

Nous avons réussi à créer la matrice de corrélation dans Excel. Il est maintenant temps de comprendre ce que ces valeurs signifient et de convertir ces chiffres en informations.

Comment interpréter une matrice de corrélation dans Excel ?

Si l'interprétation de la matrice de corrélation que nous avons vue ci-dessus n'est pas trop difficile, elle devient incontrôlable lorsque le nombre de colonnes augmente. Il est impossible de passer en revue toutes les combinaisons lorsque le nombre de colonnes est élevé.

Nous avons besoin d'un mécanisme permettant d'identifier rapidement les corrélations les plus significatives parmi toutes les combinaisons possibles dans la matrice de corrélation.

Le formatage conditionnel de ces cellules dans une matrice de corrélation permet de mieux interpréter la matrice de corrélation en orientant notre attention vers les cellules les plus significatives (plus foncées) de la matrice de corrélation.

Voici les étapes à suivre pour coder en couleur la matrice de corrélation dans Microsoft Excel :

  • Étape 1: Mettez en surbrillance la matrice de corrélation (uniquement les nombres) et cliquez sur Mise en forme conditionnelle sous l'onglet "Accueil". Cliquez sur "Nouvelle règle" comme indiqué ci-dessous.

Cliquez sur l'icône "Mise en forme conditionnelle".

Cliquez sur l'icône "Mise en forme conditionnelle".

  • Étape 2: Après l'étape 1, vous devriez voir apparaître une boîte de dialogue comme indiqué dans le diagramme ci-dessous. Tout d'abord, sélectionnez "Formater toutes les cellules en fonction de leurs valeurs" et définissez le style de format sur "Échelle de 3 couleurs". Trois couleurs sont idéales car elles permettent d'indiquer les corrélations positives, négatives et neutres. Enfin, définissez le type, la valeur et la couleur comme indiqué dans le diagramme ci-dessous.

Création d'une nouvelle règle de mise en forme conditionnelle.

Création d'une nouvelle règle de mise en forme conditionnelle.

Vous obtiendrez le résultat suivant :

Exemple de données, avec matrice de corrélation codée en couleur.

Exemple de données, avec matrice de corrélation codée en couleur.

C'est tout ! Nous avons ajouté des couleurs pour mieux visualiser la matrice de corrélation.

Une fois la matrice de corrélation codée en couleur pour une meilleure compréhension visuelle, nous pouvons déduire les éléments suivants des résultats obtenus :

  • L'âge est fortement corrélé au revenu annuel, ce qui signifie que plus les clients sont âgés, plus leur pouvoir d'achat est élevé.
  • Le montant dépensé pour les courses est corrélé négativement avec toutes les variables, à l'exception de la fréquence des visites des clients, qui est positivement corrélée, ce qui signifie que les clients sont susceptibles d'acheter plus de courses lorsqu'ils se rendent plus souvent dans le magasin.
  • Les catégories de vêtements et d'appareils électroniques présentent une forte corrélation positive. Il peut donc être judicieux de conserver ces deux catégories d'articles à proximité afin d'augmenter les ventes.
  • Les catégories vêtements et épicerie ont une corrélation négative, ce qui signifie qu'il est préférable de ne pas conserver ces catégories à proximité dans les magasins physiques.

La clé de l'interprétation de la matrice de corrélation est d'observer la direction et la force de la valeur dans la matrice et de revenir aux colonnes qui lui sont associées.

Remarquez que dans nos explications, nous n'avons jamais prétendu que les clients plus âgés ont des revenus annuels plus élevés en raison de leur âge plus élevé, ou que l'augmentation des ventes de vêtements entraînera une baisse des ventes de produits d'épicerie. En effet, la corrélation n'est pas la causalité, une idée fausse très répandue.

L'analyse corrélationnelle permet uniquement d'interpréter l'existence (ou la non-existence) d'une relation entre deux variables, mais jamais le fait qu'une variable provoque un changement dans l'autre variable. Pour déterminer une relation de cause à effet, nous devons réaliser des expériences spécifiques. Vous pouvez en savoir plus à ce sujet en consultant notre rubrique Corrélation vs. Didacticiel sur le lien de causalité.

Réflexions finales

Ce tutoriel présente le concept de corrélation, le coefficient de Pearson, son expression mathématique, les différents types de corrélations et la manière de les identifier en fonction de la direction et de la force des coefficients de corrélation.

Ensuite, nous nous sommes concentrés sur la mise en œuvre, où nous avons pris des échantillons de données, créé, visualisé avec un formatage conditionnel et interprété la matrice de corrélation. Nous avons également examiné les idées fausses lors de l'interprétation de la matrice de corrélation.

Votre apprentissage ne doit pas s'arrêter là ! Si vous souhaitez mettre en œuvre des corrélations à l'aide d'autres langages de programmation, les guides suivants vous seront utiles :

Pour consolider vos connaissances techniques, consultez nos cours de probabilités et de statistiques adaptés aux débutants. Par ailleurs, si vous vous sentez à l'aise avec les concepts techniques mais que vous souhaitez améliorer vos compétences en matière de mise en œuvre pratique dans Excel, vous devriez consulter le cursus Excel Fundamentals.


Arunn Thevapalan's photo
Author
Arunn Thevapalan
LinkedIn
Twitter

En tant que data scientist senior, je conçois, développe et déploie des solutions d'apprentissage automatique à grande échelle pour aider les entreprises à prendre de meilleures décisions basées sur les données. En tant que rédacteur spécialisé dans la science des données, je partage mes apprentissages, mes conseils de carrière et des tutoriels pratiques approfondis.

Sujets

Continuez à apprendre Excel

cours

Data Analysis in Excel

3 hr
69.7K
Learn how to analyze data with PivotTables and intermediate logical functions before moving on to tools such as what-if analysis and forecasting.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow
Apparenté

blog

2022-2023 Rapport annuel DataCamp Classrooms

À l'aube de la nouvelle année scolaire, DataCamp Classrooms est plus motivé que jamais pour démocratiser l'apprentissage des données, avec plus de 7 650 nouveaux Classrooms ajoutés au cours des 12 derniers mois.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 min

blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates a offert plus de 20k bourses d'études à nos partenaires à but non lucratif au deuxième trimestre 2023. Découvrez comment des apprenants défavorisés et assidus ont transformé ces opportunités en réussites professionnelles qui ont changé leur vie.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

blog

Les 32 meilleures questions d'entretien sur AWS et leurs réponses pour 2024

Un guide complet pour explorer les questions d'entretien AWS de base, intermédiaires et avancées, ainsi que des questions basées sur des situations réelles. Il couvre tous les domaines, garantissant ainsi une stratégie de préparation bien équilibrée.
Zoumana Keita 's photo

Zoumana Keita

30 min

blog

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Vous êtes actuellement à la recherche d'un emploi qui utilise Snowflake ? Préparez-vous à répondre à ces 20 questions d'entretien sur le flocon de neige pour décrocher le poste !
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

20 min

blog

Célébration de Saghar Hazinyar : Une boursière de DataCamp Donates et une diplômée de Code to Inspire

Découvrez le parcours inspirant de Saghar Hazinyar, diplômée de Code to Inspire, qui a surmonté les défis en Afghanistan et s'est épanouie grâce à une bourse de DataCamp Donates.
Fereshteh Forough's photo

Fereshteh Forough

4 min

blog

Nous avons fait don de bourses DataCamp Premium à un million de personnes, et ce n'est pas fini.

Réparties entre nos deux programmes d'impact social, DataCamp Classrooms et #DCDonates, les bourses offrent un accès illimité à tout ce que DataCamp Premium a à offrir.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Voir plusVoir plus