Accéder au contenu principal

Moyenne vs. Médiane : Connaître la différence

Découvrez les différences entre la moyenne et la médiane, apprenez leurs applications dans l'analyse des données et sachez comment choisir la bonne mesure pour différents scénarios.
Actualisé 31 janv. 2025  · 8 min de lecture

Lorsque vous interprétez des données, le choix de la bonne mesure de la tendance centrale peut être déterminant pour votre analyse. Parmi les mesures les plus courantes, on trouve lamoyenne et la médiane, deux concepts apparemment simples qui ont des implications profondes dans l'interprétation des données. Alors que la moyenne nous donne la moyenne arithmétique, la médiane est le point central d'un ensemble de valeurs triées, de sorte que la moitié des observations se situent de part et d'autre. Mais lequel est le plus fiable ? La réponse dépend souvent de la distribution de vos données, de la présence de valeurs aberrantes et de l'histoire que vous essayez de raconter.

Dans cet article, je vais présenter les différences entre la moyenne et la médiane, leurs forces et leurs faiblesses, et comment choisir la bonne pour différents scénarios. J'examinerai également comment les distributions asymétriques et les valeurs aberrantes affectent ces mesures, en fournissant des exemples pratiques et des illustrations pour vous aider à comprendre ces concepts fondamentaux. Nous nous pencherons également sur des idées plus avancées.

Définitions de la moyenne et de la médiane

Pour bien comprendre les différences entre la moyenne et la médiane, examinons chacune de ces mesures et soulignons leurs principales propriétés.

Quelle est la moyenne ?

La moyenne peut être considérée comme le "point d'équilibre" (ou centre de masse) des données. Il considère tous les points de données d'un ensemble de données et fournit une valeur unique qui représente la moyenne. Plus précisément,a moyenne est calculée en additionnant toutes les valeurs d'un ensemble de données, puis en les divisant par le nombre de valeurs.

Quelle est la médiane ?

La médiane est la valeur centrale lorsque les données sont triées. Contrairement à la moyenne, elle est plus résistante aux valeurs aberrantes et constitue une meilleure mesure de la tendance centrale pour les données asymétriques.

Qu'en est-il du mode ?

Le mode est une autre mesure de la tendance centrale, représentant la valeur la plus fréquente dans un ensemble de données. Par exemple, dans cette série : 

1, 3, 3, 6, 8, 9

le mode est 3 car il apparaît deux fois.

Comment calculer la moyenne et la médiane

Lire une définition est une chose, la calculer en est une autre. Dans cette section, je vais décomposer les étapes du calcul de chaque mesure et mettre en évidence leurs différences de calcul.

Comment trouver la moyenne

La moyenne est la moyenne arithmétique d'un ensemble de données et se calcule comme suit :

  1. Additionnez les valeurs : Additionnez tous les chiffres de votre ensemble de données.
  2. Divisez par le nombre total de valeurs : Prenez la somme totale et divisez-la par le nombre de valeurs.

Voici le processus représenté sous la forme d'une équation générale :

équation moyenne

Comment trouver la moyenne. Image par l'auteur

Prenons l'exemple d'un ensemble de données de notes d'examens :

78, 85, 92, 88, 70
  1. Étape 1 (Somme) : 78 + 85 + 92 + 88 + 70 = 413
  2. Étape 2 (diviser) : 413 ÷ 5 = 82.6 

Le score moyen est de 82.6.

Comment trouver la médiane

La médiane est la valeur moyenne d'un ensemble de données classées par ordre croissant. Voici comment le trouver :

  1. Triez les données : Classez les valeurs de la plus petite à la plus grande.
  2. Identifiez la valeur moyenne : Si l'ensemble de données contient un nombre impair de valeurs, la médiane est la valeur du milieu ; si l'ensemble de données contient un nombre pair de valeurs, la médiane est la moyenne des deux valeurs du milieu.

Et voici ces étapes représentées sous forme d'équations : 

équation médiane

Formule médiane. Image par l'auteur

J'ai également créé un visuel pour mettre en évidence le processus.

médiane illustrée

Comment trouver la médiane. Image par l'auteur

Voici un exemple d'ensemble de données comportant un nombre impair de valeurs :

70, 78, 85, 88, 92
  1. Étape 1 (tri) : Déjà réglé.
  2. Étape 2 (valeur moyenne) : La troisième valeur est 85.

La médiane est de 85.

Voici un autre exemple, mais avec un nombre pair de valeurs :

70, 78, 85, 88
  1. Étape 1 (tri) : Déjà réglé.
  2. Étape 2 (moyenne des valeurs moyennes) : (78 + 85) ÷ 2 = 81.5

La médiane est de 81.5.

Pourquoi la différence est importante : Valeurs aberrantes et biais

Alors que la moyenne et la médiane décrivent toutes deux le centre d'un ensemble de données, leur comportement diverge considérablement en présence d'outiers et de distributions asymétriques. Il est très important de comprendre cette différence pour interpréter correctement les données et éviter les conclusions erronées.

Impact des valeurs aberrantes

Les valeurs aberrantes sont des valeurs significativement supérieures ou inférieures au reste des données. Ils peuvent influencer fortement la moyenne mais n'ont que peu ou pas d'effet sur la médiane.

Considérons un ensemble de données sur les revenus mensuels (en milliers) :

3, 3.5, 4, 4.5, 5, 6, 50

Le revenu moyen est de 10.85kce qui est fortement biaisé par la valeur extrême de 50k.

En revanche, la valeur médiane est de 4.5kce qui est, à mon avis, une représentation beaucoup plus typique du revenu de ce groupe.

Distributions asymétriques

La moyenne et la médiane diffèrent également dans leur représentation des données dans les distributions asymétriques (ensembles de données qui ne sont pas symétriques).

Par exemple, ians les distributions à pente droite (par exemple, les revenus ou les prix des logements), la plupart des valeurs sont regroupées à l'extrémité inférieure, quelques valeurs extrêmes tirant la queue vers la droite.

  • Moyenne : Se déplace vers la queue, ce qui donne une valeur supérieure à la médiane.
  • Médiane : Reste plus proche du groupe de valeurs typiques, reflétant mieux le cas "typique".

Considérez les revenus : 

30k, 35k, 40k, 45k, 50k, 100k, 200k
  • Moyenne : 71,4k (tiré vers le haut par 100k et 200k).
  • Médiane : 45k (plus proche de la majorité des revenus).

Pourquoi c'est important

  • Dans les données asymétriques : La médiane est souvent plus représentative d'un point de données "typique" car elle n'est pas influencée par les valeurs extrêmes.
  • Dans les données symétriques : La moyenne et la médiane seront presque identiques, de sorte que l'une ou l'autre peut être utilisée comme mesure de la tendance centrale.

Il est important de toujours examiner la distribution de vos données avant de décider d'utiliser la moyenne ou la médiane. Des outils tels que les histogrammes et les diagrammes en boîte peuvent aider à visualiser l'asymétrie et à identifier les valeurs aberrantes. Nous y reviendrons plus tard. Je tiens également à préciser que l'examen de la différence entre la moyenne et la médiane est un moyen d'évaluer l'asymétrie.

Choisir la moyenne ou la médiane dans différents scénarios

Lors de l'analyse des données, la décision d'utiliser la moyenne ou la médiane dépend des caractéristiques de votre ensemble de données et des informations que vous essayez d'extraire. Vous trouverez ci-dessous un tableau de référence rapide pour vous guider dans votre choix :

Utilisez la moyenne lorsque Utilisez la médiane lorsque
La distribution des données est approximativement normale (symétrique). Les données sont fortement asymétriques (par exemple, les revenus, les valeurs immobilières).
Les valeurs aberrantes sont minimes ou non pertinentes pour l'analyse. Des valeurs aberrantes sont présentes et pourraient fausser les résultats si elles étaient incluses.
Vous avez besoin d'une mesure sensible à chaque point de données, par exemple dans le cadre de la modélisation prédictive ou du calcul des totaux. Vous souhaitez refléter la valeur "typique" plutôt que le "centre mathématique" de l'ensemble de données.

Voici un conseil pratique qui vous sera très utile : Commencez toujours par une analyse visuelle de vos données (par exemple, un histogramme ou un diagramme en boîte) pour vérifier la symétrie, l'asymétrie et la présence de valeurs aberrantes. Cela vous aidera à décider si la moyenne ou la médiane correspond mieux à votre scénario.

Visualisation de la moyenne par rapport à la moyenne. Médiane

Les visualisations sont des outils puissants pour comprendre le comportement de la moyenne et de la médiane dans différents ensembles de données. Ils peuvent démontrer clairement comment ces mesures réagissent aux valeurs aberrantes et aux distributions asymétriques, ce qui permet de prendre des décisions mieux fondées sur les données.

exemple de diagramme à barres

Imaginez un petit ensemble de données de milliers de revenus :

30, 35, 40, 45, 50, 55, 1000

Le diagramme à barres suivant montre comment une seule valeur extrême peut affecter considérablement la moyenne, tout en laissant la médiane relativement stable. Dans ce cas, la plupart des points de données se situent entre 30 et 55, mais la présence d'une valeur aberrante (1000) tire la moyenne vers le haut.

moyenne et médiane sur un diagramme à barres

Diagramme à barres montrant l'effet d'une valeur aberrante sur la moyenne par rapport à la médiane. Image par l'auteur

exemple d'histogramme

Dans une distribution à angle droit (comme les revenus ou les prix du logement), la moyenne est souvent tirée vers la longue queue des valeurs élevées, tandis que la médiane reste plus proche du point de données "typique". La médiane est donc une meilleure mesure de la tendance centrale dans de tels cas.

L'histogramme ci-dessous montre une distribution de revenus simulée où la moyenne (ligne pointillée rouge) est significativement plus grande que la médiane (ligne pointillée verte) en raison de l'asymétrie.

moyenne et médiane sur un histogramme

Histogramme montrant une distribution en dents de scie. Image par l'auteur

Vous pouvez remarquer que l'asymétrie de droite étire la queue, créant une différence claire entre la moyenne et la médiane.

exemple de diagramme en boîte

Un diagramme en boîte est un excellent moyen de visualiser l'impact des valeurs aberrantes sur la médiane. Ci-dessous, nous comparons deux groupes : l'un avec des valeurs aberrantes et l'autre sans. La médiane (ligne verticale à l'intérieur de la boîte) reste stable malgré la présence de valeurs extrêmes, mais l'étendue globale des données est fortement influencée par la valeur aberrante.

moyenne vs. médiane sur un diagramme en boîte

Diagramme en boîte montrant l'effet des valeurs aberrantes sur la médiane. Image par l'auteur

Ces visualisations mettent en évidence la façon dont la moyenne et la médiane réagissent aux différentes caractéristiques des données, ce qui permet de savoir quand utiliser chaque mesure. Qu'il s'agisse d'analyser des données asymétriques, des ensembles de données aberrantes ou de comparer des groupes, des aides visuelles comme celles-ci peuvent faciliter la compréhension de relations complexes.

Quelques idées plus avancées

Voyons maintenant quelques idées plus avancées si vous êtes curieux d'en savoir plus.

Imputation moyenne ou médiane

Maintenant, si vous êtes un scientifique des données et que vous avez besoin de combler des lacunes dans vos données, vous devrez peut-être choisir une méthode d'imputation. Vous vous demandez peut-être maintenant quelle est la différence pratique entre l'imputation moyenne et l'imputation médiane ?

Comme vous pouvez le deviner, l'imputation moyenne remplace les valeurs manquantes par la moyenne des données disponibles qui, comme nous l'avons dit, peuvent être faussées par des valeurs extrêmes. L'imputation médiane, quant à elle, remplace les valeurs manquantes par la valeur médiane de l'ensemble de données.

Une règle empirique utile consiste à examiner la distribution de vos données. Si la distribution de vos données était asymétrique, avec de nombreuses valeurs manquantes, et que vous aviez utilisé l'imputation moyenne, il se peut que vous ayez modifié la distribution de vos données !

Moyenne ou médiane : paramétrique ou non paramétrique ?

Dans de nombreuses méthodes paramétriques, la moyenne (et la variance) sont des paramètres centraux. Par exemple, un modèle de régression linéaire simple suppose que les erreurs sont normalement distribuées autour d'une moyenne. Lorsque vos données répondent à l'hypothèse de normalité, la moyenne de l'échantillon est un estimateur naturel qui s'intègre bien dans les cadres paramétriques.

La médiane a une orientation non paramétrique et constitue probablement la quintessence de la mesure non paramétrique de la tendance centrale. De nombreux tests basés sur les rangs, comme le test de Mann-Whitney, comparent effectivement les médianes (ou les distributions) plutôt que les moyennes. Ainsi, si vos données présentent une forte asymétrie ou contiennent des valeurs aberrantes, l'utilisation de la médiane s'aligne plus naturellement sur les statistiques non paramétriques. 

Tout cela pour dire que la compréhension de la distinction entre la moyenne et la médiane ne sert pas seulement à décrire correctement les données, elle est également importante pour les tests d'hypothèses

Test de stabilité moyen ou médian

Lorsque vous décidez d'utiliser une moyenne ou une médiane, l'une des questions clés est de savoir dans quelle mesure nos statistiques sont stables pour un ensemble de données donné. Le bootstrap est une option qui nous permettrait d'estimer empiriquement la distribution d'échantillonnage de la moyenne et de la médiane en procédant à un rééchantillonnage répété (avec remplacement) à partir des données d'origine.

Vous pouvez mettre en évidence les différences entre la stabilité moyenne et la stabilité médiane de manière empirique. Vous pouvez introduire quelques valeurs aberrantes dans un ensemble de données, puis réexécuter une procédure bootstrap, ce qui vous permet de montrer visuellement comment la distribution de la moyenne se déplace de manière plus spectaculaire que celle de la médiane. De plus, le bootstrap peut rendre les choses plus concrètes en montrant la taille de vos intervalles de confiance dans des scénarios réalistes. Pour en savoir plus, lisez notre tutoriel sur l'application des méthodes bootstrap.

Moyenne et médiane en tant que problèmes d'optimisation

Permettez-moi de vous donner une autre définition, tout aussi vraie : La moyenne est la valeur qui minimise la somme des écarts au carré par rapport aux données, tandis que la médiane est la valeur qui minimise la somme des écarts absolus.

Examinez cette équation :

équation de la moyenne comme somme des écarts quadratiques

Si vous prenez la dérivée de cette équation par rapport à la fixe à zéro et la résout, vous constaterez que la valeur minimisante est simplement la moyenne arithmétique. Cela est important car dans de nombreuses méthodes statistiques, comme la régression ols, nous minimisons les erreurs au carré pour des raisons de commodité mathématique et pour nous conformer aux hypothèses d'erreurs normalement distribuées.

Considérons maintenant une idée différente : Au lieu de mettre au carré chaque écart, nous mesurons l' erreurabsolue entre m et chaque point de données :

équation de la médiane comme somme des écarts absolus

Nous voulons ici trouver m qui minimise cet écart absolu total. Il s'avère (en analysant la dérivée de la perte absolue ou par un argument géométrique) que la solution est lamédiane de l'ensemble des données.

Intuitivement, si est à gauche de la médiane, il y a plus de points de données à droite qui le poussent à se déplacer. Seule la médiane est l'endroit où les forces d'attraction de la gauche et de la droite s'équilibrent, minimisant ainsi la distance absolue totale.

Complexité de calcul moyenne ou médiane

Enfin, je dirai que la moyenne est plus simple sur le plan du calcul à grande échelle. Cela signifie que vous pouvez le calculer de manière incrémentale au fur et à mesure que les données affluent, sans avoir besoin de les trier.

La médiane nécessite souvent un tri. Le tri d'un grand ensemble de données peut s'avérer coûteux en termes de calcul, en particulier lorsqu'il s'agit de millions de valeurs. Pour les très grands ensembles de données, des algorithmes approximatifs (tels que les algorithmes basés sur le flux ou le quantile) peuvent être utilisés pour estimer la médiane plus efficacement. Notre nouveau cours Concepts en informatique est une excellente ressource pour apprendre ces choses.

Prochaines étapes

Comme vous l'avez vu, la moyenne est la moyenne arithmétique d'un ensemble de données, ce qui la rend sensible aux valeurs extrêmes, tandis que la médiane représente la valeur moyenne d'un ensemble de données ordonné. Le bon choix peut faire toute la différence mais, ceci dit, dans les analyses du monde réel, il est souvent préférable d'indiquer à la fois la moyenne et la médiane, ainsi que d'autres statistiques telles que le mode, l'écart-type et les centiles. C'est la meilleure façon de procéder, car elle permet d'obtenir une vue d'ensemble.

Si vous souhaitez approfondir les concepts statistiques, plusieurs domaines méritent d'être abordés. Commencez par vous renseigner sur les variantes plus avancées de la moyenne, telles que la moyenne élaguée, la moyenne géométrique et la moyenne pondérée, qui ont chacune leur utilité.  Je suivrais également notre cours d'introduction aux statistiques qui ne fait pas appel à la technologie. 

Ensuite, pour devenir vraiment un expert, vous voudrez choisir et maîtriser un outil. Notre cursus Introduction aux statistiques en R, et le parcours professionnel Statisticien en R sont tous deux des points de départ très instructifs si vous souhaitez utiliser R, qui est un langage populaire pour la science des données et les statistiques. Si vous préférez travailler avec des feuilles de calcul et un langage de programmation comme Python, nos cours Introduction aux statistiques dans Google Sheets et Introduction aux statistiques dans Python proposent une approche pratique de l'analyse statistique à l'aide de formules et de puissantes bibliothèques.


Samuel Shaibu's photo
Author
Samuel Shaibu
LinkedIn

Professionnel expérimenté des données et écrivain passionné par l'autonomisation des experts en herbe dans le domaine des données.

Moyenne vs. FAQ sur la médiane

Quelle est la principale différence entre la moyenne et la médiane ?

La moyenne est la moyenne arithmétique de tous les points de données, tandis que la médiane est la valeur centrale lorsque les données sont triées.

Quand dois-je utiliser la médiane au lieu de la moyenne ?

Utilisez la médiane lorsque vos données sont asymétriques ou contiennent des valeurs aberrantes susceptibles de fausser la moyenne.

La moyenne et la médiane peuvent-elles être identiques ?

Oui, elles peuvent être identiques dans une distribution parfaitement symétrique, telle qu'une distribution normale.

Existe-t-il des situations où ni la moyenne ni la médiane ne suffisent ?

Oui, pour les distributions multimodales ou les ensembles de données comportant plusieurs pics, aucun des deux n'est représentatif. Dans ce cas, des mesures supplémentaires telles que le mode ou les percentiles peuvent être plus appropriées.

Pourquoi la moyenne est-elle plus affectée par les valeurs aberrantes que la médiane ?

Pour répondre à cette question, examinez le mode de calcul de la moyenne : La moyenne est la somme de toutes les valeurs des données divisée par le nombre d'observations. Une valeur aberrante (une valeur extrêmement élevée ou basse) influence fortement cette somme, éloignant la moyenne de ce qui pourrait être considéré comme une valeur typique.

Examinez maintenant la façon dont la médiane est calculée : La médiane est la valeur centrale d'un ensemble de données triées. Elle ne dépend que de l'ordre des données, et non de la taille des points individuels. Une seule valeur aberrante ne modifie pas la position de la valeur centrale dans la liste triée et n'affecte donc guère la médiane.

Comment pensez-vous choisir entre la moyenne et la médiane ?

Examinons quelques éléments clés :

  • Quand la précision est essentielle : La moyenne prend en compte tous les points de données, ce qui la rend idéale pour les calculs nécessitant toutes les valeurs (par exemple, la consommation moyenne de carburant de tous les véhicules).
  • Lorsque la robustesse est nécessaire : La médiane offre une plus grande fiabilité dans les ensembles de données asymétriques ou lorsque des valeurs extrêmes risquent de fausser la moyenne. Par exemple, la médiane est souvent préférée dans les rapports sur les revenus des ménages afin d'éviter une représentation erronée due à quelques personnes aux revenus très élevés.
Sujets

Apprenez avec DataCamp

Certification disponible

cours

Analyse de données dans Excel

3 hr
71.9K
Apprenez à analyser les données à l'aide de tableaux croisés dynamiques et de fonctions logiques intermédiaires avant de passer à des outils tels que l'analyse par simulation et les prévisions.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow