Accéder au contenu principal

Moyenne arithmétique : Un outil fondamental pour l'analyse des données

Explorez le rôle de la moyenne arithmétique dans l'analyse des données. Apprenez sa formule, ses applications, sa comparaison avec d'autres types de moyennes et d'autres mesures statistiques, et comprenez quand chacune d'entre elles est la plus utile.
Actualisé 14 févr. 2025  · 7 min de lecture

La moyenne arithmétique, communément appelée "moyenne", est souvent le point de départ des statistiques descriptives. Il fournit une mesure rapide et intuitive de la tendance centrale, qui est un élément essentiel de l'interprétation des données dans tous les domaines. Si le concept peut sembler simple, la compréhension des nuances de la moyenne arithmétique peut révéler des informations réelles sur des tendances et des modèles de données plus complexes.

Cet article offre une vue d'ensemble de la moyenne arithmétique, couvrant sa formule, ses applications et des comparaisons avec d'autres types de moyennes. Nous examinerons les raisons pour lesquelles elle est fréquemment utilisée en économie, en science des données et au-delà, tout en discutant des scénarios dans lesquels d'autres mesures pourraient être plus appropriées.

Pour ceux qui découvrent les statistiques ou qui cherchent à consolider leurs connaissances, notre cours d'introduction aux statistiques constitue une excellente base. Notre aide-mémoire sur les statistiques descriptives contient également un glossaire utile des termes relatifs à ce sujet.

Qu'est-ce que la moyenne arithmétique ?

La moyenne arithmétique est la somme de tous les nombres d'un ensemble de données divisée par le nombre de ces nombres. Ce calcul simple en fait l'une des mesures de tendance centrale les plus intuitives et les plus utilisées.

Pour illustrer ce propos, prenons un exemple simple. Supposons que nous ayons trois nombres : 5, 10 et 15. Calculer leur moyenne arithmétique :

  1. Faites la somme des chiffres : 5 + 10 + 15 = 30
  2. Comptez les chiffres : Nous avons 3 numéros
  3. Divisez la somme par le nombre : 30 ÷ 3 = 10

Ainsi, la moyenne arithmétique de 5, 10 et 15 est de 10.

Principales propriétés de la moyenne arithmétique

La moyenne arithmétique possède plusieurs propriétés importantes qui deviennent plus intrigantes après un examen plus approfondi. 

La somme des écarts est égale à zéro

Une propriété fondamentale de la moyenne arithmétique est que la somme des écarts par rapport à celle-ci est toujours égale à zéro. En d'autres termes, si vous soustrayez la valeur moyenne de chaque point de données et que vous additionnez ces différences, le résultat sera zéro. Mathématiquement, cela peut s'exprimer comme suit :

équation pour le centrage moyen

Où x représente chaque valeur de l'ensemble de données et x̄ est la moyenne arithmétique.

Sensibilité aux valeurs aberrantes

Dans les ensembles de données comportant des valeurs extrêmes, la moyenne arithmétique peut être sensiblement rapprochée de ces valeurs aberrantes, ce qui peut conduire à des interprétations trompeuses, en particulier dans le cas de distributions asymétriques. Par exemple, considérons un ensemble de données sur les salaires dans une petite entreprise : {$30,000, $35,000, $40,000, $45,000, $1,000,000}. La moyenne arithmétique (230 000 $) est nettement plus élevée que la plupart des salaires en raison de la valeur aberrante de 1 000 000 $.

Cette sensibilité rend la moyenne arithmétique moins robuste que des mesures telles que la médiane en présence de valeurs aberrantes ou pour des distributions asymétriques. Cependant, la moyenne peut également être utile pour détecter la présence de valeurs aberrantes ou pour comprendre l'impact des valeurs extrêmes sur un ensemble de données.

Impact des changements de données

La moyenne arithmétique réagit de manière prévisible aux changements dans l'ensemble des données, ce qui peut être utile dans divers scénarios analytiques :

  1. Ajout ou soustraction d'une constante: Si vous ajoutez ou soustrayez la même valeur à chaque point de données, la moyenne augmentera ou diminuera d'autant. Par exemple, si vous ajoutez 5 à chaque valeur d'un ensemble de données, la nouvelle moyenne sera supérieure de 5 à la moyenne initiale.
  2. Multiplier ou diviser par une constante: Si vous multipliez ou divisez chaque point de données par la même constante non nulle, la moyenne sera multipliée ou divisée par cette constante. Par exemple, si vous doublez chaque valeur d'un ensemble de données, la nouvelle moyenne sera le double de la moyenne initiale.

Ces propriétés rendent la moyenne arithmétique particulièrement utile dans les scénarios impliquant des changements uniformes dans un ensemble de données, comme l'ajustement de l'inflation dans les données économiques ou la mise à l'échelle des mesures dans les expériences scientifiques.

Quand utiliser la moyenne arithmétique

La moyenne arithmétique est un outil statistique polyvalent, mais elle est particulièrement efficace dans certains cas. Il convient tout d'abord de préciser que la moyenne arithmétique est particulièrement utile pour les ensembles de données impliquant des processus additifs. Par exemple, si vous calculez la température moyenne journalière, le salaire moyen dans une entreprise ou les résultats moyens à un examen, la moyenne arithmétique fournit une représentation significative de la valeur centrale.

Il convient également de préciser que la moyenne arithmétique est la plus fiable lorsque les données sont uniformément réparties et qu'il n'y a pas de valeurs extrêmes aberrantes. la plus fiable lorsque les points de données sont uniformément répartis et qu'il n'y a pas de valeurs extrêmes aberrantes. Examinons quelques exemples spécifiques à l'industrie :

  • Finances : Dans le domaine financier, les entreprises s'appuient sur la moyenne arithmétique pour obtenir des informations et fixer des repères. Par exemple, les entreprises l'utilisent pour déterminer les salaires moyens, les dépenses mensuelles et les bénéfices trimestriels.
  • L'économie : Les économistes utilisent la moyenne arithmétique pour analyser les tendances de la consommation et la stabilité des prix. Parmi les principales applications, citons le calcul de la consommation moyenne des ménages et l'élaboration d'indices tels que l'indice des prix à la consommation (IPC) pour suivre l'évolution de l'inflation dans le temps.
  • Soins de santé et recherche médicale : Dans le domaine de la santé, la moyenne arithmétique joue un rôle essentiel dans l'évaluation des traitements et l'étude des tendances en matière de santé. Par exemple, les chercheurs calculent les délais de guérison moyens et l'efficacité des médicaments, tandis que les épidémiologistes évaluent les taux d'infection moyens et les délais de survie.

Comment calculer la moyenne arithmétique ?

Nous avons déjà abordé le concept de base, mais nous allons voir comment calculer la moyenne arithmétique à l'aide d'outils tels que R, Python et Excel, ce qui est pratiquement indispensable. comme R, Python et Excel, ce qui est pratiquement nécessaire pour les grands ensembles de données.

Formule de la moyenne arithmétique

La formule de la moyenne arithmétique est la suivante :

formule de la moyenne arithmétique

Où x̄ est la moyenne arithmétique, Σx est la somme de toutes les valeurs et n est le nombre de valeurs.

Moyenne arithmétique dans Excel, Python et R

Pour les grands ensembles de données, les outils logiciels facilitent grandement les calculs. Voici comment calculer la moyenne arithmétique dans Excel, Python et R. 

Excel

Dans Excel, vous pouvez utiliser la fonction AVERAGE():

  1. Saisissez vos données dans une colonne ou une ligne.

  2. Dans une nouvelle cellule, tapez =AVERAGE().

  3. Sélectionnez la plage de cellules contenant vos données.

  4. Fermez la parenthèse et appuyez sur Entrez dans le menu.

Par exemple, si vos données se trouvent dans les cellules A1:A10, vous utiliserez : =AVERAGE(A1:A10).

Python

Le module de statistiques de Python propose une fonction mean():

from statistics import mean

data = [5, 10, 15, 20, 25]

result = mean(data)
print(result)  # Output: 15

Pour les grands ensembles de données, vous préférerez peut-être la fonction mean() de NumPy, plus efficace :

import numpy as np

data = np.array([5, 10, 15])

result = np.mean(data)
print(result)  # Output: 10.0

R

Dans R, vous pouvez utiliser la fonction mean() intégrée à la base R :

data <- c(5, 10, 15)

result <- mean(data)
print(result)  # Output: [1] 10

Ces outils rationalisent le processus de calcul de la moyenne arithmétique pour des ensembles de données de toute taille, vous permettant de vous concentrer sur l'interprétation des données plutôt que sur le calcul manuel.

Moyenne arithmétique en science des données, apprentissage automatique et statistiques

Les applications de la moyenne arithmétique en science des données et en apprentissage automatique vont du prétraitement des données à l'évaluation des modèles. Examinons quelques domaines clés où la moyenne arithmétique est particulièrement importante. 

Mise à l'échelle des fonctionnalités

L'une des applications les plus courantes de la moyenne arithmétique dans le prétraitement des données est la mise à l'échelle des caractéristiques, en particulier le centrage moyen :

  • Centrage moyen: Ce processus consiste à soustraire la moyenne arithmétique de chaque point de données d'une caractéristique. Le résultat est un ensemble de données centrées où la moyenne de chaque caractéristique est égale à zéro. Elle peut être représentée comme suit : x_centered = x - x̄ où x est la valeur originale et x̄ est la moyenne arithmétique de la caractéristique.

  • Normalisation: Souvent utilisée en conjonction avec le centrage sur la moyenne, la normalisation consiste à diviser par l'écart type après avoir soustrait la moyenne : x_standardized = (x - x̄) / σ où σ est l'écart-type de la caractéristique.

Ces techniques permettent de normaliser l'échelle des caractéristiques, ce qui est particulièrement important pour de nombreux algorithmes d'apprentissage automatique. Si vous souhaitez en savoir plus sur la différence entre normalisation et standardisation, vous pouvez consulter le tutoriel complet.

Évaluation du modèle

La moyenne arithmétique est fondamentale dans diverses mesures d'évaluation de modèles :

  • Erreur quadratique moyenne (EQM): Cette mesure courante pour les problèmes de régression calcule la moyenne des différences au carré entre les valeurs prédites et les valeurs réelles.
  • Erreur absolue moyenne (MAE): Similaire à l'EQM, mais utilise la différence absolue au lieu de la différence au carré.
  • Précision: Dans les problèmes de classification, la précision est souvent indiquée comme la moyenne des prédictions correctes sur l'ensemble des échantillons.

Statistiques et tests d'hypothèses

En analyse statistique, la moyenne arithmétique est souvent utilisée dans les tests d'hypothèse. Par exemple :

  • Tests T : La moyenne arithmétique est essentielle dans les tests t, qui comparent les moyennes de deux groupes pour déterminer si elles sont statistiquement différentes. En comparant les moyennes des échantillons, les tests t permettent de valider des hypothèses sur les caractéristiques de la population.
  • Intervalles de confiance: La moyenne arithmétique est utilisée pour calculer les intervalles de confiance, qui indiquent la fiabilité de la moyenne estimée. Cela permet de savoir dans quelle mesure la moyenne de l'échantillon est représentative de l'ensemble de la population.

Autres applications

  • Méthodes d'ensemble: De nombreuses techniques d'ensemble, telles que le bagging et le boosting, utilisent la moyenne arithmétique pour combiner les prédictions de plusieurs modèles.
  • Descente en gradient: La moyenne arithmétique est utilisée pour calculer le gradient moyen des mini-lots dans la descente de gradient stochastique.
  • Détection des anomalies: Les écarts par rapport à la moyenne peuvent être utilisés pour identifier les valeurs aberrantes ou les anomalies dans les ensembles de données. Par exemple, une heuristique courante consiste à utiliser trois écarts types comme seuil, de sorte que tout point de données s'écartant de trois écarts types ou plus de la moyenne arithmétique soit considéré comme une valeur aberrante.
  • Réduction de la dimensionnalité: Des techniques telles que l'analyse en composantes principales (ACP) utilisent la moyenne arithmétique dans leurs calculs pour centrer les données avant de calculer la matrice de covariance.
  • Réseaux neuronaux: Dans l'algorithme de rétropropagation, la moyenne arithmétique est utilisée pour calculer l'erreur moyenne sur l'ensemble des exemples d'apprentissage.
  • Validation croisée: Lors de la validation croisée k-fold, la moyenne arithmétique des mesures de performance sur l'ensemble des plis est généralement présentée comme l'estimation de la performance globale.

Comme vous le remarquez peut-être, la moyenne arithmétique est importante à la fois pour l'interprétation des résultats des données et pour l'étape de prétraitement nécessaire à la performance optimale du modèle. Pour approfondir votre compréhension de ces concepts et de leurs applications pratiques, envisagez de suivre notre cursus professionnel Machine Learning Scientist in Python, qui couvre ces sujets de manière plus approfondie.

Devenez un scientifique ML

Améliorez vos connaissances en Python pour devenir un scientifique spécialisé dans l'apprentissage automatique.
Commencez à apprendre gratuitement

Moyenne arithmétique vs. Autres moyens

Bien que la moyenne arithmétique soit largement utilisée, elle n'est pas toujours la mesure la plus appropriée de la tendance centrale. Différents types de moyennes, comme la moyenne géométrique et la moyenne harmonique, peuvent fournir des analyses plus précises dans des situations spécifiques. Comprendre quand utiliser chaque type de moyenne peut conduire à des résultats plus significatifs, en particulier lorsqu'il s'agit de certains types de données ou de besoins analytiques spécifiques. Voyons brièvement comment la moyenne arithmétique se compare à ces autres types de moyennes et quand chacune d'entre elles est la plus appropriée.

Moyenne arithmétique et moyenne géométrique

La moyenne arithmétique convient mieux aux processus additifs, tandis que la moyenne géométrique est plus adaptée aux processus multiplicatifs.

  • Moyenne arithmétique: (a + b) / 2 
  • Moyenne géométrique: √(a * b)

Prenons l'exemple d'une action qui augmente de 50 % une année et chute de 50 % l'année suivante :

  • Moyenne arithmétique: (50% + (-50%)) / 2 = 0% 
  • Moyenne géométrique: √(1.5 * 0.5) - 1 ≈ -13.4%

La moyenne géométrique donne une représentation plus précise du taux de croissance moyen dans ce cas, car elle tient compte de l'effet de composition. Par conséquent, utilisez la moyenne arithmétique lorsque vous additionnez des quantités (par exemple, températures journalières, résultats de tests) et utilisez la moyenne géométrique pour multiplier des quantités (par exemple, taux de croissance, rendement des investissements).

Moyenne arithmétique et moyenne harmonique

La moyenne harmonique est utilisée lorsque des valeurs plus petites doivent être mises en évidence, en particulier dans les taux ou les ratios.

  • Moyenne arithmétique: (a + b) / 2 
  • Moyenne harmonique: 2 / (1/a + 1/b)

Par exemple, calculez la vitesse moyenne sur deux distances égales. Distance 1 = 60 mph, et distance 2 = 40 mph.istance 2 = 40 mph.

  • Moyenne arithmétique: (60 + 40) / 2 = 50 mph 
  • Moyenne harmonique: 2 / (1/60 + 1/40) ≈ 48 mph

La moyenne harmonique donne la vitesse moyenne correcte, car elle tient compte du fait que l'on passe plus de temps à la vitesse la plus lente. Par conséquent, utilisez lamoyenne arithmétique lorsque les valeurs représentent des quantités, et la moyenne harmonique lorsque les valeurs représentent des taux ou des vitesses.

Considérations clés pour l'utilisation de la moyenne arithmétique

Bien que la moyenne arithmétique soit un outil statistique largement utilisé, il est important de comprendre ses forces et ses limites. Voici quelques considérations clés à garder à l'esprit lors de l'utilisation de la moyenne arithmétique.

Points forts

  1. Simplicité: La moyenne arithmétique est facile à calculer et à comprendre, ce qui la rend accessible à un large éventail d'utilisateurs.
  2. Idéal pour les données uniformément réparties: Il fournit une représentation précise de la tendance centrale pour des données distribuées de manière symétrique.
  3. Incorpore tous les points de données: Contrairement à la médiane ou au mode, la moyenne arithmétique prend en compte chaque valeur de l'ensemble des données.

Limites

  1. Sensibilité aux valeurs aberrantes: Les valeurs extrêmes peuvent fausser de manière significative la moyenne arithmétique, ce qui peut conduire à une représentation erronée de la tendance centrale des données.
  2. Ne convient pas aux données non numériques: La moyenne arithmétique ne peut pas être calculée pour des données catégorielles ou non numériques.
  3. Peut ne pas représenter la valeur "typique": Dans les distributions asymétriques, la moyenne arithmétique peut ne pas refléter la valeur la plus courante ou la plus centrale de l'ensemble de données.

Moyenne arithmétique vs. médiane

Considérons un ensemble de données représentant les salaires annuels (en milliers de dollars) des employés d'une petite entreprise :

{30, 35, 40, 45, 50, 200}
  • Moyenne arithmétique: (30 + 35 + 40 + 45 + 50 + 200) / 6 ≈ 66.67 
  • Médiane: 42.5 
  • Mode: Pas de mode clair (toutes les valeurs se produisent une fois)

Dans ce cas, l'unique salaire élevé de 200 000 dollars tire la moyenne arithmétique vers le haut, ce qui la rend beaucoup plus élevée que la plupart des salaires de l'ensemble des données. La médiane de 42 500 $ pourrait être une mesure plus représentative du salaire "typique" dans cette entreprise.

Quand faut-il être prudent ?

  1. Distributions asymétriques: Lorsque les données ne sont pas distribuées de manière symétrique, envisagez d'utiliser la médiane à la place.
  2. Présence de valeurs aberrantes: Si votre jeu de données contient des valeurs extrêmes, examinez leur impact et envisagez d'utiliser des mesures robustes telles que la médiane ou la moyenne tronquée.
  3. Petites tailles d'échantillons: Dans le cas de petits ensembles de données, une seule valeur inhabituelle peut avoir un impact important sur la moyenne arithmétique.
  4. Données catégorielles ou ordinales: La moyenne arithmétique n'est pas significative pour les données non numériques ou les données dont l'échelle n'est pas linéaire.

En gardant ces considérations à l'esprit, vous pouvez décider en connaissance de cause quand utiliser la moyenne arithmétique et quand d'autres mesures de tendance centrale pourraient être plus appropriées pour votre analyse.

Conclusion : L'importance de la moyenne arithmétique

La moyenne arithmétique, comme nous l'avons vu, est une mesure statistique polyvalente dont les applications sont très variées. Sa nature simple en fait un point de départ accessible pour l'interprétation des données, fournissant une valeur représentative du centre d'un ensemble de données. De l'analyse financière à la recherche scientifique, la moyenne arithmétique est couramment appliquée dans différents domaines.

Il est essentiel de savoir quand appliquer la moyenne arithmétique et quand envisager d'autres solutions pour interpréter correctement les données. Nous avons discuté de sa sensibilité aux valeurs aberrantes et aux situations dans lesquelles d'autres mesures pourraient être plus appropriées. 

La moyenne arithmétique débloque les récits au sein des ensembles de données, révélant des tendances et des modèles qui pourraient autrement rester cachés. En appliquant cet outil statistique à votre travail - qu'il s'agisse d'analyse de marché, de recherche scientifique ou de tout autre domaine riche en données - vous découvrirez des histoires passionnantes. Chaque calcul de la moyenne ouvre une fenêtre sur la structure sous-jacente de vos données, invitant à une exploration plus approfondie.

Pour vous aider dans votre parcours data, DataCamp propose de nombreuses formations pour tous les niveaux. Notre cours d'introduction aux statistiques explore les statistiques descriptives et inférentielles, y compris les mesures de tendance centrale et de dispersion. parcours complet de scientifique en apprentissage automatique en Python vous aidera à tout comprendre, de l'apprentissage supervisé aux classificateurs linéaires.

Devenez un scientifique ML

Maîtriser Python pour devenir un scientifique de l'apprentissage automatique

Vinod Chugani's photo
Author
Vinod Chugani
LinkedIn

En tant que professionnel de la science des données, de l'apprentissage automatique et de l'IA générative, Vinod se consacre au partage des connaissances et à l'autonomisation des scientifiques des données en herbe pour qu'ils réussissent dans ce domaine dynamique.

Moyenne arithmétique FAQ

Quelle est la différence entre la moyenne arithmétique et la médiane ?

La moyenne arithmétique est la somme de toutes les valeurs divisée par le nombre de valeurs, tandis que la médiane est la valeur centrale lorsque les données sont ordonnées. La médiane est moins affectée par les valeurs aberrantes, ce qui la rend plus adaptée aux distributions asymétriques.

La moyenne arithmétique peut-elle être négative ?

Oui, la moyenne arithmétique peut être négative si la somme des valeurs est négative. Cela se produit souvent lorsqu'il s'agit de nombres négatifs, tels que des changements de température ou des pertes financières.

Comment la taille de l'échantillon affecte-t-elle la fiabilité de la moyenne arithmétique ?

Des échantillons de plus grande taille conduisent généralement à des moyennes arithmétiques plus fiables. Plus la taille de l'échantillon augmente, moins la moyenne risque d'être influencée par des valeurs extrêmes ou des erreurs d'échantillonnage.

La moyenne arithmétique est-elle toujours la meilleure mesure de la tendance centrale ?

Non, la moyenne arithmétique n'est pas toujours le meilleur choix. Pour les distributions asymétriques ou les données comportant des valeurs aberrantes, la médiane ou le mode peuvent être plus représentatifs de la valeur type.

Quel est le lien entre la moyenne arithmétique et le concept de valeur attendue en probabilité ?

La moyenne arithmétique est étroitement liée à la valeur attendue dans la théorie des probabilités. En fait, pour une distribution de probabilité discrète, la valeur attendue est calculée comme la somme de chaque résultat possible multipliée par sa probabilité, ce qui est essentiellement une moyenne arithmétique pondérée.

La moyenne arithmétique peut-elle être utilisée avec des données catégorielles ?

Non, la moyenne arithmétique n'est pas adaptée aux données catégorielles. Il nécessite des valeurs numériques pour effectuer des calculs et fournir des résultats significatifs.

Sujets

Apprenez avec DataCamp

cours

Introduction to Data Visualization with ggplot2

4 hr
155.1K
Learn to produce meaningful and beautiful data visualizations with ggplot2 by understanding the grammar of graphics.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow
Apparenté

blog

2022-2023 Rapport annuel DataCamp Classrooms

À l'aube de la nouvelle année scolaire, DataCamp Classrooms est plus motivé que jamais pour démocratiser l'apprentissage des données, avec plus de 7 650 nouveaux Classrooms ajoutés au cours des 12 derniers mois.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 min

blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates a offert plus de 20k bourses d'études à nos partenaires à but non lucratif au deuxième trimestre 2023. Découvrez comment des apprenants défavorisés et assidus ont transformé ces opportunités en réussites professionnelles qui ont changé leur vie.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

blog

Les 32 meilleures questions d'entretien sur AWS et leurs réponses pour 2024

Un guide complet pour explorer les questions d'entretien AWS de base, intermédiaires et avancées, ainsi que des questions basées sur des situations réelles. Il couvre tous les domaines, garantissant ainsi une stratégie de préparation bien équilibrée.
Zoumana Keita 's photo

Zoumana Keita

30 min

blog

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Vous êtes actuellement à la recherche d'un emploi qui utilise Snowflake ? Préparez-vous à répondre à ces 20 questions d'entretien sur le flocon de neige pour décrocher le poste !
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

20 min

blog

Célébration de Saghar Hazinyar : Une boursière de DataCamp Donates et une diplômée de Code to Inspire

Découvrez le parcours inspirant de Saghar Hazinyar, diplômée de Code to Inspire, qui a surmonté les défis en Afghanistan et s'est épanouie grâce à une bourse de DataCamp Donates.
Fereshteh Forough's photo

Fereshteh Forough

4 min

blog

Nous avons fait don de bourses DataCamp Premium à un million de personnes, et ce n'est pas fini.

Réparties entre nos deux programmes d'impact social, DataCamp Classrooms et #DCDonates, les bourses offrent un accès illimité à tout ce que DataCamp Premium a à offrir.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Voir plusVoir plus