Cours
Lorsqu'il s'agit de résumer des données numériques dans R, le calcul de la moyenne est souvent la première étape. C'est d'ailleurs souvent la première chose que je fais.
Le terme "moyenne" ne fait pas nécessairement référence à la moyenne, mais dans cet article, je suppose que c'est le cas, car je vais vous montrer comment utiliser la fonction mean()
dans R, qui est l'outil standard de R à cette fin.
Que fait mean() dans R ?
La fonction mean()
calcule la moyenne arithmétique des données numériques. En d'autres termes, il additionne toutes les valeurs de votre vecteur ou de votre colonne et les divise par le nombre total de valeurs présentes. Comme mean()
fait partie de la base R, il n'est pas nécessaire de charger des paquets supplémentaires. Il est donc prêt à l'emploi dès que vous ouvrez R.
Syntaxe de la fonction mean()
Nous savons donc ce qu'accomplit mean()
, mais examinons sa syntaxe de base afin de pouvoir commencer à l'appliquer :
mean(x, na.rm = FALSE, ...)
-
x
: Un vecteur numérique ou un objet. -
na.rm
: Logique. SiTRUE
,mean()
ignorera les valeurs deNA
.
À mesure que nous avançons, sachez que la gestion des données manquantes et le travail avec différentes structures de données introduisent quelques nuances, alors restez vigilants.
Calculer la moyenne d'un vecteur numérique en R
La chose la plus élémentaire est probablement de calculer la moyenne d'un vecteur :
daily_temperatures <- c(72, 68, 75, 70, 69)
mean(daily_temperatures)
Cette ligne renvoie la moyenne de 72, 68, 75, 70 et 69, soit 70,8.
Traiter les valeurs manquantes avec na.rm dans R
Les données réelles comportent des valeurs manquantes. Si vos données contiennent des éléments manquants, mean()
renverra, par défaut, NA
. Cela peut vous surprendre si vous ne vous y attendez pas, c'est pourquoi nous prenons le temps de découvrir l'argument na.rm
.
survey_scores <- c(82, 90, NA, 88, 85)
mean(survey_scores)
L'exécution de ce programme renverra NA
. Pour demander à R d'ignorer les valeurs manquantes, il suffit de définir na.rm = TRUE
:
mean(survey_scores, na.rm = TRUE)
Maintenant, mean()
calcule la moyenne en utilisant uniquement les chiffres disponibles.
Utilisation de mean() avec des cadres de données dans R
Étendons son utilisation aux cadres de données, qui constituent une structure typique des ensembles de données dans R. Si vous souhaitez connaître la moyenne d'une colonne particulière, il vous suffit d'y faire référence à l'aide de l'opérateur $
:
student_scores <- data.frame(
student_name = c("Amir", "Bianca", "Carlos"),
math_score = c(92, 85, 88)
)
mean(student_scores$math_score)
Cette fonction calcule le score moyen de tous les élèves de votre base de données. Vous pouvez appliquer cette approche à n'importe quelle colonne numérique (mais il doit s'agir d'une colonne numérique).
Moyenne des valeurs logiques dans R
Jusqu'à présent, nous nous sommes concentrés sur les données numériques, mais vous serez peut-être surpris d'apprendre que mean()
fonctionne également avec des vecteurs logiques. Il s'agit d'un petit détail important que j'ai négligé jusqu'à présent.
Vous pouvez utiliser mean()
avec des valeurs logiques car, dans R, TRUE
est traité comme 1
et FALSE
comme 0
, de sorte que prendre la moyenne d'un vecteur logique renverra la proportion de valeurs TRUE
. Cela peut être utile si vous devez résumer des résultats binaires.
quiz_passed_flags <- c(TRUE, FALSE, TRUE, TRUE)
mean(quiz_passed_flags)
Ici, le résultat est 0,75, puisque 3 des 4 valeurs sont TRUE
.
Trouver la moyenne pondérée en R
Vous avez parfois besoin d'une moyenne pondérée, lorsque vous pensez que les différentes valeurs contribuent de manière inégale au résultat. Saisissez weighted.mean()
:
course_grades <- c(88, 92, 75)
assignment_weights <- c(0.3, 0.4, 0.3)
weighted.mean(course_grades, assignment_weights)
En utilisant weighted.mean()
, vous pouvez tenir compte de l'importance ou de la fréquence variable de vos valeurs. mean()
ne le fait pas de lui-même.
Quelques points à surveiller
J'ai mentionné la plupart de ces éléments jusqu'à présent, mais permettez-moi de noter les problèmes éventuels ou les remarques en un seul endroit :
-
Données non numériques: Si votre tableau ou votre colonne n'est pas numérique ou logique,
mean()
émettra une erreur. -
NA manipulation: Oublier d'utiliser
na.rm = TRUE
lorsque vous avez des données manquantes vous fera échouer à chaque fois. -
Vecteurs vides
mean(numeric(0))
renvoieNA
avec un avertissement.
Fonctions similaires dans R
R propose plusieurs fonctions connexes qui vous aident à explorer vos données sous différents angles. Toutes ces fonctions se trouvent également dans la base R, ce qui signifie que vous pouvez les utiliser sans importer de bibliothèques.
-
median()
: Pour la valeur médiane -
sd()
: Pour l'écart-type -
sum()
: Pour la somme des valeurs
Si vous souhaitez en savoir plus sur l'importance des différentes mesures du centre, consultez notre tutoriel très complet, Mean vs. Médiane : Savoir faire la différence.
Conclusion
Dans la plupart des tâches d'analyse de données de base, mean()
est votre première étape pour résumer les chiffres.
Continuez à apprendre grâce à nos cours, tels que Introduction à R et Exploratory Data Analysis in R.

Je suis rédacteur et éditeur dans le domaine de la science des données. Je suis particulièrement intéressé par l'algèbre linéaire, les statistiques, R, etc. Je joue également beaucoup aux échecs !