cours
Un guide complet pour calculer les distributions de fréquence dans Excel
Une distribution de fréquence, souvent visualisée par un histogramme de fréquence, organise les points de données dans des plages spécifiées, ce qui permet de comprendre facilement la fréquence d'apparition de chaque valeur. Cette technique est essentielle pour identifier les modèles, les tendances et les valeurs aberrantes potentielles, ce qui permet de mieux comprendre les données.
Ce didacticiel explore les distributions de fréquence, leur importance dans l'analyse des données et la manière de les créer. Avec Microsoft Excel, nous allons suivre un guide étape par étape pour générer une distribution de fréquence pour un ensemble de données du monde réel et interpréter les résultats pour obtenir des informations significatives.
La réponse rapide : Comment créer une distribution de fréquence dans Excel
Pour créer une distribution de fréquence dans Excel, utilisez la fonction FREQUENCY()
. La fonction calcule la fréquence à laquelle les valeurs se produisent dans des plages spécifiées, appelées "bins".
Procédez comme suit :
- Commencez par saisir vos données dans une colonne.
- Définissez vos bacs dans une autre colonne.
- Dans une nouvelle cellule, tapez
=FREQUENCY(data_array, bins_array)
, oùdata_array
est la plage de vos cellules de données etbins_array
est la plage de vos cellules. - Exemple :
=FREQUENCY(A2:A16, B2:B6)
. - Appuyez sur Entrée pour obtenir la distribution de fréquence.
Calcul de la distribution des fréquences avec la fonction FREQUENCY()
. Image par l'auteur
Pourquoi les distributions de fréquences sont-elles importantes ?
Une distribution de fréquence est une technique statistique qui organise les données en catégories ou en intervalles. En général, le résultat est un tableau affichant le nombre d'observations pour un intervalle donné des données sous-jacentes.
Les distributions de fréquences sont utiles à plusieurs égards :
- Résumé des données : Les distributions de fréquence permettent de résumer de grands ensembles de données de manière organisée et compréhensible. Cela nous permet d'avoir un aperçu rapide de la distribution des valeurs.
- Représentation visuelle : La distribution des fréquences peut être facilement représentée sous forme d'histogrammes et de diagrammes circulaires, ce qui permet de comprendre visuellement les données.
- Identifier les modèles, les tendances et les valeurs aberrantes : Ils révèlent des schémas dans les données, tels que des pics, des grappes et des valeurs aberrantes. Il peut être utilisé dans le cadre d'une analyse statistique afin d'explorer plus avant la forme et les caractéristiques des données.
- Comparaison des données : La distribution des valeurs vous permet de comparer différents ensembles de données et de comprendre les similitudes et les différences.
- Communication : Les distributions de fréquences peuvent être utilisées comme un outil simple et efficace pour communiquer les informations tirées des données à un public plus large, y compris aux décideurs.
- Prise de décision : Une bonne compréhension de la distribution et de ses schémas facilite la prise de décision. Par exemple, la connaissance de l'offre de produits par saison vous aidera à décider du moment où vous ferez vos achats.
Maintenant que nous avons compris les distributions de fréquences et leur importance, examinons plusieurs méthodes pour les créer dans Microsoft Excel.
Méthodes pour créer une distribution de fréquences dans Excel
Imaginez que vous travaillez pour une société de cosmétiques qui propose des produits destinés à un large éventail de groupes d'âge. Aujourd'hui, ils cherchent à se spécialiser dans quelques produits destinés à un groupe d'âge spécifique qui compte plus de clients. Pour comprendre cela, vous devez analyser les clients par groupe d'âge.
Pour y remédier, ils ont prélevé des données sur l'âge des clients dans la base de données des clients. Le tableau suivant vous a été remis :
Ensemble de données sur l'âge des clients. Image par l'auteur
Dans le cadre de l'analyse de la demande par tranche d'âge des clients, vous vous êtes rendu compte que le calcul de la distribution de fréquence constituait un bon point de départ. Voici quatre méthodes pour calculer la distribution de fréquences à l'aide de Microsoft Excel.
Méthode 1 : L'utilisation de la FREQUENCY()
function
La fonction FREQUENCY()
calcule la distribution de fréquence de données données et renvoie une liste indiquant la fréquence des valeurs à des intervalles donnés.
Voici la syntaxe de la fonction FREQUENCY()
:
=FREQUENCY(data_array, bins_array)
La fonction prend deux paramètres :
data_array
: Un tableau ou une référence à un ensemble de valeurs pour lesquelles vous voulez compter les fréquences. Si le tableau de données ne contient aucune valeur,FREQUENCY()
renvoie un tableau de zéros.bins_array
: Un tableau ou une référence à des intervalles dans lesquels vous souhaitez regrouper les valeurs de data_array. Si bins_array ne contient aucune valeur,FREQUENCY()
renvoie le nombre d'éléments dans data_array.
Ces deux paramètres sont nécessaires pour calculer la distribution de fréquence. Vous ne disposez que de l'adresse data_array
, qui est l'âge du client. Par conséquent, vous devez définir vous-même le site bins_array
.
Pour ce cas d'utilisation, nous pouvons définir les tranches comme suit : <20, 20-30, 30-40, 40-50, 50-60 et >60. Remplissez la colonne B de votre feuille de calcul, comme indiqué ci-dessous.
La La formule de distribution des fréquences à l'aide de la fonction FREQUENCY()
. Image par l'auteur
Après avoir préparé les sites data_array
et bins_array
, écrivez la formule pour calculer la distribution de fréquence dans la cellule C2.
=FREQUENCY(A2:A16, B2:B6)
Le résultat de l'exécution de la formule ci-dessus sera le suivant :
Distribution de fréquences à l'aide de la fonction FREQUENCY()
. Image par l'auteur
En examinant la distribution de fréquence ci-dessus, nous constatons que :
- L'entreprise n'a qu'un seul client âgé de moins de 20 ans.
- Cinq clients sont âgés de 20 à 30 ans et de 30 à 40 ans.
- Trois clients sont âgés de 40 à 50 ans.
- Un client est âgé de 50 à 60 ans.
- Aucun client n'a plus de 60 ans.
D'après la distribution des fréquences, vous comprenez que la plupart des clients ont entre 20 et 40 ans.
Méthode 2 : Utilisation des tableaux croisés dynamiques
Les tableaux croisés dynamiques constituent un moyen simple et rapide de résumer et d'analyser de grandes quantités de données. Les tableaux croisés dynamiques offrent des fonctionnalités telles que l'agrégation, le regroupement et le découpage en tranches, pour n'en citer que quelques-unes.
Pour calculer la distribution de fréquence à l'aide des tableaux croisés dynamiques, cliquez sur Insérer dans le menu et sélectionnez Tableau croisé dynamique.
Insert PivotTable. Image par l'auteur
Indiquez la plage de données pour laquelle vous souhaitez créer le tableau croisé dynamique. Dans votre cas, la plage de données est A2:A16
. Sélectionnez Nouvelle feuille de calcul pour obtenir le résultat dans une nouvelle feuille.
Après avoir spécifié la plage de données, appuyez sur OK.
dynamiqueSpécification des paramètres du tableau croisé dynamique. Image par l'auteur
En cliquant sur OK, vous verrez apparaître le volet Champs du tableau croisé dynamique sur le côté droit de la fenêtre. Pour créer un tableau croisé dynamique pour l'âge du client, faites glisser et déposez l'âge du client sous Lignes et valeurs.
Personnaliser le tableau croisé dynamique. Image par l'auteur
Après avoir glissé et déposé le champ Âge du client, le volet de droite se présente comme suit :
Table à pivot personnalisée. Image par l'auteur
Le tableau croisé dynamique généré se présente comme suit :
Tableau croisé des âges des clients. Image par l'auteur
Si vous observez le tableau croisé dynamique ci-dessus, vous constaterez qu'il est différent de ce que vous recherchez. Le cas d'utilisation consiste à analyser le nombre de clients par groupe d'âge.
Il nous manque deux choses :
- La colonne Âge du client n'est pas groupée.
- Nous nous intéressons au nombre de clients dans chaque groupe, et non à la somme de leur âge.
Réparons-le.
Cliquez avec le bouton droit de la souris sur une valeur de ligne et sélectionnez Grouper.
Regroupez les valeurs des lignes dans le tableau croisé dynamique. Image par l'auteur
Complétez les paramètres de regroupement. Dans notre exemple, nous avons choisi les bacs 20, 30, 40, 50 et 60. Par conséquent, nous commençons à 20
et nous terminons à 60
avec un incrément de 10
.
Regroupement des tableaux croisés dynamiques. Image par l'auteur
Après le regroupement, le résultat sera le suivant :
Tableau croisé dynamique groupé. Image par l'auteur
Ensuite, nous devons remplacer Sum par Count. Pour modifier cela, cliquez avec le bouton droit de la souris sur la cellule Somme des âges des clients et sélectionnez Paramètres du champ de valeur.
Paramètres dynamiqueParamètres des champs de valeurs dans le tableau croisé dynamique. Image par l'auteur
Dans la boîte de dialogue contextuelle, sous Récapituler les valeurs par, remplacez Somme par Compte et appuyez sur OK.
Paramètres du champ de valeurs. Image par l'auteur
Une fois que vous l'aurez mis à jour, le résultat sera le suivant :
Distribution de fréquences à l'aide d'un tableau croisé dynamique. Image par l'auteur
Vous recherchiez ce résultat - vous avez obtenu la distribution de fréquence par âge du client.
Méthode 3 : Utilisation du Data Analysis ToolPak
Le Data Analysis Toolpak est un complément pour Microsoft Excel qui permet de calculer des mesures couramment utilisées dans les tâches d'analyse de données.
Ce complément n'est pas activé par défaut. Pour cela, vérifiez en haut à droite l'icône Analyse de données sous l'onglet Données de votre classeur Excel.
Data Analysis ToolPak dans Excel. Image par l'auteur
Si vous ne voyez pas l'icône ci-dessus, c'est que le complément n'a pas été activé. Pour l'activer, cliquez sur Fichier dans le menu et sélectionnez Options.
Sélection d'options à partir de l'onglet Fichier. Image par l'auteur
Sélectionnez Compléments dans la boîte de dialogue Options Excel.
Sélectionnez les compléments dans la boîte de dialogue Options Excel. Image par l'auteur
Ensuite, sélectionnez les compléments Excel dans la zone Gérer en bas, puis cliquez sur Aller.
Gestion des compléments Excel. Image par l'auteur
Cochez Analysis ToolPak lorsque la boîte de dialogue Add-Ins s'ouvre et cliquez sur OK.
Activation du Data Analysis ToolPak. Image par l'auteur
L'icône Analyse de données sera désormais visible sous l'onglet Données. Il n'est pas nécessaire de répéter cette opération, car l'activation du complément est une tâche unique.
Sélectionnez la plage de données, y compris l'en-tête de colonne, pour calculer la distribution de fréquence. Cliquez sur l'icône Analyse des données. Une boîte de dialogue s'ouvre. Choisissez l'histogramme et cliquez sur OK.
Analysis ToolpakInvitation du complément Data Analysis Toolpak. Image par l'auteur
Une boîte de dialogue s'affiche, comme indiqué ci-dessous.
l'histogrammePersonnaliser les paramètres de l'histogramme. Image par l'auteur
Remplissez l'intervalle d'entrée avec l'intervalle de données de l'âge du client et l'intervalle d'emplacement avec les emplacements.
- Les données relatives à l'âge du client se trouvent dans les cellules
A2:A16
. - Vous avez les données Bins dans les cellules
B2:B6
. - Pour les options de sortie, sélectionnez Nouvelle feuille de calcul pour obtenir la sortie dans une nouvelle feuille de calcul.
- Cliquez sur OK.
Vous verrez la distribution de fréquences dans une nouvelle feuille de calcul comme celle ci-dessous.
Distribution de fréquences à l'aide de Data Analysis Toolpak. Image par l'auteur
Voilà ! Vous disposez de la distribution de fréquence par groupe d'âge créée à l'aide du Data Analysis ToolPak.
Méthode 4 : Utilisation des fonctions COUNTIF() et COUNTIFS()
La fonction COUNTIF()
compte le nombre de fois qu'un seul critère est rempli. La fonction COUNTIFS()
compte le nombre de cellules qui répondent à plusieurs critères.
Pour calculer la fréquence pour chaque groupe d'âge, introduisez les formules ci-dessous dans les cellules D2
à D7
, respectivement.
# In cell D2
=COUNTIF(A2:A16, "<=20")
# In cell D3
=COUNTIFS(A2:A16, ">20", A2:A16, "<=30")
# In cell D4
=COUNTIFS(A2:A16, ">30", A2:A16, "<=40")
# In cell D5
=COUNTIFS(A2:A16, ">40", A2:A16, "<=50")
# In cell D6
=COUNTIFS(A2:A16, ">50", A2:A16, "<=60")
# In cell D7
=COUNTIF(A2:A16, ">60")
Voici un exemple de la façon d'ajouter la formule aux cellules. Une fois que vous les aurez tous calculés, vous obtiendrez le résultat suivant :
Calcul de la distribution de fréquence à l'aide de la fonction COUNTIF()
. Image par l'auteur
Par rapport aux autres méthodes examinées, l'une des limites de l'utilisation de COUNTIF()
est qu'elle nécessite des plages de cellules prédéfinies dans l'équation.
La méthode la plus courante pour créer un tableau de distribution de fréquences consiste à utiliser la fonction FREQUENCY()
.
Toutefois, vous pouvez utiliser la méthode qui vous convient le mieux. Par exemple, l'utilisation du Data Analysis Toolpak peut s'avérer plus appropriée si vous calculez également d'autres mesures statistiques telles que l'asymétrie, l' ANOVA ou la matrice de corrélation dans le cadre de l'analyse.
Réflexions finales
Dans ce tutoriel, nous avons appris l'importance de la distribution de fréquence et comment la calculer à l'aide de Microsoft Excel. En travaillant sur un exemple concret, nous avons appris à utiliser la fonction FREQUENCY()
et à interpréter la distribution résultante pour mieux comprendre nos données. Nous avons exploré trois méthodes alternatives pour calculer la distribution de fréquence.
L'apprentissage ne doit pas s'arrêter là, et nous vous encourageons à continuer à apprendre et à développer vos compétences Excel. Envisagez de suivre le cursus Excel Fundamentals pour acquérir les bases d'Excel. Les cours Préparation des données dans Excel et Visualisation des données dans Excel peuvent vous aider à approfondir vos connaissances sur ces sujets. Consultez l' aide-mémoire sur la manipulation des données dans Excel, qui peut vous servir de référence rapide.
Bon apprentissage !!!
En tant que data scientist senior, je conçois, développe et déploie des solutions d'apprentissage automatique à grande échelle pour aider les entreprises à prendre de meilleures décisions basées sur les données. En tant que rédacteur spécialisé dans la science des données, je partage mes apprentissages, mes conseils de carrière et des tutoriels pratiques approfondis.
Questions fréquemment posées
Qu'est-ce qu'un bac dans une distribution de fréquences ?
Les intervalles sont des plages qui regroupent les points de données dans une distribution de fréquence. Chaque case représente une plage de valeurs et la fréquence est le nombre de points de données dans chaque case.
Comment créer des cellules personnalisées pour ma distribution de fréquences ?
La création de bacs personnalisés diffère selon la méthode utilisée. Vous pouvez notamment utiliser la fonction FREQUENCY()
, les tableaux croisés dynamiques, le Data Analysis Toolpak et la fonction COUNTIF()
.
Quelle est la différence entre COUNTIF() et COUNTIFS() ?
COUNTIF()
compte le nombre d'occurrences qui remplissent une seule condition. COUNTIFS()
compte le nombre d'occurrences qui remplissent plusieurs conditions.
Comment créer une distribution de fréquences avec des tailles de cases inégales ?
Modifiez les valeurs des bacs. Par exemple, si vous aviez 20, 30, 40, 50 et 60 comme cases, vous pouvez les remplacer par 20, 30, 50 et 60, la fourchette de 30 à 50 rendant les cases de taille inégale. Ensuite, la fonction FREQUENCY() est utilisée comme d'habitude pour calculer la distribution de fréquence.
Quelles sont les limites de l'utilisation de COUNTIF() dans le calcul de la distribution des fréquences ?
COUNTIF()
nécessite des plages de bacs prédéfinies. La modification de la plage d'emplacements nécessite une mise à jour manuelle de chaque formule COUNTIF()
.
Apprenez avec DataCamp
cours
Introduction aux statistiques
cursus