Cours
Examiner des données brutes peut s'apparenter à tenter de comprendre une photo en analysant seulement quelques pixels à la fois. La représentation graphique de vos données vous permet de prendre du recul et d'avoir une vue d'ensemble en un seul coup d'œil. Les visualisations constituent également un outil marketing simple pour présenter vos données aux parties prenantes. Ils permettent aux personnes de percevoir des modèles, des relations et des informations pertinentes en un seul coup d'œil. C'est l'un des moyens les plus rapides de rendre les données significatives.
Dans ce guide, nous examinerons les types de graphiques courants et les situations dans lesquelles chacun d'entre eux est utilisé. Nous examinerons ce qui distingue une bonne visualisation d'une visualisation trompeuse et nous étudierons plusieurs exemples emblématiques qui ont façonné ce domaine. À la fin, vous aurez une meilleure idée de la manière de créer et d'évaluer des visualisations de données qui racontent une histoire claire et honnête.
Si vous débutez, Introduction à la visualisation de données avec Julia vous propose une approche conviviale pour acquérir les bases des graphiques et de la narration de données.
Types de visualisations de données
Les visualisations de données peuvent être classées en fonction du nombre de variables impliquées. Examinez-vous attentivement la distribution d'une seule variable ? Souhaitez-vous décrire la relation entre deux personnes ? Ou êtes-vous intéressé par les interactions entre plusieurs éléments ? Examinons chacun de ces scénarios et les options de graphique disponibles pour chacun d'entre eux.
Pour vous aider à distinguer tous ces types de graphiques, je vous recommande ce guide pratique fiche de visualisation des données. Il fournit une référence rapide afin que vous puissiez déterminer quel graphique convient le mieux à différents types de données. Nous vous recommandons également de consulter Techniques de visualisation des données pour chaque cas d'utilisation.
Visualisations univariées
Commençons par le cas le plus simple : vous n'avez qu'une seule variable qui vous intéresse. Les visualisations univariées vous permettent de vous concentrer sur une seule variable. Ils vous permettent de comprendre sa distribution, sa fréquence ou sa composition en un seul coup d'œil. Examinons quelques-uns des types les plus courants.
Graphique à barres
Un histogramme permet de comparer différentes catégories d'informations. Chaque catégorie correspond à une barre distincte, et le nombre correspondant à cette catégorie est représenté par la hauteur de la barre.
Parfois, vous pouvez observer des graphiques à barres sur le côté, avec des barres s'étendant horizontalement plutôt que verticalement. D'après mon expérience, ces graphiques à barres horizontales sont particulièrement utiles lorsque l'on compare plusieurs catégories et que les barres sont classées de la plus longue en haut à la plus courte en bas. Pour certaines catégories seulement, je privilégie les graphiques à barres verticales.

Diagramme circulaire
Un diagramme circulaire représente les proportions d'un tout sous forme de segments d'un cercle. Le choix d'utiliser ou non des graphiques circulaires est souvent source de perplexité parmi les professionnels des données. Il est généralement plus difficile pour notre cerveau d'interpréter des portions d'un cercle que d'estimer des portions d'un rectangle.
Veuillez considérer le nombre de disputes entre frères et sœurs qui ont eu lieu pour déterminer si deux parts de tarte aux pommes sont de taille identique. Les graphiques circulaires restent néanmoins un type de graphique très apprécié, en partie parce que leur forme circulaire permet de rompre la monotonie visuelle des tableaux de bord rectangulaires.
Lorsque vous optez pour un graphique circulaire, veuillez noter qu'il est recommandé de l'utiliser uniquement lorsque vous avez peu de catégories à comparer. Si vous incluez trop de catégories, cela devient trop chargé et difficile à lire. Deuxièmement, veuillez ajouter le pourcentage réel à chaque tranche. Cela garantit que même si le lecteur éprouve des difficultés à comparer les tranches relatives, il peut tout de même interpréter le graphique.

Graphique en anneau
Le graphique en anneau est un proche parent du graphique circulaire. Par conséquent, les mêmes précautions s'appliquent : veuillez utiliser uniquement lorsque vous comparez quelques catégories et afficher les proportions numériques sur le graphique pour faciliter l'interprétation.
L'un des avantages pratiques des graphiques en anneau est qu'ils offrent un espace pour une étiquette centrale. Cela pourrait vous permettre de gagner de l'espace dans votre tableau de bord s'il commence à être un peu encombré. Il est également visuellement attrayant et peut apporter une touche supplémentaire qui manque aux graphiques circulaires.

Histogramme
Un histogramme est utile pour visualiser la forme d'une distribution. Il fonctionne en regroupant les valeurs numériques dans des classes et en réalisant un graphique représentant le nombre de valeurs qui appartiennent à chaque classe. Cela peut être un moyen utile pour identifier les valeurs les plus fréquentes et repérer les valeurs aberrantes.
Bien que cela puisse ressembler à un histogramme, il existe une différence importante : l'axe des x est une variable continue, et non discrète.

Voici un histogramme représentant la hauteur des pousses de tournesol dans un jardin. Nous constatons que la plupart de nos pousses mesurent entre 22 cm et 28 cm. Certaines mesurent seulement 15 cm, tandis que d'autres atteignent près de 34 cm.
Graphique de densité
Un graphique de densité peut être considéré comme un histogramme lissé représenté sous forme de courbe continue. Cela peut fournir une image plus précise de la distribution sous-jacente. Il est important de noter que l'axe des y ne montre pas réellement les nombres, mais plutôt la densité, qui reflète la concentration des données autour d'une valeur donnée. L'aire totale sous la courbe est toujours égale à 1.
Ce graphique est utile pour examiner la forme d'une distribution plutôt que ses valeurs absolues. En représentant plusieurs distributions sur le même graphique, vous pouvez également les comparer entre elles. Afin d'éviter tout encombrement, je recommande de limiter le nombre de distributions à trois ou moins. Il est également préférable d'attribuer à chaque ligne sa propre couleur ou nuance afin d'éviter toute confusion, en particulier lorsque les distributions sont proches les unes des autres.

Nous avons réalisé un graphique ici pour représenter le temps consacré à la lecture, par visite, dans deux bibliothèques différentes. En utilisant un graphique pour représenter les densités des deux distributions, nous pouvons constater que les visiteurs qui se rendent à la bibliothèque Moonlight ont tendance à passer plus de temps à lire que ceux qui visitent la bibliothèque Sunlight.
Diagramme graphique en boîte
Si vous souhaitez comparer plusieurs distributions entre elles, vous pouvez envisager d'utiliser un graphique en boîte. Un graphique en boîte résume les distributions à l'aide de leurs médianes, quartiles et valeurs aberrantes. Il s'agit de graphiques extrêmement utiles qui permettent d'afficher rapidement une grande quantité d'informations. Ils permettent essentiellement de visualiser d'un seul coup d'œil l'ensemble des données issues de plusieurs ensembles de données comparés entre eux.
En règle générale, si les boîtes de deux distributions ne se chevauchent pas, elles peuvent être très différentes l'une de l'autre. Toutefois, s'ils se chevauchent, ils ne sont probablement pas très différents. Bien entendu, un test statistique tel que le test T est nécessaire pour en avoir la certitude, mais un graphique en boîte peut fournir un indice visuel rapide sur les distributions à comparer entre elles.

Dans ce graphique en boîte, nous avons représenté la distribution des résultats aux examens dans trois écoles de sorcellerie. En un coup d'œil, nous pouvons identifier les établissements scolaires qui obtiennent des résultats moyens aux examens supérieurs à ceux de leurs concurrents. Il est également facile de déterminer quelles écoles peuvent accueillir des élèves exceptionnels ou des élèves en difficulté scolaire en examinant leurs valeurs aberrantes. Ce graphique simple fournit rapidement de nombreuses informations utiles.
Visualisations bivariées
Jusqu'à présent, nous n'avons examiné que des graphiques représentant une seule variable. Cependant, que faire si vous souhaitez illustrer la relation entre deux variables ? Les graphiques à deux variables correspondent exactement à ce que vous recherchez. Ils sont utiles pour identifier les tendances, les modèles et les corrélations.
Graphique de dispersion
Le nuage de points est probablement le graphique le plus répandu. Ils constituent un moyen simple de visualiser les positions de chacun de vos points de données le long de deux axes numériques. Il est idéal pour identifier les relations, les regroupements et les valeurs aberrantes.
Les graphiques de points peuvent être utilisés pour représenter des corrélations ainsi que des relations causales. Si vous démontrez une relation de cause à effet, la convention veut que la variable indépendante soit représentée sur l'axe des x et la variable dépendante sur l'axe des y. Cette convention indique au spectateur la direction dans laquelle s'établit la relation de causalité. De plus, si vous avez établi un lien de causalité, il est recommandé d'afficher la statistique utilisée pour déterminer la causalité, ainsi que la valeur p.

Dans ce nuage de points, nous avons réalisé un graphique montrant la relation entre la taille de chaque goutte de pluie et la vitesse à laquelle elle tombe. Il existe une relation positive évidente entre ces deux variables, qui montre que les gouttes de pluie ont tendance à tomber plus rapidement lorsqu'elles sont plus grosses.
Il est important de noter que ce graphique montre une corrélation et n'indique pas en soi une causalité. Nous ne pouvons donc pas examiner ce graphique et conclure qu'une goutte de pluie plus grosse tombe plus vite parce que elle est plus grosse. Pour affirmer cela, nous aurions besoin d'informations supplémentaires, telles qu'un test statistique ou une expérience, et nous devrions indiquer ces informations supplémentaires sur le graphique.
Graphique linéaire
Un graphique linéaire est similaire à un nuage de points. Cependant, la variable indépendante est généralement le temps, et chaque point de données est relié aux points de données qui lui sont directement adjacents. Il est préférable d'utiliser des graphiques linéaires avec des données chronologiques, lorsque vous souhaitez mettre en évidence des tendances ou des changements au fil du temps.

Nous avons utilisé ici un graphique linéaire pour représenter le temps que nous avons consacré à la lecture chaque jour pendant un mois. Cela nous permet de voir rapidement quand notre motivation pour la lecture a diminué et quand nous avons repris le rythme. Si nous poursuivions cette démarche pendant plusieurs mois, nous pourrions commencer à observer une tendance se dessiner.
Pour plus d'exemples sur la manière de mettre en évidence les tendances et les changements au fil du temps, veuillez consulter Visualisations de données qui capturent les tendances.
Graphique en aires
Un graphique en aires est très similaire à un graphique linéaire, mais l'espace sous la ligne est rempli. Cela peut faciliter la lecture des totaux cumulés ou l'interprétation des volumes pour le lecteur. Veuillez toutefois noter que, si vous pouvez tracer plusieurs graphiques linéaires sur le même graphique, vous ne devez tracer qu'un seul graphique en aires sur chaque graphique. Étant donné que la zone sous la courbe est ombrée, le fait de tracer plusieurs graphiques sur le même graphique peut encombrer la zone et rendre la lecture difficile.

Ce graphique en aires illustre le volume de miel récolté tout au long de l'année. Comme la zone sous la courbe est remplie, cela aide le lecteur à comprendre intuitivement que nous parlons de volumes.
Graphique à barres groupées et graphique à barres empilées
Deux sous-types de graphiques à barres sont conçus pour vous permettre de comparer des catégories à l'aide d'une deuxième variable.
Tout d'abord, nous avons regroupé les graphiques à barres. Ces éléments mettent en évidence les différences entre les différentes sous-catégories. L'axe des y se lit de la même manière que la plupart des graphiques à barres. Cependant, l'axe des x comporte des groupes de barres, souvent différenciés par couleur ou nuance, qui représentent des sous-groupes au sein de chaque groupe. Ces types de graphiques peuvent transmettre une grande quantité d'informations de manière très rapide.
Il est préférable de n'utiliser que quelques sous-groupes pour chaque groupe (je recommanderais 2 à 5 au maximum). Veuillez également noter que ces graphiques peuvent facilement s'étirer horizontalement si vous ajoutez un nombre excessif de groupes ou de sous-groupes, ce qui peut entraîner une utilisation importante d'espace. Si vous concevez ces graphiques pour qu'ils soient consultés numériquement, veuillez tenir compte de leur apparence sur un écran mobile.

Dans ce graphique à barres groupées, nous avons représenté les préférences en matière de jus de fruits de trois classes de maternelle différentes. Un simple coup d'œil à ce tableau suffit pour déterminer la meilleure façon de répartir les boissons à envoyer dans chaque classe.
Ensuite, nous avons des graphiques à barres empilées. Ces diagrammes illustrent les relations entre les parties et le tout au sein de plusieurs groupes. Ceci est très similaire aux graphiques à barres groupées, dans la mesure où nous pouvons comparer les différences subtiles entre les groupes.
Cependant, ce graphique présente deux avantages supplémentaires par rapport au graphique à barres groupées. Tout d'abord, il vous présente également les totaux pour chaque catégorie. Vous pouvez donc les lire comme un graphique à barres classique et observer les différences entre les totaux des catégories avant d'examiner les différences entre les sous-groupes. Deuxièmement, ce graphique peut être plus condensé, fournissant davantage d'informations dans un espace plus restreint qu'un graphique à barres groupées.
L'inconvénient est qu'il peut parfois être difficile de déterminer les proportions exactes à partir de ce graphique. L'ajout d'étiquettes de données contenant ces informations peut atténuer ce problème ; veuillez simplement vous assurer de ne pas surcharger l'affichage.

Ce graphique à barres empilées présente les préférences de lecture selon les tranches d'âge. Au sein de chaque tranche d'âge, nous pouvons observer la proportion de chaque genre emprunté. En examinant les différentes tranches d'âge, nous pouvons observer à la fois l'évolution de la proportion de chaque genre et celle du nombre total de livres empruntés. Par exemple, il est facile de constater que les adultes empruntent globalement le plus de livres et que les personnes âgées sont plus friandes d'ouvrages documentaires que les adolescents.
Carte thermique
Une carte thermique utilise l'intensité des couleurs pour représenter les valeurs sur une grille. Envisagez de l'utiliser pour les corrélations, les tableaux de fréquences ou tout autre scénario dans lequel vous estimez que la couleur facilitera la visualisation des modèles.
Il est important de retenir pour ce type de graphiques de choisir un dégradé de couleurs pertinent. Par exemple, il n'y a aucune raison intrinsèque de considérer que le rouge représente un nombre plus grand que le vert. Par conséquent, choisir un dégradé allant du rouge au vert n'est probablement pas le choix le plus approprié. Cependant, il y a lieu de supposer que les couleurs plus foncées correspondent à des valeurs plus élevées. Ainsi, choisir un dégradé clair à foncé au sein d'une même couleur peut donner au spectateur une idée plus intuitive du graphique que vous souhaitez représenter.
Une exception à cette règle concerne le graphique des valeurs thermiques littérales. Généralement, le rouge est associé à des températures plus élevées et le bleu à des températures plus basses. Par conséquent, si vous créez un graphique pour représenter la chaleur à l'aide d'une carte thermique, un dégradé allant du rouge au bleu pourrait être intuitivement logique. Comme toujours, laissez vos données guider la conception de votre visualisation.

Cette carte thermique illustre le niveau d'activité d'un chat domestique paresseux, heure par heure, pour chaque jour d'une semaine. Les bleus plus foncés indiquent les moments où le chat était très actif, peut-être même en train de courir ou de sauter. Les bleus plus clairs indiquent les moments où le chat était peu actif, voire endormi. La couleur permet de constater facilement que notre chat est plus actif pendant la nuit, dort principalement pendant la journée et a quelques moments de jeu pendant la journée (probablement initiés par son propriétaire).
Si vous souhaitez tester ces graphiques à deux variables dans une plateforme d'analyse professionnelle, Visualisation des données dans Power BI et Visualisation des données dans Tableau vous montrent comment créer des tableaux de bord interactifs qui mettent clairement en évidence les modèles et les tendances.
Visualisations multivariées
Il est parfois nécessaire de représenter des relations plus complexes impliquant plus de deux variables. Les graphiques multivariés peuvent vous aider à mettre en évidence les relations entre trois variables ou plus. Ils vous permettent d'explorer des ensembles de données plus complexes tout en conservant leur interprétabilité. Veuillez examiner quelques options courantes.
Graphique à bulles
Un graphique à bulles élargit le concept du nuage de points en codant une troisième variable sous forme de taille de bulle. C'est un choix judicieux pour faciliter la lecture, car la plupart des gens savent déjà comment interpréter les nuages de points. L'ajout d'une variable codée en tant que taille est intuitivement logique. Afin d'optimiser cette intuition, il est recommandé de faire en sorte que la taille de la bulle soit proportionnelle à l'amplitude.
Vous pouvez étendre ce graphique pour inclure une quatrième variable en codant également la couleur. Veuillez vous assurer d'inclure une légende et une description détaillées afin de permettre à votre public de bien comprendre votre graphique.

Ce graphique à bulles illustre l'abondance relative des coccinelles et des pucerons dans un jardin comportant des fleurs de différentes tailles. Les bulles plus grandes correspondent à un plus grand nombre de pucerons. Nous pouvons observer des bulles plus grandes dans la partie supérieure du graphique, ce qui indique qu'il y a davantage de pucerons là où il y a davantage de coccinelles. Nous constatons également qu'il y a davantage d'insectes sur les fleurs plus courtes.
Graphique radar
Un graphique radar peut être considéré comme une variante du graphique à barres circulaire. Différents attributs sont disposés à l'extérieur du cercle, et le graphique de votre blob est réalisé le long de chacun de ces axes, en partant du centre. Il est particulièrement adapté aux profils ou à la comparaison de plusieurs éléments selon les mêmes dimensions. Veuillez toutefois éviter d'ajouter trop de formes qui se chevauchent, car cela peut rendre le résultat confus et difficile à lire rapidement. Je recommande également d'utiliser un ombrage transparent afin de pouvoir facilement distinguer chaque tache à travers les autres.

Nous comparons ici trois profils de personnages différents de Donjons et Dragons selon cinq axes de compétences. Il s'agit d'une manière claire de mettre en évidence les différences entre les capacités de ces différents personnages.
Coordonnées parallèles
Si vous déroulez un graphique radar, vous obtenez un graphique à coordonnées parallèles. Ces graphiques affichent chaque variable sur son propre axe vertical. Il s'agit d'une option plus appropriée lorsque vous devez comparer plusieurs variables continues à la fois, car il y a moins de zones de chevauchement.
Il est important de bien réfléchir aux valeurs que vous souhaitez attribuer à l'axe des y. Si vos différents attributs partagent tous une unité commune, comme nos profils de personnages ci-dessus, cela ne posera aucun problème. Cependant, si vos attributs ont généralement des unités différentes, il pourrait être nécessaire de trouver un moyen d'effectuer une comparaison relative des unités pour votre axe y, afin de rendre le graphique plus lisible. L'objectif est de comparer les différentes lignes entre elles, et non pas nécessairement d'extraire des valeurs exactes pour chacune d'entre elles.

Dans ce graphique, nous comparons les caractéristiques relatives de différents modèles de robots jouets. Nous pouvons facilement comparer chaque robot aux autres selon chacune des quatre caractéristiques qui nous intéressent. Bien que nous ne puissions pas déterminer la vitesse exacte de chaque robot, nous pouvons facilement constater que le RoboMax est nettement plus rapide que le RoboMini.
Arbre de données
Un treemap est une méthode visuellement attrayante pour présenter des informations hiérarchiques. Il divise un rectangle en carreaux imbriqués dont les tailles varient en fonction de la valeur. Souvent, les différentes couleurs ajoutent un niveau supplémentaire de subdivision. Il est utile pour présenter des données hiérarchiques ou des relations entre les parties et le tout à plusieurs niveaux.
Remarque : tout le monde ne sait pas interpréter les treemaps, il est donc préférable de les rendre aussi faciles à comprendre que possible. Veuillez vous assurer que les cases sont clairement délimitées et que les couleurs sont distinctes. Je pense que ces graphiques se prêtent particulièrement bien à l'ajout de légendes, d'étiquettes et de commentaires.

Nous avons créé ici une carte arborescente qui montre comment un aventurier fictif dépense l'or qu'il a collecté dans différentes catégories. La couleur indique la catégorie de dépenses, tandis que la taille de chaque rectangle représente le montant relatif d'or dépensé.
diagramme de Sankey
Le diagramme de Sankey est l'un des meilleurs moyens que je connaisse pour visualiser les flux. Ce type de diagramme retrace le parcours de vos données depuis leur point de départ jusqu'à chaque point final. L'épaisseur relative des flèches indique la proportion du montant initial qui a été affectée à chaque destination. Il s'agit d'une excellente option pour visualiser les flux d'énergie, les parcours clients ou tout système comportant des chemins divergents.

Nous avons réalisé un graphique pour représenter la consommation d'énergie d'un foyer et les endroits où cette énergie est utilisée. Nous pouvons constater que cette maison consomme le plus d'énergie pour le chauffage et le confort, tandis que la cuisine et la détente représentent proportionnellement une part très faible.
Carte choropléthique
Une carte choroplèthe est similaire à une carte thermique dans la mesure où elle utilise des couleurs pour transmettre des informations. Cependant, il est superposé à une carte géographique, montrant comment les tendances se développent dans différentes zones géographiques, telles que les États ou les comtés. Vous avez peut-être observé ces cartes pendant la pandémie de COVID, qui indiquaient les zones où le nombre de cas augmentait considérablement. Ils sont également fréquents après les élections présidentielles américaines, pour présenter les résultats du collège électoral.

Nous avons créé une carte choroplethe très simple illustrant la couverture forestière estimée dans chaque État des États-Unis. Il est facile de déterminer quels États ont une couverture forestière plus importante, car ils sont représentés par une nuance de vert plus foncée que ceux qui ont une couverture forestière moins importante.
Le bien contre le mal Visualisations de données inappropriées
La différence entre des graphiques utiles et trompeurs réside généralement dans leur conception. Une bonne visualisation clarifie les données ; une mauvaise les déforme. Pour une analyse approfondie de ce sujet, je recommande l'ouvrage d'Edward Tufte intitulé La représentation visuelle des données quantitatives. Il s'agit de l'un des ouvrages les plus influents sur la visualisation, que toute personne travaillant régulièrement avec des données devrait posséder dans sa bibliothèque.
Caractéristiques des visualisations efficaces
Votre graphique doit être facile à lire d'un seul coup d'œil. Cela implique de privilégier la simplicité et la clarté, d'ajouter des étiquettes de données lorsque cela est approprié et d'utiliser efficacement les titres, les légendes et les étiquettes d'axes. Tufte aborde ce sujet en termes de rapport données/encre.
Vos visualisations doivent également être aussi précises que possible. Cela implique de prêter attention à toute distorsion d'échelle ou de proportion. Par exemple, soyez prudent lorsque vous utilisez des ruptures dans les axes et assurez-vous qu'elles sont correctement indiquées si vous les utilisez.
Pour plus d'efficacité, il est important de s'assurer que tous les éléments nécessaires figurent sur le tableau. Veuillez éviter d'utiliser de manière excessive les quadrillages. Dans certains graphiques, les quadrillages facilitent la lecture des valeurs exactes. Cependant, dans de nombreux graphiques, en particulier les plus simples, ils constituent des éléments superflus. Dans les cas les plus graves, ils peuvent même masquer des données. D'autres exemples de chart junk incluent des images superflues ou des lignes supplémentaires qui ne contribuent pas à la clarté.
Enfin, veuillez considérer attentivement l'utilisation des couleurs. Il est important de comprendre que les couleurs peuvent transmettre autant de sens que les chiffres. Lors du choix d'un dégradé, par exemple, il est généralement recommandé d'associer les couleurs plus foncées aux chiffres plus élevés et les couleurs claires aux chiffres plus bas.
Pour les données catégorielles, veuillez réfléchir aux couleurs généralement associées à cette catégorie. Il aurait été inhabituel que nous choisissions d'utiliser une barre verte pour indiquer la préférence pour le jus d'orange.
Problèmes courants dans les visualisations inadéquates
Il existe quelques erreurs courantes auxquelles vous devez prêter attention. Le premier concerne les échelles. Il est important de prêter attention à l'échelle de vos axes ainsi qu'aux éléments de votre graphique (cases, bulles, etc.). Il est important de ne pas se fier aveuglément aux graphiques par défaut du programme que vous utilisez. Veuillez vous assurer que vos axes commencent à zéro (à quelques exceptions près), qu'ils sont cohérents et que les proportions des éléments de votre graphique sont adaptées à vos données.
Un problème courant que je rencontre fréquemment est l'utilisation d'effets 3D dans les graphiques. Ces effets peuvent paraître intéressants, mais ils peuvent également déformer l'intrigue d'une manière qui rend la lecture plus difficile. Évitez à votre public de se creuser la tête et utilisez des graphiques en deux dimensions dans la plupart des cas.
Les axes doubles constituent un autre domaine où les choses peuvent se compliquer. Dans la grande majorité des cas, si vous avez besoin de deux axes y, il est préférable de diviser les données en deux graphiques. Dans les rares cas où un graphique à deux axes est pertinent, veuillez vous assurer qu'il est évident quelles données sont associées à quel axe. Ma méthode préférée consiste à utiliser des couleurs, par exemple, l'axe de gauche est noir et correspond aux points noirs, tandis que l'axe de droite est rouge et correspond aux points rouges.
L'une des erreurs les plus courantes consiste à surcharger votre graphique. Il est facile de se laisser emporter par l'envie de raconter l'histoire complète de nos données, et nous continuons donc à ajouter des barres, des étiquettes ou des lignes pour raconter des histoires de plus en plus complexes. Cependant, cela peut garantir que votre lecteur ne tire aucune conclusion erronée de votre graphique. Il est préférable de sélectionner une histoire simple que vous souhaitez que votre public retienne de vos données et de la présenter de la manière la plus claire et la plus élégante possible. .
Comment repérer les visualisations trompeuses
Malheureusement, il n'est pas rare de rencontrer un graphique manipulé dans le but de promouvoir un programme. Ceci est courant dans la publicité, la politique et les réseaux sociaux. Lorsque vous consultez un graphique, il est essentiel de l'évaluer de manière critique avant de le considérer comme fiable.
La première méthode pour évaluer de manière critique un graphique consiste à examiner les sections précédentes de cet article et à vérifier si le graphique en question respecte les meilleures pratiques dont nous avons discuté. Dans le cas contraire, le graphique pourrait induire en erreur, même si ce n'est pas intentionnel.
Ensuite, envisagez des intentions plus insidieuses. Veuillez vous poser les questions suivantes :
- Qui est la source et quels sont ses objectifs ?
- L'impression que vous avez correspond-elle aux chiffres réels ?
- Pourquoi la chronologie commence-t-elle et se termine-t-elle à ces dates précises ?
- Les éléments comparés sont-ils réellement comparables ?
- Certaines données sont-elles manquantes ou minimisées ?
- La corrélation est-elle présentée comme une causalité ?
Toutes les visualisations trompeuses n'ont pas nécessairement une intention malveillante. Cependant, il est important de reconnaître les lacunes et de considérer les conclusions avec une certaine réserve.
Remarque sur la conception inclusive
Lorsque vous créez vos propres visualisations, veuillez noter que les choix de conception ont également une incidence sur les personnes qui peuvent voir votre travail. Afin d'élargir votre audience, veuillez réfléchir à la manière de rendre vos graphiques accessibles. Par exemple, vous pouvez utiliser des palettes adaptées aux personnes atteintes de daltonisme et des polices de grande taille et lisibles afin d'améliorer la lisibilité visuelle de votre graphique. L'utilisation de textes alternatifs et de légendes pertinents peut également améliorer l'accessibilité pour les utilisateurs malvoyants.
Visualisations historiques notables
Il existe quelques visualisations qui, au cours de l'histoire, ont considérablement influencé le domaine de la visualisation des données. Certains ont créé de nouveaux types de graphiques ; d'autres ont modifié notre compréhension des événements, des sociétés ou des systèmes. Explorons quelques-uns des graphiques historiques les plus célèbres et découvrons comment ils ont inspiré les graphistes ultérieurs.
Les inventions de William Playfair (1786-1801)
Nos types de graphiques standard n'ont pas été créés sans raison. Bon nombre des graphiques dont nous avons discuté ont été créés par William Playfair, un ingénieur et économiste politique écossais qui a travaillé à la fin du XVIIIe siècle. En 1786, Playfair publia The Commercial and Political Atlas, dans lequel il introduisit le graphique linéaire et le diagramme à barres comme outils permettant de comprendre les données économiques. Quelques années plus tard, il a présenté le diagramme circulaire dans The Statistical Breviary.

Ce graphique est généralement considéré comme le premier graphique linéaire, présenté par William Playfair en 1786. Image provenant de Wikipédia.
À l'époque, la plupart des informations numériques étaient présentées dans des tableaux complexes qui étaient difficiles à interpréter rapidement. Playfair estimait que les formes visuelles pouvaient rendre les tendances et les comparaisons immédiatement apparentes, même pour les lecteurs sans formation mathématique.

Considéré comme le premier graphique à barres, ce graphique a été publié en 1786 par William Playfair. Image provenant de Wikipédia.
Ce qui a rendu le travail de Playfair si influent, ce n'est pas seulement l'invention de nouveaux types de graphiques, mais aussi sa compréhension de la manière dont les gens perçoivent l'information. Il a associé des chiffres à des propriétés visuelles, permettant ainsi aux spectateurs de comparer les valeurs d'un seul coup d'œil. Ses graphiques étaient fréquemment utilisés pour illustrer des arguments politiques et économiques, tels que l'évolution de la dette nationale ou des balances commerciales au fil du temps.
Les travaux de Playfair ont jeté les bases des graphiques statistiques modernes et nous rappellent que des représentations visuelles claires peuvent modifier fondamentalement la manière dont les individus interprètent les données.

Probablement le premier graphique circulaire, publié par William Playfair en 1789. Source : Wikipédia.
Carte de Charles Minard illustrant la campagne de Russie de Napoléon (1869)
En 1812, Napoléon envahit la Russie et subit une défaite dévastatrice. Un peu plus de 50 ans plus tard, Charles Minard, ingénieur civil à la retraite, a créé cette carte emblématique illustrant l'avancée, la retraite et le déclin tragique de l'armée.

Source : brilliantmaps.
Il s'agit d'un exemple précoce de diagramme de Sankey, où la largeur de la bande représente le nombre de soldats. Il est superposé à une carte qui intègre la direction, la température, la géographie et le temps, racontant ainsi une histoire captivante de l'invasion. Il s'agit d'un exemple raffiné de transformation de données quantitatives en un récit émotionnel, qui démontre comment plusieurs variables peuvent coexister sans confusion. Il s'agit sans doute de l'un des graphiques historiques les plus reconnaissables de tous les temps.
Le diagramme en rose de Florence Nightingale (1858)
Un autre graphique de guerre célèbre a été créé par la statisticienne et fondatrice des soins infirmiers modernes, Florence Nightingale. Elle a utilisé un diagramme polaire, également appelé diagramme en rose, pour démontrer que la plupart des décès survenus pendant la guerre de Crimée étaient dus à des maladies évitables, telles que le choléra et le typhus, plutôt qu'à des blessures de guerre.

Source : https://www.historyofinformation.com/
Chaque segment du diagramme représentait un mois, et les couleurs différenciaient les causes de décès. Les décès dus à des maladies évitables sont indiqués en bleu, ceux dus à des blessures de guerre en rouge et toutes les autres causes en noir.
En avril 1855, une commission sanitaire est arrivée afin d'améliorer les conditions d'hygiène à l'hôpital militaire. Il en résulta une diminution spectaculaire du nombre de décès, qui ressortait clairement dans le graphique de Nightingale. Cette visualisation a convaincu les responsables gouvernementaux de mettre en œuvre des améliorations sanitaires dans les hôpitaux militaires et civils.
Carte du choléra établie par John Snow (1854)
Une autre avancée en matière de santé publique a été réalisée grâce au graphique de John Snow répertoriant les décès dus au choléra à Londres. En 1854, le quartier de Soho à Londres a été frappé par une épidémie de choléra dévastatrice, qui a causé la mort de plus de 600 personnes en seulement quelques semaines. Snow a réalisé un graphique montrant les décès dus au choléra sur un plan des rues de Londres, en indiquant les décès par des barres et les pompes à eau par des cercles.

Source : londonmuseum.org.
Sa carte a révélé des concentrations de décès autour de la pompe à eau de Broad Street. Après que les autorités aient retiré la poignée de cette pompe à eau, la rendant inutilisable, l'épidémie s'est calmée. Cette carte a contribué à résoudre l'épidémie locale. Aujourd'hui, cela nous rappelle à quel point le choix de la bonne visualisation peut influencer son impact ; par exemple, un nuage de points n'aurait pas permis de déterminer la cause de l'épidémie. Snow a utilisé la visualisation appropriée pour apporter des changements.
Horaire des trains d'Étienne-Jules Marey (1885)
Mon graphique historique préféré est cet horaire ferroviaire datant de 1885. Ce graphique présente tous les trains reliant Paris à Lyon : leur vitesse, leurs arrêts et les moments où ils croisent un autre train. Le temps est représenté sur l'axe des x, et chaque station est espacée sur l'axe des y en fonction de sa distance par rapport aux autres. Chaque train est représenté par une ligne inclinée. Les lignes plus inclinées indiquent des trains plus rapides, et les sections horizontales indiquent que le train se trouve dans une gare.

Source : commons.wikimedia.org
En règle générale, ces informations auraient été présentées sous la forme d'un calendrier contenant beaucoup de texte. Au contraire, ce graphique combinait de manière élégante les informations spatiales et temporelles, ce qui permettait aux responsables ferroviaires d'éviter les conflits d'horaires et même les collisions de trains. Cela nous rappelle à quel point une visualisation bien conçue peut transmettre une grande quantité d'informations.
W.E.B. Portraits statistiques de Du Bois (1900)
Au début du XXe siècle, le sociologue et militant des droits civiques W.E.B. Du Bois a souligné l'importance de l'éducation pour les Afro-Américains. Il a écrit : « L'homme noir n'a pas besoin de la liberté, il a besoin de l'éducation. » Du Bois a dirigé une équipe de chercheurs dans la création d'une série de graphiques audacieux et originaux pour l'Exposition universelle de Paris en 1900. Ces représentations documentaient les conditions sociales, économiques et éducatives des Afro-Américains, une génération seulement après l'émancipation. À une époque où la pseudoscience raciste dominait le discours public, Du Bois a utilisé des données pour contester directement les stéréotypes préjudiciables.

Ce graphique tiré de Data Portraits de WEB Du Bois illustre de manière saisissante comment la Proclamation d'émancipation a transformé la vie des Afro-Américains. Image provenant de Comment W.E.B. Au début du XXe siècle, Du Bois a utilisé la visualisation des données pour lutter contre les préjugés..
Les graphiques abordaient des thèmes tels que l'alphabétisation, la propriété foncière, l'emploi, la croissance démographique et les schémas migratoires. Beaucoup ont été dessinés et peints à la main, en utilisant des couleurs vives et des mises en page non conventionnelles. Si certains de ces graphiques ressemblent à des histogrammes ou à des camemberts, d'autres explorent des spirales, des dispositions radiales et des compositions abstraites. Plutôt que de s'en tenir aux conventions, Du Bois a donné la priorité à la communication et à l'impact.

Ce graphique circulaire modifié présente les professions exercées par les Américains noirs et blancs au début du XXe siècle. Image provenant de Comment W.E.B. Au début du XXe siècle, Du Bois a utilisé la visualisation des données pour lutter contre les préjugés..
Du Bois ne visait pas la neutralité. Les graphiques ont été explicitement conçus pour persuader, éduquer et affirmer l'humanité et les réalisations des Afro-Américains à travers des données. Ce faisant, Du Bois a démontré que la visualisation ne se limite pas à la simple présentation de chiffres. Il s'agit de présenter la réalité, de raconter des histoires et de façonner la manière dont les sociétés se perçoivent. Ces graphiques sont désormais rassemblés dans l'ouvrage intitulé « » (Les graphiques de la vie : une histoire visuelle de la science et de la société) W.E.B. Portraits statistiques de Du Bois : visualisation de l'Amérique noire : la ligne de couleur au tournant du XXe siècle.

WEB Du Bois n'hésitait pas à utiliser des types de graphiques innovants pour illustrer ses propos, comme ce graphique en spirale représentant la répartition démographique des Afro-Américains en 1890. Image provenant de Comment W.E.B. Au début du XXe siècle, Du Bois a utilisé la visualisation des données pour lutter contre les préjugés..
Conclusion
La visualisation n'est pas neutre ; chaque choix que vous faites influence l'interprétation que vos spectateurs font de l'histoire qui se cache derrière les données. Pour en savoir plus sur la manière de présenter efficacement vos données, veuillez consulter notre Guide pratique sur la communication et la narration de données.
Pour obtenir des conseils pratiques sur les outils à utiliser, veuillez consulter notre aperçu des 12 des meilleurs outils de visualisation de données en 2025 est une excellente ressource. Si vous êtes prêt à rendre ces graphiques complexes interactifs et adaptés au web, Interactive Data Visualization with Bokeh vous guide dans la création de visualisations réactives et adaptées aux navigateurs dans Python.

Je suis titulaire d'un doctorat et j'ai 13 ans d'expérience dans le traitement des données dans un environnement de recherche biologique. Je crée des logiciels dans plusieurs langages de programmation, notamment Python, MATLAB et R. Je suis passionné par le partage de mon amour de l'apprentissage avec le monde.
Foire aux questions sur la visualisation des données
Quels sont les principes fondamentaux qui caractérisent une visualisation de données de qualité ?
Clarté, efficacité, précision et honnêteté. Votre visualisation doit être claire, avec un message simple qui représente fidèlement votre ensemble de données.
Comment puis-je utiliser efficacement les couleurs dans mes visualisations de données ?
Voici trois mesures que vous pouvez prendre : 1.) Choisissez des couleurs pour renforcer votre message.2.) Utilisez des couleurs qui représentent généralement les variables que vous employez3.) Choisissez des couleurs suffisamment différentes les unes des autres pour faciliter la lecture
Comment puis-je m'assurer que mes visualisations de données sont accessibles à tous ?
Dans la mesure du possible, veuillez sélectionner des combinaisons de couleurs adaptées aux personnes atteintes de daltonisme. Veuillez également vous assurer que vos textes alternatifs, étiquettes de données et légendes sont suffisamment explicatifs. Enfin, les éléments de votre graphique, y compris le texte et les lignes, doivent être suffisamment grands pour être visibles par les personnes malvoyantes, ou permettre une fonctionnalité interactive de zoom avant.
Quels sont les meilleurs outils pour créer des visualisations de données interactives ?
Les outils courants comprennent :
- Tableau
- Power BI
- R Shiny
- Python plotly
Qui a créé les premiers graphiques ?
La plupart des types de graphiques courants auxquels nous pensons, notamment les graphiques à barres et les nuages de points, ont été inventés par William Playfair.