Cursus
Des données inexactes peuvent ruiner même la meilleure analyse, et l'une des principales raisons de l'inexactitude des données est la duplication des entrées dans les feuilles de calcul. Un seul doublon peut fausser vos résultats et produire des conclusions complètement erronées. Pour éviter tout cela, vous devez savoir comment supprimer les doublons.
Dans cet article, je vais vous présenter les cinq meilleures méthodes pour trouver et supprimer les données en double dans Microsoft Excel. Si vous souhaitez mettre en évidence les doublons sans les supprimer, lisez mon tutoriel connexe, Comment mettre en évidence les doublons dans Excel. Si vous souhaitez vous familiariser avec les fonctions et caractéristiques d'Excel avant d'aller plus loin, suivez notre cursus de compétences Excel Fundamentals.
Comment supprimer les doublons dans Excel
Comprenons les cinq méthodes les plus privilégiées pour supprimer les données en double des tableaux dans Excel.
Faites progresser votre carrière avec Excel
Acquérir les compétences nécessaires pour optimiser Excel - aucune expérience n'est requise.
Méthode 1 : Supprimer les doublons avec la mise en forme conditionnelle
Vous pouvez utiliser la fonction deformatage conditionnel pour mettre en évidence les doublons ou les valeurs uniques et décider de les supprimer ou non. Pour ce faire :
- Sélectionnez la plage de cellules à vérifier. Ensuite, allez sur Home > Conditional Formatting > Highlight Cells Rules > Duplicate Values.
Sélectionnez l'option Dupliquer les valeurs. Image par l'auteur.
- Une boîte de dialogue apparaît. Dans la liste déroulante, sélectionnez la manière dont vous souhaitez mettre en évidence les doublons. Ici, j'ai choisi Yellow Fill with Dark Yellow Text.
Appliquez le format. Image par l'auteur.
- Cliquez sur OK et voyez les valeurs dupliquées mises en évidence.
Les valeurs en double sont mises en évidence. Image par l'auteur.
Toutefois, la fonction de formatage conditionnel est limitée : elle ne permet pas de mettre en évidence les valeurs dupliquées dans la zone Valeurs d'un rapport de tableau croisé dynamique. Dans ce cas, vous devez utiliser une autre méthode.
Méthode 2 : Utilisez la fonction Supprimer les doublons
Un autre moyen rapide de supprimer les doublons consiste à utiliser la fonctionSupprimer les doublons , un outil Excel intégré qui nettoie vos données en supprimant définitivement les doublons. Pour utiliser cette méthode :
- Sélectionnez la plage de cellules ou cliquez sur une cellule, et Excel identifiera automatiquement la plage de cellules.
Identifier la plage de cellules. Image par l'auteur.
- Passez ensuite à l'onglet onglet Données > Outils de données et sélectionnez Supprimer les doublons.
Fonction de suppression des doublons. Image par l'auteur.
- Une boîte de dialogue apparaît. Ici, je sélectionne les colonnes qui doivent être contrôlées pour les doublons. Si vos données comprennent des en-têtes de colonne, cochez la case Mes données ont des en-têtes et cliquez sur OK.
Boîte de dialogue pour la fonction Supprimer les doublons. Image par l'auteur.
- Excel affiche un message indiquant le nombre de doublons supprimés et le nombre d'entrées uniques restantes.
Boîte de message. Image par l'auteur.
- Vous pouvez maintenant voir que toutes les lignes en double ont été supprimées.
Suppression de toutes les lignes en double. Image par l'auteur.
Méthode 3 : Supprimez les valeurs en double à l'aide de l'option Filtre avancé
Vous pouvez également utiliser la fonctionAdvanced Filter dans Excel pour extraire des valeurs uniques en filtrant les doublons, en conservant les données originales tout en affichant les entrées uniques. Voici comment vous pouvez l'utiliser :
- Sélectionnez une plage de cellules ou une seule cellule et Advanced Filter identifiera automatiquement la plage. Ensuite, allez dans l'onglet Data > Sort & Filter et cliquez sur Advanced.
Option de fonctionnalité avancée. Image par l'auteur.
- Une boîte de dialogue apparaît. Pour copier des valeurs uniques vers un autre emplacement, sélectionnez Copier vers un autre emplacement. Dans le champ Copy to, indiquez où afficher les valeurs uniques. Cochez ensuite la case Enregistrements uniques uniquement et cliquez sur OK.
Boîte de dialogue pour le filtre avancé. Image par l'auteur.
- Toutes les valeurs uniques sont maintenant copiées dans la plage spécifiée.
Filtrez les valeurs uniques à l'aide du filtre avancé. Image par l'auteur.
Méthode 4 : Supprimez les doublons à l'aide de formules
Maintenant que vous connaissez les 3 fonctions intégrées de suppression des doublons, voyons quelques fonctions personnalisées que vous pouvez créer pour obtenir le même résultat. Par exemple, j'ai un jeu de données avec Les colonnesNom, Matière et Classe.
Ensemble de données sur les étudiants. Image par l'auteur.
Pour créer une formule permettant de filtrer les valeurs en double :
Tout d'abord, je combine toutes les colonnes (A, B, C) dans une seule cellule. Il existe deux méthodes pour ce faire : la fonction CONCATENATE()
ou l'opérateur &
. Choisissez ce que vous voulez et les résultats seront les mêmes. Pour utiliser l'opérateur &
, tapez la formule suivante :
=A2&B2&C2
Pour utiliser la fonction CONCATENATE()
, saisissez la formule suivante :
=CONCATENATE(A2,B2,C2)
Concaténer les colonnes. Image par l'auteur.
Dans la colonne suivante, utilisez COUNTIF()
pour calculer le nombre de fois que chaque valeur apparaît dans la colonne D :
=COUNTIF(D2:D18,D2)
Ici, comptez 1 signifie que la valeur est unique, et le nombre 2 ou plus indique un doublon.
Appliquez COUNTIF() pour compter les occurrences. Image par l'auteur.
Accédez ensuite à Données onglet > Trier et filtrer > sélectionnez Filtre pour appliquer un filtre au champ compte colonne.
Appliquer le filtre. Image par l'auteur.
Ensuite, ouvrez le menu déroulant et sélectionnez 1 pour conserver les valeurs uniques et éliminer les doublons, et cliquez sur OK.
Conservez les valeurs uniques. Image par l'auteur.
Vous pouvez maintenant constater que toutes les valeurs en double ont été supprimées. Cette méthode est plus complexe, mais elle se met à jour dynamiquement au fur et à mesure que vos données changent. Elle est donc parfaite pour ceux qui souhaitent une gestion continue des doublons.
Les valeurs en double ont été supprimées à l'aide de la fonction Filtre. Image par l'auteur.
Méthode 5 : Supprimez les doublons à l'aide de Power Query
Vous pouvez également utiliser Power Query pour nettoyer vos données et supprimer les doublons. Voici comment :
Sélectionnez une cellule ou une plage de cellules. Allez sur l' onglet Données > section Obtenir et transformer des données et cliquez sur À partir d'un tableau/d'une plage. Une boîte de dialogue s'affiche pour créer un tableau d'interrogation de puissance, et la plage de valeurs est automatiquement sélectionnée. Cliquez ensuite sur OK.
Création d'un tableau. Image par l'auteur.
La fenêtre de l'éditeur Power Query apparaît. À partir de là, choisissez l'option Supprimer les doublons pour sélectionner des tableaux spécifiques ou l'ensemble du tableau. Pour l'ensemble du tableau, cliquez sur le bouton en haut à gauche. Pour une colonne spécifique, cliquez avec le bouton droit de la souris sur l'en-tête en question ou utilisez la touche CTRL pour sélectionner plusieurs colonnes. Une fois cela fait, cliquez sur l' option Close & Load dans le coin supérieur gauche pour charger les données nettoyées dans Excel.
Suppression des données en double. Image par l'auteur.
Vous pouvez voir que l'ensemble de données modifié apparaît à nouveau dans Excel. Pour mieux comprendre, vous pouvez sélectionner une autre colonne, comme Sujet, dans cet exemple, et répéter les étapes pour vous entraîner. Ainsi, seules les lignes où le nom de l'élève est dupliqué seront supprimées.
Données chargées dans une feuille Excel. Image par l'auteur.
Cette méthode est idéale si vous travaillez avec de grands ensembles de données ou si vous avez besoin d'automatiser le processus de suppression des doublons pour de futures mises à jour des données.
Méthodes pour supprimer les doublons dans Excel : Lequel est le meilleur ?
Nous avons vu cinq méthodes différentes pour supprimer les doublons dans Excel. Je vais vous aider à choisir la meilleure solution, mais avant cela, parlons brièvement des deux types de données dupliquées.
Différents types de données dupliquées
Jusqu'à présent, pour être clair, je me suis concentré sur la manière de supprimer les valeurs en double dans une colonne, et toutes les méthodes que j'ai montrées jusqu'à présent fonctionnent si c'est votre problème. Toutefois, pour être clair, dans Excel, les doublons peuvent apparaître sous deux formes : les valeurs dupliquées et les lignes dupliquées :
- Valeurs dupliquées sont des entrées répétées dans une seule colonne. Par exemple, si j'ai une colonne de noms et que Minny apparaît plusieurs fois, il s'agit de valeurs dupliquées.
- Les lignes en double se produisent lorsque des lignes entières contiennent des données identiques dans toutes les colonnes. Par exemple, mon tableau comporte les colonnes Nom, Âge et Ville. Si deux lignes ou plus ont les mêmes champs, il s'agit de lignes en double.
Tableau récapitulatif
Voici un tableau récapitulatif des avantages spécifiques de chaque méthode. Ici, j'ai également ajouté une colonne pour montrer si la méthode peut être étendue pour supprimer également les lignes en double. En résumé, si vous souhaitez supprimer une ligne entière en double, essayez le formatage conditionnel, le filtre avancé, les formules ou Power Query, mais laissez les fonctions de suppression des doublons pour les cas d'utilisation simples.
Méthode | Principaux avantages | Meilleur pour l'élimination |
---|---|---|
Fonctionnalité de suppression des doublons | Suppression rapide et facile des doublons | Lignes en double |
Formatage conditionnel | Identification visuelle des doublons avant leur suppression | Valeurs ou lignes en double |
Filtre avancé | Préserve les données originales tout en filtrant les entrées uniques | Valeurs ou lignes en double |
Formules | Contrôle dynamique des critères de duplication | Valeurs ou lignes en double |
Power Query | Automatise la suppression des doublons pour les futures mises à jour | Valeurs ou lignes en double |
Bonnes pratiques pour la suppression des doublons
Voici quelques bonnes pratiques que je recommande au début de tout projet de nettoyage de données :
- Gardez vos sauvegardes : Conservez toujours une sauvegarde intacte de vos données brutes avant de commencer le nettoyage. Vous pouvez utiliser la version originale comme point de référence à tout moment.
- Définissez vos doublons : Établissez des critères clairs pour déterminer ce qui constitue un doublon dans votre contexte spécifique. Parfois, il ne s'agit pas simplement de correspondre exactement à tous les champs.
- Normaliser d'abord : Nettoyez et normalisez vos données avant de tenter de détecter les doublons - normalisez la casse, supprimez les espaces, corrigez les formats de date et traitez les caractères spéciaux.
- Commencez simple, puis affinez : Commencez par des correspondances exactes avant de passer à des correspondances plus complexes. Cette approche vous aidera à comprendre progressivement la qualité de vos données.
- Validez vos résultats : Vérifiez ponctuellement vos résultats lorsque vous utilisez des outils automatisés afin de détecter les erreurs systématiques.
Dépanner les problèmes courants d'Excel
Examinons les problèmes les plus courants que vous pouvez rencontrer lors de la suppression des doublons.
Les doublons ne sont pas supprimés
Parfois, nous copions des données à partir de sites web ou de sources externes - ces données contiennent généralement des caractères cachés ou des espaces qui empêchent Excel d'identifier les entrées en double. Pour résoudre ce problème, vous pouvez utiliser les fonctions TRIM()
et CLEAN()
. La fonction TRIM()
supprime les espaces excessifs entre les mots et la fonction CLEAN()
supprime les caractères non imprimables.
=CLEAN(TRIM(A1))
Données avec sous-totaux ou contours
Si votre feuille de calcul contient des sous-totaux ou des contours, ils peuvent interférer avec le processus de suppression des doublons. Excel traite ces lignes de résumé comme des entrées uniques, ce qui peut entraîner une suppression incomplète des doublons. Pour éviter cela, supprimez tous les sous-totaux et les contours de vos données avant de supprimer les doublons.
Voici comment vous pouvez le faire :
- Pour supprimer les contours : Allez dans l'onglet Data , trouvez le groupe Outline et cliquez sur Clear Outline.
- Pour supprimer les sous-totaux : Allez dans l'onglet Data , cliquez sur Subtotal, puis sur Remove All.
Après avoir supprimé les contours et les sous-totaux, vous pouvez procéder à la suppression des doublons comme d'habitude.
Sensibilité des cas
Excel considère le texte en majuscules et en minuscules comme des valeurs différentes lors de la recherche de doublons. Par exemple, Product et PRODUCT seront traités comme des entrées différentes. Pour éviter cela, utilisez les fonctions UPPER()
, LOWER()
ou PROPER()
pour normaliser la casse du texte dans toutes vos données avant de lancer le processus de suppression.
-
=UPPER()
convertir le texte en majuscules. -
=LOWER()
convertit le texte en minuscules. -
=PROPER()
met une majuscule à la première lettre de chaque mot.
Réflexions finales
Le nettoyage des doublons dans Excel peut sembler une petite tâche, mais elle peut faire une grande différence dans votre travail. Je vous propose cinq façons d'y parvenir, depuis les fonctions intégrées rapides jusqu'aux techniques plus avancées. Vous devez essayer différentes méthodes jusqu'à ce que vous trouviez une approche qui s'intègre harmonieusement dans votre flux de travail et qui garantisse l'exactitude de vos données.
Si vous souhaitez renforcer davantage vos compétences en Excel, consultez nos cours Analyse de données dans Excel et Analyse de données avec le cursus Excel Power Tools.
Apprendre les bases d'Excel
Je suis un stratège du contenu qui aime simplifier les sujets complexes. J'ai aidé des entreprises comme Splunk, Hackernoon et Tiiny Host à créer un contenu attrayant et informatif pour leur public.
Questions courantes sur la suppression des doublons dans Excel
Puis-je créer des alertes pour les futurs doublons dans Excel ?
Bien qu'Excel ne dispose pas d'alertes intégrées pour les doublons, vous pouvez utiliser la mise en forme conditionnelle pour mettre en évidence les doublons dès qu'ils sont saisis.
Existe-t-il une formule Excel pour supprimer les doublons ?
Oui, vous pouvez utiliser la fonction UNIQUE()
dans Excel 365 ou des formules similaires pour afficher des valeurs uniques en temps réel lorsque les données changent.
Comment supprimer les doublons tout en conservant la première instance dans Excel ?
Triez vos données par la colonne date de modification (ordre décroissant) avant de supprimer les doublons. De cette façon, Excel conservera la première occurrence (la plus récente).