Comment supprimer des colonnes dans Pandas Tutoriel

Apprenez à déposer des colonnes dans un DataFrame pandas.

Actualisé 16 janv. 2025 · 3 min lire

Il arrive souvent qu'un DataFrame contienne des colonnes qui ne sont pas utiles à votre analyse. Ces colonnes doivent être supprimées du DataFrame pour vous permettre de vous concentrer plus facilement sur les autres colonnes.

Les colonnes peuvent être supprimées en spécifiant les noms des étiquettes et les axes correspondants, ou en spécifiant directement les noms des index ou des colonnes. Lors de l'utilisation d'un index multiple, les étiquettes situées à différents niveaux peuvent être supprimées en spécifiant le niveau.

`.drop()` Méthode

Comparons le nombre de valeurs manquantes avec la forme du DataFrame. Vous remarquerez que la colonne county_name contient autant de valeurs manquantes que de lignes, ce qui signifie qu'elle ne contient que des valeurs manquantes.

ri.isnull().sum()

state                            0
stop_date                        0
stop_time                        0
county_name                  91741
driver_gender                 5205
driver_race                   5202
...

ri.shape

91741, 15

Comme elle ne contient aucune information utile, cette colonne peut être supprimée à l'aide de la méthode .drop().

Outre le nom de la colonne, vous devez préciser que vous supprimez des colonnes de l'axe des colonnes et que vous souhaitez que l'opération se produise à la place, ce qui évite l'utilisation d'une instruction d'affectation, comme indiqué ci-dessous :

ri.drop('county_name',
  axis='columns', inplace=True)

`.dropna()` Méthode

La méthode .dropna() est un excellent moyen de supprimer des lignes en fonction de la présence de valeurs manquantes dans cette ligne.

Par exemple, en utilisant l'ensemble de données ci-dessus, supposons que les colonnes stop_date et stop_time sont essentielles à notre analyse et qu'une ligne est donc inutile sans ces données.

ri.head()

    state   stop_date    stop_time    driver_gender   driver_race
0      RI  2005-01-04        12:55                M         White
1      RI  2005-01-23        23:15                M         White
2      RI  2005-02-17        04:15                M         White
3      RI  2005-02-20        17:15                M         White
4      RI  2005-02-24        01:20                F         White

Nous pouvons demander à pandas de supprimer toutes les lignes qui ont une valeur manquante dans la colonne stop_date ou stop_time. Comme nous spécifions un sous-ensemble, la méthode .dropna() ne prend en compte que ces deux colonnes pour décider des lignes à supprimer.

ri.dropna(subset=['stop_date', 'stop_time'], inplace=True)

Exemple interactif d'élimination de colonnes

Dans cet exemple, vous laisserez de côté la colonne county_name parce qu'elle ne contient que des valeurs manquantes, et vous laisserez de côté la colonne state parce que tous les contrôles routiers ont eu lieu dans un seul État (Rhode Island). Ces colonnes peuvent donc être supprimées car elles ne contiennent aucune information utile. Le nombre de valeurs manquantes dans chaque colonne a été imprimé sur la console.

Examinez le site .shape du DataFrame pour connaître le nombre de lignes et de colonnes.
Supprimez les colonnes county_name et state en transmettant les noms des colonnes à la méthode .drop() sous la forme d'une liste de chaînes de caractères.
Examinez à nouveau le site .shape pour vérifier qu'il y a maintenant deux colonnes de moins.

# Examine the shape of the DataFrame
print(ri.shape)

# Drop the 'county_name' and 'state' columns
ri.drop(['county_name', 'state'], axis='columns', inplace=True)

# Examine the shape of the DataFrame (again)
print(ri.shape)

Lorsque vous exécutez le code ci-dessus, vous obtenez le résultat suivant :

(91741, 15)
(91741, 13)

Essayez-le vous-même.

Pour en savoir plus sur l'abandon de colonnes dans pandas, veuillez consulter cette vidéo tirée de notre cours Introduction à la visualisation de données avec ggplot2.

Ce contenu est extrait du cours Introduction à la visualisation de données avec ggplot2 de DataCamp par Kevin Markham.

Consultez notre tutoriel Pandas Add Column.

Sujets

Python

Cours sur les pandas

Cours

Introduction à Python

4 h

6.9M

Apprenez les bases de l’analyse de données avec Python en quatre heures et explorez ses principaux packages.

Afficher les détails

Commencer le cours

Cours

Python intermédiaire

4 h

1.4M

Mettez à niveau vos compétences en science des données en créant des visualisations à l'aide de Matplotlib et en manipulant des DataFrame avec pandas.

Afficher les détails

Commencer le cours

Cours

Écrire du code efficace avec pandas

4 h

21.7K

Apprenez des techniques efficaces dans pandas pour optimiser votre code Python.

Afficher les détails

Commencer le cours

Contenus associés

blog

2022-2023 Rapport annuel DataCamp Classrooms

À l'aube de la nouvelle année scolaire, DataCamp Classrooms est plus motivé que jamais pour démocratiser l'apprentissage des données, avec plus de 7 650 nouveaux Classrooms ajoutés au cours des 12 derniers mois.

Nathaniel Taylor-Leach

8 min

blog

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Vous êtes actuellement à la recherche d'un emploi qui utilise Snowflake ? Préparez-vous à répondre à ces 20 questions d'entretien sur le flocon de neige pour décrocher le poste !

Nisha Arya Ahmed

15 min

blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates a offert plus de 20k bourses d'études à nos partenaires à but non lucratif au deuxième trimestre 2023. Découvrez comment des apprenants défavorisés et assidus ont transformé ces opportunités en réussites professionnelles qui ont changé leur vie.

Nathaniel Taylor-Leach

blog

Nous avons fait don de bourses DataCamp Premium à un million de personnes, et ce n'est pas fini.

Réparties entre nos deux programmes d'impact social, DataCamp Classrooms et #DCDonates, les bourses offrent un accès illimité à tout ce que DataCamp Premium a à offrir.

Nathaniel Taylor-Leach

blog

Célébration de Saghar Hazinyar : Une boursière de DataCamp Donates et une diplômée de Code to Inspire

Découvrez le parcours inspirant de Saghar Hazinyar, diplômée de Code to Inspire, qui a surmonté les défis en Afghanistan et s'est épanouie grâce à une bourse de DataCamp Donates.

Fereshteh Forough

4 min

Voir plus Voir plus

.drop() Méthode

.dropna() Méthode

Exemple interactif d'élimination de colonnes

2022-2023 Rapport annuel DataCamp Classrooms

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Q2 2023 DataCamp Donates Digest

Nous avons fait don de bourses DataCamp Premium à un million de personnes, et ce n'est pas fini.

Célébration de Saghar Hazinyar : Une boursière de DataCamp Donates et une diplômée de Code to Inspire

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Introduction à Python

Python intermédiaire

Écrire du code efficace avec pandas

2022-2023 Rapport annuel DataCamp Classrooms

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Q2 2023 DataCamp Donates Digest

Nous avons fait don de bourses DataCamp Premium à un million de personnes, et ce n'est pas fini.

Célébration de Saghar Hazinyar : Une boursière de DataCamp Donates et une diplômée de Code to Inspire

`.drop()` Méthode

`.dropna()` Méthode

Introduction à Python