Saltar al contenido principal

Tutorial sobre cómo soltar columnas en Pandas

Aprende a soltar columnas en un DataFrame de pandas.
Actualizado 11 sept 2024  · 3 min de lectura

A menudo, un Marco de datos contendrá columnas que no son útiles para tu análisis. Tales columnas deben eliminarse del Marco de datos para que te resulte más fácil centrarte en las columnas restantes.

Las columnas pueden eliminarse especificando los nombres de las etiquetas y los ejes correspondientes, o especificando directamente los nombres de los índices o las columnas. Si utilizas un índice múltiple, las etiquetas de distintos niveles pueden eliminarse especificando el nivel.

.drop() Método

Comparemos los recuentos de valores perdidos con la forma del marco de datos. Observarás que la columna county_name contiene tantos valores perdidos como filas, lo que significa que sólo contiene valores perdidos.

ri.isnull().sum()
state                            0
stop_date                        0
stop_time                        0
county_name                  91741
driver_gender                 5205
driver_race                   5202
...
ri.shape
91741, 15

Como no contiene información útil, esta columna puede eliminarse mediante el método .drop().

Además de especificar el nombre de la columna, tienes que especificar que estás eliminando del eje de columnas y que quieres que la operación se produzca en su lugar, lo que evita una sentencia de asignación como la que se muestra a continuación:

ri.drop('county_name',
  axis='columns', inplace=True)

.dropna() Método

El método .dropna() es una buena forma de descartar filas en función de la presencia de valores perdidos en esa fila.

Por ejemplo, utilizando el conjunto de datos anterior, supongamos que las columnas fecha_parada y hora_parada son fundamentales para nuestro análisis y, por tanto, una fila no nos sirve de nada sin esos datos.

ri.head()
    state   stop_date    stop_time    driver_gender   driver_race
0      RI  2005-01-04        12:55                M         White
1      RI  2005-01-23        23:15                M         White
2      RI  2005-02-17        04:15                M         White
3      RI  2005-02-20        17:15                M         White
4      RI  2005-02-24        01:20                F         White

Podemos decirle a pandas que elimine todas las filas en las que falte un valor en la columna stop_date o stop_time. Como especificamos un subconjunto, el método .dropna() sólo tiene en cuenta estas dos columnas a la hora de decidir qué filas eliminar.

ri.dropna(subset=['stop_date', 'stop_time'], inplace=True)

Ejemplo interactivo de soltar columnas

En este ejemplo, eliminarás la columna county_name porque sólo contiene valores perdidos, y eliminarás la columna state porque todas las paradas de tráfico tuvieron lugar en un estado (Rhode Island). Por tanto, estas columnas pueden eliminarse porque no contienen información útil. El número de valores que faltan en cada columna se ha impreso en la consola para ti.

  • Examina la página .shape del DataFrame para averiguar el número de filas y columnas.
  • Elimina las columnas county_name y state pasando los nombres de las columnas al método .drop() como una lista de cadenas.
  • Examina de nuevo la página .shape para comprobar que ahora hay dos columnas menos.
# Examine the shape of the DataFrame
print(ri.shape)

# Drop the 'county_name' and 'state' columns
ri.drop(['county_name', 'state'], axis='columns', inplace=True)

# Examine the shape of the DataFrame (again)
print(ri.shape)

Cuando ejecutas el código anterior, se obtiene el siguiente resultado:

(91741, 15)
(91741, 13)

Pruébalo tú mismo.

Para saber más sobre cómo soltar columnas en pandas, consulta este vídeo de nuestro curso Introducción a la visualización de datos con ggplot2.

Este contenido está tomado del curso Introducción a la Visualización de Datos con ggplot2 de DataCamp, impartido por Kevin Markham.

Consulta nuestro Tutorial Pandas Añadir Columna.

Temas

Cursos para pandas

curso

Introduction to Python

4 hr
6M
Master the basics of data analysis with Python in just four hours. This online course will introduce the Python interface and explore popular packages.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

tutorial

Tutorial seleccionar columnas con Python

Utiliza Python Pandas y selecciona columnas de los DataFrames. ¡Sigue nuestro tutorial con ejemplos de código y aprende hoy mismo distintas formas de seleccionar tus datos!
DataCamp Team's photo

DataCamp Team

7 min

tutorial

Tutorial de Pandas: DataFrames en Python

Explora el análisis de datos con Python. Los DataFrames de Pandas facilitan la manipulación de tus datos, desde la selección o sustitución de columnas e índices hasta la remodelación de tus datos.
Karlijn Willems's photo

Karlijn Willems

20 min

tutorial

Tutorial de unión de DataFrames en pandas

En este tutorial, usted aprenderá varias maneras en las que múltiples DataFrames pueden ser fusionados en python usando la librería Pandas.
DataCamp Team's photo

DataCamp Team

19 min

tutorial

Tutorial de pandas en Python: la guía definitiva para principiantes

¿Todo preparado para comenzar tu viaje de pandas? Aquí tienes una guía paso a paso sobre cómo empezar.
Vidhi Chugh's photo

Vidhi Chugh

15 min

tutorial

Tutorial de bucles For en Python

Aprenda a implementar bucles For en Python para iterar una secuencia, o las filas y columnas de un dataframe pandas.
Aditya Sharma's photo

Aditya Sharma

5 min

tutorial

Tutorial de minúsculas en Python

Aprende a convertir la columna de una tabla de una hoja de cálculo en minúsculas utilizando .str.lower().
DataCamp Team's photo

DataCamp Team

6 min

Ver másVer más