Saltar al contenido principal

Las 26 mejores preguntas y respuestas de la entrevista sobre Pandas

Explora las preguntas y respuestas clave de las entrevistas de Pandas para puestos de ciencia de datos.
Actualizado 16 ene 2025  · 15 min de lectura

En este artículo, he recopilado las preguntas más frecuentes de las entrevistas a Pandas y sus respuestas. Algunas de las preguntas proceden de mi propia experiencia en una entrevista en Target como científico de datos. ¡Empecemos!

Preguntas básicas sobre Pandas

Veamos algunas preguntas básicas de la entrevista sobre los pandas. Los entrevistadores más amables pueden empezar con estas sencillas preguntas para reconfortarte al principio, mientras que otros pueden hacerlas para evaluar tus conocimientos básicos de la biblioteca.

1. ¿Qué es pandas en Python?

Pandas es una biblioteca de Python de código abierto con métodos potentes e integrados para limpiar, analizar y manipular conjuntos de datos de forma eficaz. Desarrollado por Wes McKinney en 2008, este potente paquete puede combinarse fácilmente con otros módulos de ciencia de datos en Python.

Pandas está construido sobre la biblioteca NumPy, es decir, sus estructuras de datos Series y DataFrame son las versiones mejoradas de las matrices de NumPy.

2. ¿Cómo se accede rápidamente a las 5 primeras filas y a las 5 últimas filas de un DataFrame de pandas?

El método head() de pandas se utiliza para acceder a las 5 primeras filas de un DataFrame, y el método tail() se utiliza para acceder a las 5 últimas filas.

Para acceder a las 5 filas superiores: dataframe_name.head()

Para acceder a las 5 últimas filas: dataframe_name.tail()

3. ¿Por qué DataFrame.shape no tiene paréntesis?

En pandas, shape es un atributo y no un método. Por tanto, debes acceder a él sin paréntesis.

DataFrame.shape devuelve una tupla con el número de filas y columnas de un Marco de datos.

4. ¿Cuál es la diferencia entre una Serie y un Marco de datos?

Marco de datos: El DataFrame de pandas estará en formato tabular con múltiples filas y columnas donde cada columna puede ser de diferentes tipos de datos.

Serie: La Serie es una matriz unidimensional etiquetada que puede almacenar cualquier tipo de datos, pero todos sus valores deben ser del mismo tipo de datos. La estructura de datos de la Serie es más parecida a una sola columna de un Marco de datos.

La estructura de datos Serie consume menos memoria que un Marco de datos. Así, ciertas tareas de manipulación de datos son más rápidas en él.

Sin embargo, DataFrame puede almacenar conjuntos de datos grandes y complejos, mientras que Series sólo puede manejar datos homogéneos. Por tanto, el conjunto de operaciones que puedes realizar sobre DataFrame es significativamente mayor que sobre la estructura de datos Serie.

5. ¿Qué es un índice en pandas?

El índice es una serie de etiquetas que pueden identificar unívocamente cada fila de un Marco de datos. El índice puede ser de cualquier tipo de dato, como entero, cadena, hash, etc,

df.index imprime los índices de fila actuales del DataFrame df.

Preguntas intermedias de la entrevista sobre Pandas

Estas preguntas serán un poco más difíciles, y es más probable que te las encuentres en funciones que requieran experiencia previa en el uso de pandas.

6. ¿Qué es la multiindización en pandas?

El índice en pandas especifica de forma única cada fila de un DataFrame. Normalmente elegimos la columna que puede identificar de forma única cada fila de un Marco de datos y la establecemos como índice. Pero, ¿y si no tienes una sola columna que pueda hacer esto?

Por ejemplo, tienes las columnas "nombre", "edad", "dirección" y "marcas" en un DataFrame. Cualquiera de las columnas anteriores puede no tener valores únicos para todas las filas diferentes y no son aptas como índices.

Sin embargo, las columnas "nombre" y "dirección" juntas pueden identificar unívocamente cada fila del Marco de datos. Así que puedes establecer ambas columnas como índice. Tu DataFrame tiene ahora un índice múltiple o jerárquico.

7. Explicar la reindexación de pandas

La reindexación en pandas nos permite crear un nuevo objeto DataFrame a partir del DataFrame existente con los índices de fila y las etiquetas de columna actualizados.

Puedes proporcionar un conjunto de nuevos índices a la función DataFrame.reindex() y ésta creará un nuevo objeto DataFrame con los índices dados y tomará los valores del DataFrame actual.

Si los valores de estos nuevos índices no estaban presentes en el Marco de Datos original, la función rellena esas posiciones con los nulos por defecto. Sin embargo, podemos modificar el valor por defecto NaN por el valor que queramos que rellenen.

Aquí tienes el código de ejemplo:

Crea un DataFrame df con índices:

import pandas as pd

data = [['John', 50, 'Austin', 70],
        ['Cataline', 45 , 'San Francisco', 80],
        ['Matt', 30, 'Boston' , 95]]

columns = ['Name', 'Age', 'City', 'Marks']

#row indexes
idx = ['x', 'y', 'z']

df = pd.DataFrame(data, columns=columns, index=idx)

print(df)

Reindexar con un nuevo conjunto de índices:

new_idx = ['a', 'y', 'z']

new_df = df.reindex(new_idx)

print(new_df)

El new_df tiene valores del df para los índices comunes ('y' y 'z'), y el nuevo índice 'a' se rellena con el NaN por defecto.

8. ¿Cuál es la diferencia entre loc e iloc?

Tanto loc como los métodos iloc de pandas se utilizan para seleccionar subconjuntos de un DataFrame. En la práctica, se utilizan mucho para filtrar DataFrame basándose en condiciones.

Debemos utilizar el método loc para seleccionar datos utilizando etiquetas reales de filas y columnas, mientras que el método iloc se utiliza para extraer datos basándose en índices enteros de filas y columnas.

9. Muestra dos formas diferentes de crear un DataFrame pandas

Utilizar el diccionario de Python:

import pandas as pd

data = {'Name': ['John', 'Cataline', 'Matt'],
        'Age': [50, 45, 30],
        'City': ['Austin', 'San Francisco', 'Boston'],
        'Marks' : [70, 80, 95]}

df = pd.DataFrame(data)

Utilizar listas en Python:

import pandas as pd

data = [['John', 25, 'Austin',70],
        ['Cataline', 30, 'San Francisco',80],
        ['Matt', 35, 'Boston',90]]

columns = ['Name', 'Age', 'City', 'Marks']

df = pd.DataFrame(data, columns=columns)

10. ¿Cómo se obtiene el recuento de todos los valores únicos de una columna categórica en un DataFrame?

La función Series.value_counts() devuelve el recuento de cada valor único de una serie o columna.

Ejemplo:

Hemos creado un DataFrame df que contiene una columna categórica llamada "Sexo", y hemos ejecutado la función value_counts() para ver el recuento de cada valor único en esa columna.

import pandas as pd

data = [['John', 50, 'Male', 'Austin', 70],
        ['Cataline', 45 ,'Female', 'San Francisco', 80],
        ['Matt', 30 ,'Male','Boston', 95]]

# Column labels of the DataFrame
columns = ['Name','Age','Sex', 'City', 'Marks']

# Create a DataFrame df
df = pd.DataFrame(data, columns=columns)

df['Sex'].value_counts()

Preguntas de entrevista sobre Pandas para profesionales con experiencia

Los que ya tienen una sólida formación en pandas y solicitan puestos más altos pueden encontrarse con algunas de estas preguntas:

11. ¿Cómo se optimiza el rendimiento al trabajar con grandes conjuntos de datos en pandas?

Carga menos datos: Cuando leas datos utilizando pd.read_csv(), elige sólo las columnas que necesites con el parámetro "usecols" para evitar cargar datos innecesarios. Además, al especificar el parámetro "chunksize" se dividen los datos en diferentes trozos y se procesan secuencialmente.

Evita los bucles: Los bucles y las iteraciones son caros, sobre todo cuando se trabaja con grandes conjuntos de datos. En su lugar, opta por operaciones vectorizadas, ya que se aplican sobre toda una columna a la vez, lo que las hace más rápidas que las iteraciones por filas.

Utiliza la agregación de datos: Intenta agregar datos y realizar operaciones estadísticas, porque las operaciones sobre datos agregados son más eficaces que sobre el conjunto de datos completo.

Utiliza los tipos de datos adecuados: Los tipos de datos por defecto en pandas no son eficientes en memoria. Por ejemplo, los valores enteros adoptan por defecto el tipo de datos int64, pero si tus valores caben en int32, ajustar el tipo de datos a int32 puede optimizar el uso de memoria.

Procesamiento paralelo: Dask es una API similar a Pandas para trabajar con grandes conjuntos de datos. Utiliza varios procesos de tu sistema para ejecutar paralelamente diferentes tareas de datos.

12. ¿Cuál es la diferencia entre los métodos .join() y .merge() en pandas?

Únete: Une dos DataFrames en función de su índice. Sin embargo, existe un argumento opcional "on" para especificar explícitamente si quieres unir basándote en columnas. Por defecto, esta función realiza la unión izquierda.

Syntax: df1.join(df2)

Fusiónate: La función Fusionar es más versátil, ya que te permite especificar las columnas en las que quieres unir los DataFrames. Aplica la unión interna por defecto, pero puede personalizarse para utilizar distintos tipos de unión, como izquierda, derecha, externa, interna y cruzada.

Syntax: pd.merge(df1, df2, on=”column_names”)

13. ¿Qué es Timedelta?

Timedelta representa la duración, es decir, la diferencia entre dos fechas u horas, medida en unidades como días, horas, minutos y segundos.

14. ¿Cuál es la diferencia entre los métodos append y concat?

Podemos utilizar el método concat para combinar DataFrames a lo largo de filas o columnas. Del mismo modo, append también se utiliza para combinar DataFrames, pero sólo a lo largo de las filas.

Con la función concat, tienes la flexibilidad de modificar el DataFrame original utilizando el parámetro "inplace", mientras que la función append no puede modificar el DataFrame real, sino que crea uno nuevo con los datos combinados.

Preguntas de la entrevista sobre codificación Pandas

Las habilidades prácticas son tan importantes como los conocimientos teóricos a la hora de superar una entrevista técnica. Así que aquí tienes algunas de las preguntas pandas de entrevista codificación que necesitas saber antes de enfrentarte a tu entrevistador..

15. ¿Cómo se leen archivos Excel a CSV utilizando pandas?

En primer lugar, debemos utilizar la función read_excel() para introducir los datos de Excel en una variable. Después, sólo tienes que aplicar la función to_csv() para una conversión perfecta.

Aquí tienes el código de ejemplo:

import pandas as pd

#input your excel file path into the read_excel() function.
excel_data = pd.read_excel("/content/sample_data/california_housing_test.xlsx")

excel_data.to_csv("CSV_data.csv", index = None, header=True) 

16. ¿Cómo se ordena un DataFrame en función de las columnas?

Tenemos el método sort_values() para ordenar el DataFrame basándonos en una sola columna o en varias columnas.

Syntax: df.sort_values(by=[“column_names”])

Código de ejemplo:

import pandas as pd

data = [['John', 50, 'Male', 'Austin', 70],
['Cataline', 45 ,'Female', 'San Francisco', 80],
['Matt', 30 ,'Male', 'Boston', 95],
['Oliver',35,'Male', 'New york', 65]]

# Column labels of the DataFrame
columns = ['Name','Age','Sex', 'City', 'Marks']

# Create a DataFrame df
df = pd.DataFrame(data, columns=columns)

# Sort values based on ‘Age’ column
df.sort_values(by=['Age'])

df.head()`

17. Muestra dos formas diferentes de filtrar datos

Para crear un Marco de datos:

import pandas as pd

data = {'Name': ['John', 'Cataline', 'Matt'],
        'Age': [50, 45, 30],
        'City': ['Austin', 'San Francisco', 'Boston'],
        'Marks' : [70, 80, 95]}

# Create a DataFrame df
df = pd.DataFrame(data)

Método 1: En función de las condiciones

new_df = df[(df.Name == "John") | (df.Marks > 90)]
print (new_df)

Método 2: Utilizar la función de consulta

df.query('Name == "John" or Marks > 90')
print (new_df)

18. ¿Cómo se agregan los datos y se les aplica alguna función de agregación como la media o la suma?

La función groupby te permite agregar datos basándote en determinadas columnas y realizar operaciones con los datos agrupados. En el código siguiente, los datos se agrupan en la columna "Nombre" y se calcula la media de "Marcas" de cada grupo.

import pandas as pd

# Create a DataFrame
data = {
    'Name': ['John', 'Matt', 'John', 'Matt', 'Matt', 'Matt'],
    'Marks': [10, 20, 30, 15, 25, 18]
}

# Create a DataFrame df
df = pd.DataFrame(data)

# mean marks of John and Matt
print(df.groupby('Name').mean())

19. ¿Cómo puedes crear una columna nueva derivada de columnas existentes?

Podemos utilizar el método apply() para derivar una nueva columna realizando algunas operaciones en columnas existentes.

El código siguiente añade una nueva columna llamada "total" al Marco de datos. Esta nueva columna contiene la suma de los valores de las otras dos columnas.

Código de ejemplo:

import pandas as pd

# Create a DataFrame
data = {
    'Name': ['John', 'Matt', 'John', 'Cateline'],
    'math_Marks': [18, 20, 19, 15],
    'science_Marks': [10, 20, 15, 12]
}

# Create a DataFrame df
df = pd.DataFrame(data)

df['total'] = df.apply(lambda row : row["math_Marks"] + row["science_Marks"], axis=1)


print(df)

Preguntas de entrevista sobre Pandas para científicos de datos

Ahora que hemos cubierto todas las preguntas de entrevista generales y de codificación para pandas, echemos un vistazo a las preguntas de entrevista de ciencia de datos para pandas.

20. ¿Cómo se gestionan los valores nulos o perdidos en pandas?

Puedes utilizar cualquiera de los tres métodos siguientes para tratar los valores perdidos en pandas:

dropna() - la función elimina las filas o columnas que faltan del Marco de datos.

fillna() - Rellena los nulos con un valor determinado mediante esta función.

interpolate() - este método rellena los valores que faltan con valores de interpolación calculados. La técnica de interpolación puede ser lineal, polinómica, spline, temporal, etc,

21. Diferencia entre los métodos fillna() e interpolate()

fillna() –

fillna() rellena los valores perdidos con la constante dada. Además, puedes dar entradas de relleno hacia delante o hacia atrás a su parámetro "método".

interpolate() –

Por defecto, esta función rellena los valores perdidos o NaN con los valores interpolados linealmente. Sin embargo, puedes personalizar la técnica de interpolación a polinómica, tiempo, índice, spline, etc., utilizando su parámetro "método".

El método de interpolación es muy adecuado para los datos de series temporales, mientras que la fillna es un enfoque más genérico.

22. ¿Qué es el remuestreo?

El remuestreo se utiliza para cambiar la frecuencia con la que se presentan los datos de las series temporales. Imagina que tienes datos de series temporales mensuales y quieres convertirlos en datos semanales o anuales, aquí es donde se utiliza el remuestreo.

Convertir los datos mensuales en semanales o diarios no es más que un sobremuestreo. Aquí se utilizan técnicas de interpolación para aumentar las frecuencias.

En cambio, la conversión de datos mensuales a anuales se denomina muestreo descendente, en el que se aplican técnicas de agregación de datos.

23. ¿Cómo se realiza la codificación one-hot con pandas?

Realizamos una codificación en caliente para convertir los valores categóricos en numéricos, de modo que puedan alimentar al algoritmo de aprendizaje automático.

import pandas as pd

data = {'Name': ['John', 'Cateline', 'Matt', 'Oliver'],
        'ID': [1, 22, 23, 36]}

df = pd.DataFrame(data)

#one hot encoding 
new_df = pd.get_dummies(df.Name)
new_df.head()

24. ¿Cómo se crea un gráfico lineal en pandas?

Para dibujar un trazado lineal, tenemos una función de trazado en pandas.

import pandas as pd


data = {'units': [1, 2, 3, 4, 5],
        'price': [7, 12, 8, 13, 16]}
# Create a DataFrame df
df = pd.DataFrame(data)

df.plot(x='units', y='price')

25. ¿Cuál es el método pandas para obtener el resumen estadístico de todas las columnas de un DataFrame?

df.describe()

Este método devuelve estadísticas como media, valores percentiles, mínimo, máximo, etc., de cada columna del DataFrame.

26. ¿Qué es la media rodante?

La media móvil también se denomina media móvil porque la idea es calcular la media de los puntos de datos para una ventana especificada y deslizar la ventana a lo largo de los datos. Esto atenuará las fluctuaciones y resaltará las tendencias a largo plazo en los datos de las series temporales.

Syntax: df['column_name'].rolling(window=n).mean()

27. ¿Qué es la advertencia SettingWithCopyWarning y cómo solucionarla?

El SettingWithCopyWarning en pandas se produce cuando intentas modificar una porción de un DataFrame, lo que puede crear ambigüedad sobre si se están actualizando los datos originales o una copia. Para solucionarlo, utiliza .loc[] para la indexación explícita o asigna la rebanada a una nueva variable antes de realizar los cambios, para garantizar la claridad y evitar comportamientos no deseados. Lee más en este blog: How to Fix SettingWithCopyWarning.

Preparación de la entrevista

Además de los pandas, un puesto de trabajo orientado a los datos exige muchas otras habilidades. Ésta es la lista de comprobación para tener éxito en el proceso general de la entrevista:

Comprender los requisitos del puesto

Revisa la descripción del puesto y las responsabilidades y asegúrate de que tus aptitudes y tu currículum se ajustan a ellas. Además, conocer la empresa y cómo les afecta tu función es una ventaja.

Código en Python

El entrevistador comprueba primero tus conocimientos de Python antes de preguntarte por su biblioteca (pandas). Por tanto, equípate con sólidos conocimientos de Python.

Para las funciones de analista, sólo el lenguaje Python hace el trabajo. Pero si aspiras a puestos de científico de datos o ingeniero de ML, es importante que resuelvas retos de codificación en Python.

Proyectos de datos

Asegúrate de que has resuelto algunos problemas de datos del mundo real en tu currículum. Para los experimentados, puedes hablar de tus proyectos anteriores. Si eres nuevo en este campo, intenta terminar algunos proyectos de Kaggle.

Conceptos generales

Para los analistas, las preguntas pueden ser de Excel, cuadros de mando de visualización de datos, estadística y probabilidad. Además, el entrevistador puede profundizar en temas de aprendizaje automático y aprendizaje profundo si estás solicitando puestos de científico de datos o ingeniero de ML.

Prepárate con las preguntas más frecuentes de las entrevistas

Hay muchas probabilidades de que te hagan al menos algunas preguntas de las más frecuentes en las entrevistas. Por tanto, prepárate con las hojas de trucos y los simulacros de preguntas de la entrevista.

Diseño del sistema ML

Espera preguntas sobre el diseño de sistemas si solicitas puestos muy técnicos o con experiencia. Revisa preguntas de diseño habituales y practica problemas de diseño de sistemas de ML de extremo a extremo.

Conclusión

Conseguir un trabajo en el sector de los datos requiere grandes conocimientos de Pandas. La lista anterior de preguntas teóricas y prácticas para la entrevista debería ayudarte a superar la parte pandas de tu entrevista. Además, los consejos del final garantizan que toda la entrevista se desarrolle sin problemas.

Puedes utilizar los siguientes recursos como ayuda para preparar tu entrevista con los pandas:


Srujana Maddula's photo
Author
Srujana Maddula
LinkedIn

Srujana es una redactora técnica autónoma con una licenciatura de cuatro años en Informática. Escribir sobre diversos temas, como la ciencia de datos, la computación en la nube, el desarrollo, la programación, la seguridad y muchos otros, le resulta natural. Le encanta la literatura clásica y explorar nuevos destinos.

Temas

¡Comienza hoy tu viaje con los pandas!

Certificación disponible

curso

Manipulación de datos con pandas

4 hr
400.6K
Aprende a importar y limpiar datos, calcular estadísticas y crear visualizaciones con pandas.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow