Limpieza de datos en Python
Aprende a diagnosticar y tratar datos sucios y desarrolla habilidades para transformar datos en información precisa.
Comienza El Curso Gratis4 horas13 vídeos44 ejercicios121.106 aprendicesDeclaración de cumplimiento
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.¿Entrenar a 2 o más personas?
Probar DataCamp for BusinessPreferido por estudiantes en miles de empresas
Descripción del curso
Descubre cómo limpiar datos en Python
Se suele decir que los científicos de datos dedican el 80% de su tiempo a limpiar y manipular los datos y sólo el 20% a analizarlos. La limpieza de datos es un paso esencial para todo científico de datos, ya que analizar datos sucios puede llevar a conclusiones inexactas.En este curso, aprenderás a identificar, diagnosticar y tratar diversos problemas de limpieza de datos en Python, desde los más sencillos a los más avanzados. Tratarás con tipos de datos incorrectos, comprobarás que tus datos están en el intervalo correcto, manejarás los datos que faltan, realizarás la vinculación de registros, ¡y mucho más!
Aprende a limpiar distintos tipos de datos
El primer capítulo del curso explora los problemas habituales con los datos y cómo puedes solucionarlos. Primero comprenderás los tipos de datos básicos y cómo tratarlos individualmente. Después, aplicarás restricciones de rango y eliminarás los puntos de datos duplicados.El último capítulo explora la vinculación de registros, una potente herramienta para fusionar múltiples conjuntos de datos. Aprenderás a enlazar registros calculando la similitud entre cadenas. Por último, utilizarás tus nuevas habilidades para unir dos conjuntos de datos de reseñas de restaurantes en un conjunto de datos maestro limpio.
Ganar confianza en la limpieza de datos
Al final del curso, adquirirás confianza para limpiar datos de varios tipos y utilizar la vinculación de registros para fusionar varios conjuntos de datos. La limpieza de datos es una habilidad esencial para los científicos de datos. Si quieres aprender más sobre la limpieza de datos en Python y sus aplicaciones, consulta los siguientes programas: Científico de Datos con Python e Importación y Limpieza de Datos con Python.¿Entrenar a 2 o más personas?
Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.En las siguientes pistas
Importar y limpiar datos en Python
Ir a la pista- 1
Dificultades habituales con los datos
GratuitoEn este capítulo, aprenderás a superar algunos de los problemas más comunes con los datos sucios. Convertirás los tipos de datos, aplicarás restricciones de rango para eliminar puntos de datos futuros y eliminarás puntos de datos duplicados para evitar que cuente doble en el recuento.
Restricciones del tipo de datos50 xpTipos de datos comunes100 xp¿Datos numéricos o ... ?100 xpSumar cadenas y concatenar números100 xpRestricciones del rango de datos50 xpLimitaciones del tamaño de los neumáticos100 xpRegreso al futuro100 xpRestricciones de unicidad50 xp¿Qué tamaño tiene tu subconjunto?50 xpEncontrar duplicados100 xpTratamiento de duplicados100 xp - 2
Problemas de texto y datos categóricos
Los datos categóricos y de texto pueden ser a menudo algunas de las partes más desordenadas de un conjunto de datos, debido a su naturaleza no estructurada. En este capítulo, aprenderás a corregir incoherencias de espacios en blanco y mayúsculas en las etiquetas de las categorías, a contraer varias categorías en una sola y a reformatear cadenas para que sean coherentes.
- 3
Problemas avanzados de datos
En este capítulo, te sumergirás en problemas más avanzados de limpieza de datos, como asegurarte de que todos los pesos están escritos en kilogramos en lugar de libras. También adquirirás conocimientos muy valiosos que te ayudarán a verificar que los valores se han añadido correctamente y que los valores que faltan no afectan negativamente a tus análisis.
- 4
Vinculación de registros
La vinculación de registros es una potente técnica para fusionar varios conjuntos de datos, que se utiliza cuando los valores tienen erratas o diferente ortografía. En este capítulo, aprenderás a enlazar registros calculando la similitud entre cadenas; luego, utilizarás tus nuevas habilidades para unir dos conjuntos de datos de reseñas de restaurantes en un conjunto de datos maestro limpio.
Comparar cadenas50 xpDistancia mínima de edición50 xpEl punto de corte100 xpReasignación de categorías II100 xpGenerar pares50 xp¿Enlazar o no enlazar?100 xpPares de restaurantes100 xpRestaurantes similares100 xpEnlazar DataFrames50 xpObtener el índice correcto50 xp¡Enlazándolos!100 xp¡Enhorabuena!50 xp
¿Entrenar a 2 o más personas?
Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.En las siguientes pistas
Importar y limpiar datos en Python
Ir a la pistaconjuntos de datos
Ride sharing datasetAirlines datasetBanking datasetRestaurants datasetRestaurants dataset IIcolaboradores
Adel Nehme
Ver MásVP of Media, DataCamp
¿Qué tienen que decir otros alumnos?
¡Únete a 15 millones de estudiantes y empieza Limpieza de datos en Python hoy mismo!
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.