Limpieza de datos en R
Aprende a limpiar datos rápida y precisamente para transformar datos en bruto en valiosos insights.
Comience El Curso Gratis4 horas13 vídeos44 ejercicios
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.¿Entrenar a 2 o más personas?Pruebe DataCamp para empresas
Preferido por estudiantes en miles de empresas
Descripción del curso
Superar problemas comunes de datos como eliminar duplicados en R
Se suele decir que los científicos de datos dedican el 80% de su tiempo a limpiar y manipular los datos y sólo el 20% a analizarlos. El tiempo dedicado a la limpieza es vital, ya que analizar datos sucios puede llevarte a sacar conclusiones inexactas.En este curso, aprenderás una serie de técnicas que te ayudarán a limpiar los datos sucios utilizando R. Empezarás convirtiendo los tipos de datos, aplicando restricciones de rango y tratando los duplicados totales y parciales para evitar el doble recuento.
Profundiza en los retos de los datos avanzados
Una vez que hayas practicado el trabajo con problemas comunes de datos, pasarás a retos más avanzados, como garantizar la coherencia de las mediciones y tratar los datos que faltan. Después de cada nuevo concepto, tendrás la oportunidad de completar un ejercicio práctico para consolidar tus conocimientos y aumentar tu experiencia.Aprende a utilizar la vinculación de registros durante la limpieza de datos
La vinculación de registros se utiliza para fusionar conjuntos de datos cuando los valores tienen problemas, como errores tipográficos o grafías diferentes. Explorarás esta útil técnica en el último capítulo y practicarás su aplicación utilizándola para unir dos conjuntos de datos de reseñas de restaurantes en un único conjunto de datos.Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y másEn las siguientes pistas
Importar y limpiar datos con R
Ir a la pista- 1
Problemas comunes con los datos
GratuitoEn este capítulo, aprenderás a superar algunos de los problemas más comunes con los datos sucios. Convertirá tipos de datos, aplicará restricciones de rango para eliminar puntos de datos futuros y eliminará puntos de datos duplicados para evitar el doble recuento.
Restricciones del tipo de datos50 xpTipos de datos comunes100 xpConversión de tipos de datos100 xpRecorte de cuerdas100 xpRestricciones de alcance50 xpLimitaciones de la duración del viaje100 xpRegreso al futuro100 xpRestricciones de unicidad50 xpDuplicados completos100 xpEliminar duplicados parciales100 xpAgregación de duplicados parciales100 xp - 2
Datos categóricos y de texto
Los datos categóricos y de texto suelen ser algunas de las partes más desordenadas de un conjunto de datos debido a su naturaleza no estructurada. En este capítulo, aprenderá a corregir las incoherencias de los espacios en blanco y las mayúsculas en las etiquetas de las categorías, a contraer varias categorías en una sola y a reformatear las cadenas para mantener la coherencia.
Comprobación de la afiliación50 xpSólo para miembros100 xpNo es miembro100 xpProblemas de datos categóricos50 xpIdentificación de incoherencias100 xpCorregir la incoherencia100 xpColapso de categorías100 xpLimpieza de datos de texto50 xpDetección de datos de texto incoherentes100 xpSustitución y retirada100 xpNúmeros de teléfono no válidos100 xp - 3
Problemas de datos avanzados
En este capítulo, se adentrará en problemas más avanzados de limpieza de datos, como asegurarse de que todos los pesos están escritos en kilogramos en lugar de libras. También adquirirá conocimientos muy valiosos que le ayudarán a verificar que los valores se han añadido correctamente y que los valores que faltan no afectan negativamente a sus análisis.
- 4
Vinculación de registros
La vinculación de registros es una potente técnica para fusionar varios conjuntos de datos, que se utiliza cuando los valores tienen errores tipográficos o diferente ortografía. En este capítulo, aprenderá a vincular registros mediante el cálculo de la similitud entre cadenas y, a continuación, utilizará sus nuevos conocimientos para unir dos conjuntos de datos de reseñas de restaurantes en un conjunto de datos maestro limpio.
Comparación de cadenas50 xpCalcular la distancia50 xpPequeña distancia, pequeña diferencia100 xpCorrección de errores tipográficos con la distancia entre cadenas100 xpGenerar y comparar pares50 xp¿Enlazar o unirse?100 xpBloqueo de pares100 xpComparación de pares100 xpPuntuación y enlace50 xp¿Marcar y luego seleccionar o seleccionar y luego marcar?100 xpMontaje100 xp¡Enhorabuena!50 xp
Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y másEn las siguientes pistas
Importar y limpiar datos con R
Ir a la pistacolaboradores
requisitos previos
Joining Data with dplyrMaggie Matsui
Ver MásCurriculum Manager at DataCamp
¿Qué tienen que decir otros alumnos?
¡Únete a 14 millones de estudiantes y empieza Limpieza de datos en R hoy mismo!
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.