Ir al contenido principal

Curso

Limpieza de datos en R

IntermedioNivel de habilidad

Actualizado 8/2024

Aprende a limpiar los datos con rapidez y precisión para ayudar a tu empresa a pasar de datos sin procesar a información significativa.

Comienza el curso gratis

RData Preparation

4 h

13 vídeos

44 Ejercicios

3,700 XP

60,980

Certificado de logros

Preferido por estudiantes en miles de empresas

¿Formando un equipo?

Prueba para empresas

Descripción del curso

Superar problemas comunes de datos como eliminar duplicados en R

Se suele decir que los científicos de datos dedican el 80% de su tiempo a limpiar y manipular los datos y sólo el 20% a analizarlos. El tiempo dedicado a la limpieza es vital, ya que analizar datos sucios puede llevarte a sacar conclusiones inexactas.

En este curso, aprenderás una serie de técnicas que te ayudarán a limpiar los datos sucios utilizando R. Empezarás convirtiendo los tipos de datos, aplicando restricciones de rango y tratando los duplicados totales y parciales para evitar el doble recuento.

Profundiza en los retos de los datos avanzados

Una vez que hayas practicado el trabajo con problemas comunes de datos, pasarás a retos más avanzados, como garantizar la coherencia de las mediciones y tratar los datos que faltan. Después de cada nuevo concepto, tendrás la oportunidad de completar un ejercicio práctico para consolidar tus conocimientos y aumentar tu experiencia.

Aprende a utilizar la vinculación de registros durante la limpieza de datos

La vinculación de registros se utiliza para fusionar conjuntos de datos cuando los valores tienen problemas, como errores tipográficos o grafías diferentes. Explorarás esta útil técnica en el último capítulo y practicarás su aplicación utilizándola para unir dos conjuntos de datos de reseñas de restaurantes en un único conjunto de datos.

Requisitos previos

Joining Data with dplyr

1

Problemas comunes con los datos

En este capítulo, aprenderás a superar algunos de los problemas más comunes con los datos sucios. Convertirá tipos de datos, aplicará restricciones de rango para eliminar puntos de datos futuros y eliminará puntos de datos duplicados para evitar el doble recuento.

Restricciones del tipo de datos

Tipos de datos comunes

Conversión de tipos de datos

Recorte de cuerdas

Restricciones de alcance

Limitaciones de la duración del viaje

Regreso al futuro

Restricciones de unicidad

Duplicados completos

Eliminar duplicados parciales

Agregación de duplicados parciales

Iniciar capítulo

2

Datos categóricos y de texto

Los datos categóricos y de texto suelen ser algunas de las partes más desordenadas de un conjunto de datos debido a su naturaleza no estructurada. En este capítulo, aprenderá a corregir las incoherencias de los espacios en blanco y las mayúsculas en las etiquetas de las categorías, a contraer varias categorías en una sola y a reformatear las cadenas para mantener la coherencia.

Comprobación de la afiliación

Sólo para miembros

No es miembro

Problemas de datos categóricos

Identificación de incoherencias

Corregir la incoherencia

Colapso de categorías

Limpieza de datos de texto

Detección de datos de texto incoherentes

Sustitución y retirada

Números de teléfono no válidos

Iniciar capítulo

3

Problemas de datos avanzados

En este capítulo, se adentrará en problemas más avanzados de limpieza de datos, como asegurarse de que todos los pesos están escritos en kilogramos en lugar de libras. También adquirirá conocimientos muy valiosos que le ayudarán a verificar que los valores se han añadido correctamente y que los valores que faltan no afectan negativamente a sus análisis.

Uniformidad

Uniformidad de fechas

Uniformidad monetaria

Validación cruzada

Validación de totales

Validar la edad

Tipos de ausencia

Visualización de los datos que faltan

Tratamiento de los datos que faltan

Iniciar capítulo

4

Vinculación de registros

La vinculación de registros es una potente técnica para fusionar varios conjuntos de datos, que se utiliza cuando los valores tienen errores tipográficos o diferente ortografía. En este capítulo, aprenderá a vincular registros mediante el cálculo de la similitud entre cadenas y, a continuación, utilizará sus nuevos conocimientos para unir dos conjuntos de datos de reseñas de restaurantes en un conjunto de datos maestro limpio.

Comparación de cadenas

Calcular la distancia

Pequeña distancia, pequeña diferencia

Corrección de errores tipográficos con la distancia entre cadenas

Generar y comparar pares

¿Enlazar o unirse?

Bloqueo de pares

Comparación de pares

Puntuación y enlace

¿Marcar y luego seleccionar o seleccionar y luego marcar?

¡Enhorabuena!

Iniciar capítulo

Limpieza de datos en R

Curso
completo

Obtener certificado de logros

Añade esta certificación a tu perfil de LinkedIn o a tu currículum.
Compártelo en redes sociales y en tu evaluación de desempeño.Inscríbete ahora

¡Únete a 19 millones de estudiantes y empieza Limpieza de datos en R hoy mismo!

Desarrolla tus habilidades de datos con la aplicación móvil de DataCamp

Progresa desde cualquier dispositivo móvil con nuestros cursos y desafíos de programación diarios de 5 minutos.