Saltar al contenido principal
Documentos
Gestión de datos en RGráficos en RR DocumentaciónInterfaz REstadística en RIntroducción de datos en R

Fusionar datos en R

Añadir columnas

Para fusionar horizontalmente dos marcos de datos (conjuntos de datos), utiliza la función fusionar. En la mayoría de los casos, unes dos marcos de datos por una o más variables clave comunes (es decir, una unión interna).

# merge two data frames by ID
total <- merge(data frameA,data frameB,by="ID")
# merge two data frames by ID and Country
total <- merge(data frameA,data frameB,by=c("ID","Country"))

Añadir filas

Para unir dos marcos de datos (conjuntos de datos) verticalmente, utiliza la función rbind. Los dos marcos de datos deben tener las mismas variables, pero no tienen por qué estar en el mismo orden.

total <- rbind(data frameA, data frameB)

Si el marco de datosA tiene variables que el marco de datosB no tiene, entonces

  1. Elimina las variables adicionales del marco de datosA o
  2. Crea las variables adicionales en el marco de datosB y establécelas como NA (ausente)

antes de unirlos con rbind( ).

Consejos para fusionar datos en R

Fusionar datos es una tarea habitual en el análisis de datos, especialmente cuando se trabaja con grandes conjuntos de datos. La función Fusionar de R es una potente herramienta que te permite combinar dos o más conjuntos de datos basándote en variables compartidas. He aquí algunos consejos para garantizar un proceso de fusión fluido y eficaz:

  1. Comprende tus datos:

Antes de fusionar, inspecciona siempre tus conjuntos de datos utilizando funciones como head(), str() y summary(). Esto te ayuda a comprender la estructura y a identificar las variables clave para la fusión.

  1. Elige las variables clave adecuadas:

Asegúrate de que las variables sobre las que estás fusionando son únicas y no tienen duplicados, a menos que sea intencionadamente. Esto evita la duplicación involuntaria de datos.

  1. Especifica el tipo de fusión:

La función Fusionar de R permite distintos tipos de uniones: izquierda, derecha, interna y externa. Comprende las diferencias y elige la que mejor se adapte a tus necesidades. izquierda: incluye todas las filas del primer conjunto de datos y las filas coincidentes del segundo. derecha: incluye todas las filas del segundo conjunto de datos y las filas coincidentes del primero. interior: incluye sólo las filas con claves coincidentes en ambos conjuntos de datos. exterior: incluye todas las filas de ambos conjuntos de datos.

  1. Manejar valores perdidos:

Tras la fusión, comprueba si hay valores NA. Pueden surgir si no hay coincidencias para una clave concreta. Decide cómo quieres tratarlos: eliminar, sustituir o imputar.

  1. Comprueba los nombres de las columnas:

Si los conjuntos de datos tienen columnas con los mismos nombres pero datos diferentes, R añadirá un sufijo (por ejemplo, .x e .y) para distinguirlos. Cambia el nombre de estas columnas si es necesario para mayor claridad.

  1. Ordena tus datos:

Después de fusionar, suele ser útil ordenar los datos con la función ordenar(). Esto puede hacer que los análisis posteriores sean más fáciles e intuitivos.

  1. Consideración de grandes conjuntos de datos:

Para conjuntos de datos muy grandes, considera la posibilidad de utilizar el paquete data.table. Ofrece un proceso de fusión más rápido en comparación con la función básica de fusión de R.

  1. Tipos de datos coherentes:

Asegúrate de que las variables clave de ambos conjuntos de datos tienen el mismo tipo de datos. Por ejemplo, fusionar una variable de carácter en un conjunto de datos y un factor en otro puede dar lugar a resultados inesperados.

  1. Prueba en un subconjunto:

Si no estás seguro de la fusión, pruébala primero con un pequeño subconjunto de tus datos. Esto te permite detectar y rectificar rápidamente cualquier problema.

  1. Documenta tu proceso:

Lleva siempre un registro de los pasos y decisiones que tomaste durante el proceso de fusión. Esto garantiza la reproducibilidad y la claridad para futuras referencias.

Recuerda que fusionar datos es tanto un arte como una ciencia. Con práctica y atención a los detalles, te convertirás en un experto en combinar conjuntos de datos sin problemas en R. ¡Feliz programación!

Ir más lejos

Para practicar la manipulación de marcos de datos con el paquete dplyr, prueba este curso interactivo sobre manipulación de marcos de datos en R.

Aprende lo esencial de R

Domina los fundamentos del análisis de datos en R, incluyendo vectores, listas y marcos de datos, y practica R con conjuntos de datos reales.
Empieza a aprender R gratis