Saltar al contenido principal

AWS DataSync: Cómo configurar transferencias automáticas de datos

Aprende a instalar, configurar y optimizar AWS DataSync. Esta guía paso a paso abarca la automatización, la seguridad y las mejores prácticas.
Actualizado 26 mar 2025  · 15 min de lectura

Las empresas se enfrentan a retos a la hora de transferir datos cuando cambian las cargas de trabajo a la nube o gestionan las copias de seguridad y la recuperación ante desastres. Las técnicas anticuadas -como las cargas manuales o los scripts personalizados- carecen de automatización y fiabilidad, lo que se traduce en mayores costes y gastos operativos.

AWS DataSync lo facilita ofreciendo un método seguro y automatizado para transferir conjuntos de datos entre sistemas de almacenamiento, in situ y servicios de AWS, o entre distintas regiones de AWS.

En este tutorial, te guiaré:

  1. Configurar AWS DataSync - Crear y configurar agentes para la transferencia de datos.
  2. Configurar las tareas de transferencia de datos - Definir puntos finales de origen y destino, filtrar datos y programar transferencias.
  3. Utilizar DataSync para casos de uso clave - Como la migración a la nube, las copias de seguridad y la recuperación ante desastres.

¿Qué es AWS DataSync?

AWS DataSync es un servicio de transferencia de datos transfer que pretende mover grandes cantidades de datos entre sistemas de almacenamiento on-premise y entornos en la nube utilizando los servicios de AWS. Agiliza los procesos de transferencia de datos encargándose de tareas como la validación y encriptación de datos, a la vez que proporciona opciones de programación. Esto la convierte en una opción fiable para migraciones, copias de seguridad de datos y replicación continua de datos.

DataSync acelera la transferencia de datos en comparación con métodos que implican intrincadas secuencias de comandos o pasos manuales, al permitir un movimiento de datos automatizado, rápido y seguro entre varias fuentes. Admite transferencias entre:

  1. Almacenamiento local (NFS, SMB, almacenamiento de objetos) y AWS.
  2. Amazon S3,Amazon EFS, Amazon FSx y Amazon S3 Glacier.
  3. Servicios de AWS en diferentes regiones y cuentas.

> Si eres nuevo en AWS o quieres un repaso de las tools, el curso Tecnología y Servicios en la Nube de A WS ofrecers una sólida visión general de servicios básicos como EC2, S3 e IAM.

Características de AWS DataSync

  1. Transferencia de datos de alta velocidad: Utilizar flujos de datos paralelos y optimizados permite una transferencia de datos hasta 10 veces más rápida. 
  2. Validación automatizada de datos: Verifica la exactitud de los datos transferidos mediante cálculos de sumas de comprobación para mantener la integridad de los datos. 
  3. Integración perfecta con los servicios de AWS: Soporta de forma nativarts Amazon S3,Amazon EFS, Amazon FSx para Windows y FSx para Lustre como origen y destino.
  4. Transferencias incrementales y programadas: Transfiere sólo los datos modificados (sincronización diferencial) para minimizar el uso de ancho de banda y los costes, y admite la programación para la sincronización periódica de datos.
  5. Seguridad y encriptación: Las transferencias de datos están protegidas mediante encriptación de extremo a extremo utilizando TLS para la seguridad en tránsito y AES 256 para la protección de los datos en reposo. AWS Identity and Access Management (IAM) tambiénproporciona control de acceso .
  6. Transferencias multiregión y entre cuentas: Esto facilita la copia de datos entre regiones y cuentas en AWS para planificar y compartir.

Ahora que el contexto está establecido, ¡vamos a la parte práctica de este tutorial!

Configuración de AWS DataSync

Antes de transferir datos, debes configurar AWS DataSync correctamente. Esta sección cubre los requisitos previos y los pasos de configuración, incluyendo la instalación del agente, los roles IAM y la configuración del almacenamiento.

Requisitos previos para AWS DataSync

Utilizaremos AWS CloudFormation para automatizar el proceso de aprovisionamiento y nos centraremos en la migración de datos. Crearemos los siguientes recursos:

  1. Una VPC de AWS con subredes públicas para la conectividad de red.
  2. Un servidor NFS en una instancia de Amazon EC2 para simular un sistema de almacenamiento local.
  3. Agentes AWS DataSync en instancias EC2 para facilitar el movimiento de datos.
  4. Roles y políticas IAM para conceder los permisos necesarios para las operaciones de DataSync.

Accede a la consola de AWS

  • Inicia sesión en la consola de administración de AWSutilizando tus credenciales.
  • Haz clic en el menú desplegable de la esquina superior derecha de la pantalla y selecciona la opción "N. Región "California" para este tutorial.

La consola de administración de AWS con el desplegable de selección de región abierto, mostrando varias regiones disponibles

Figura 1 - Selección de la región de AWS en la consola de administración de AWS

  • Ve a la Consola EC2 y navega hasta la secciónPar de Claves. Asegúrate de que estás en la misma región AWS que en el paso anterior.
  • Haz clic en Crear par de claves y nómbralo "datasync".

Interfaz de AWS EC2 mostrando la página de creación del par de claves con las opciones RSA y ED25519.

Figura 2 - Creación de un par de claves para el acceso seguro en AWS EC2

  • Haz clic en Creary tu navegador descargará un archivo datasync.pem.
  • Guarda bien este archivo, lo necesitarás más adelante en el tutorial.

Configura el entorno

En este paso, utilizarás una plantilla de CloudFormation para configurar la infraestructura de AWS necesaria para AWS DataSync, que se mencionó anteriormente.

  • Abre la consola de AWS CloudFormation y haz clic en Crear pila.
  • Selecciona La plantilla está lista, y luego elige Subir un archivo de plantilla.

Interfaz de AWS CloudFormation con una opción para cargar un archivo de plantilla para la creación de pilas.

Figura 3 - Carga de una plantilla de CloudFormation para crear una nueva pila.

  • Descarga el archivo de Gist de Github y haz clic en Elegir archivo, sube datasync-onprem.yaml, y haz clic en Siguiente.
  • En la sección Parámetros, selecciona un par de claves EC2 para permitir el inicio de sesión SSH en las instancias creadas por esta pila. No edites los valores de los ID de AMI, pero haz clic en Siguiente.
  • En la página Opciones de pila, mantén la configuración predeterminada y haz clic en Siguiente.
  • Revisa la configuración y haz clic en Crear pila.
  • Se te redirigirá a la consola de CloudFormation, donde el estado mostrará "CREATE_IN_PROGRESS". Espera a que cambie a "CREAR_COMPLETAR".

Revisar el estado de creación de recursos en AWS CloudFormation.

Figura 4 - Revisión del estado de creación de recursos en AWS CloudFormation

  • Una vez completado, ve a la sección Salidas y anota los valores: los necesitarás para el resto del tutorial.
  • Tienes que desplegar otra pila siguiendo los mismos pasos descritos anteriormente. Esta plantilla no requiere parámetros adicionales. Descarga la plantilla del Gist de GitHub y procede a desplegarla.

Configurar el agente DataSync

En este tutorial, replicamos un entorno on-premise en AWS para emular escenarios de transferencia de datos del mundo real utilizando AWS DataSync. 

En lugar de utilizar una infraestructura real in situ, hemos lanzado un servidor NFS en una instancia de Amazon EC2, que será el sistema de almacenamiento de origen. Esto nos permite probar y configurar AWS DataSync como si estuviéramos moviendo datos desde una ubicación local.

Hemos lanzado los Agentes AWS DataSync en instancias EC2 dentro del mismo entorno para permitir el movimiento de datos. Estos agentes se encargan de vincular el servidor NFS a AWS DataSync, permitiendo la transferencia de datos a servicios de almacenamiento en la nube como Amazon S3. 

Esta arquitectura nos permite imitar, configurar y validar las tareas de AWS DataSync para conseguir un flujo de trabajo sin fisuras antes de implementarlas en un entorno real en las instalaciones. En este tutorial, utilizaremos este entorno para registrar el agente, crear las tareas DataSync y mover los datos de forma eficiente.

La imagen muestra la arquitectura desplegada por AWS Cloudformation

Figura 5 - Arquitectura desplegada por AWS CloudFormation

Configurar el servidor NFS para AWS DataSync

Antes de configurar AWS DataSync, es esencial comprender los datos que vas a transferir y cómo están organizados. En esta sección, configuraremos un servidor NFS desplegado en nuestro entorno AWS para que actúe como un sistema de almacenamiento local. Esta configuración nos permitirá simular la migración de datos a los servicios de AWS.

En primer lugar, inicia sesión en el servidor NFS:

  • Abre la consola de administración de AWS y navega hasta la carpeta "N. Región "California".
  • Selecciona EC2 en la lista de servicios AWS.
  • Localiza la instancia del servidor NFS en la lista de instancias EC2.
  • Haz clic en Conectar y sigue las instrucciones para conectarte utilizando Session Manager o SSH.

A continuación, explora los sistemas de archivos. El servidor NFS contiene tres volúmenes EBS de 200 GiB, cada uno formateado con el sistema de archivos XFS y precargado con conjuntos de datos de muestra.

  • Ejecuta el siguiente comando para verificar los sistemas de archivos montados:
mount | grep /mnt

Figura 6 - Salida esperada del comando mount

  • A continuación, comprueba la cantidad de datos presentes en cada sistema de archivos:
df -h | grep /mnt

La imagen muestra la salida esperada del comando df

Figura 7 - Salida esperada del comando df

Como puedes ver, fs1 y fs2 contienen 12 GiB de datos, y fs3 contiene 22 GiB de datos.

Ahora, vamos a configurar las exportaciones NFS. Para permitir que los agentes de AWS DataSync accedan al servidor NFS, configura el archivo /etc/exports:

  • Abre el archivo /etc/exports como root utilizando un editor de texto:
sudo nano /etc/exports
  • Añade las siguientes líneas para definir exportaciones de sólo lectura (ro) para los agentes DataSync:
/mnt/fs1 10.12.14.243(ro,no_root_squash) 10.12.14.249(ro,no_root_squash)
/mnt/fs2 10.12.14.243(ro,no_root_squash) 10.12.14.249(ro,no_root_squash)
/mnt/fs3 10.12.14.243(ro,no_root_squash) 10.12.14.249(ro,no_root_squash)

Sustituye 10.12.14.243 y 10.12.14.249 por las IP privadas de tus instancias EC2 del agente DataSync de las salidas de CloudFormation.

  •  Aplica la nueva configuración de exportación reiniciando el servicio NFS:
sudo systemctl restart nfs
  • Verifica las exportaciones NFS:
showmount -e

La imagen muestra la salida esperada del comando showmount

Figura 8 - Salida esperada del comando showmount

Configuración de CloudWatch y activación de los agentes de AWS DataSync

Con el servidor NFS configurado, el siguiente paso es habilitar el registro de AWS CloudWatch para DataSync y activar los agentes de DataSync en la carpeta "N. Región "California". Esto garantiza que todas las transferencias de archivos se registren, proporcionando visibilidad sobre errores o fallos.

Antes de que AWS DataSync pueda enviar logs a CloudWatch, tenemos que crear una política de recursos que conceda a DataSync los permisos necesarios.

  • Copia la siguiente política JSON y guárdala como datasync-policy.json en tu máquina local:
{
    "Statement": [
        {
            "Sid": "DataSyncLogsToCloudWatchLogs",
            "Effect": "Allow",
            "Action": [
                "logs:PutLogEvents",
                "logs:CreateLogStream"
            ],
            "Principal": {
                "Service": "datasync.amazonaws.com"
            },
            "Resource": "*"
        }
    ],
    "Version": "2012-10-17"
}
  • A continuación, ejecuta el siguiente comando en tu terminal:
aws logs put-resource-policy --region us-west-1 --policy-name trustDataSync --policy-document file://datasync-policy.json

El comando anterior permite a AWS DataSync escribir registros en CloudWatch, lo que ayudará a monitorizar y depurar los problemas de transferencia.

Ahora, vamos a activar los agentes DataSync. Aunque las instancias EC2 del agente DataSync se crearon en el modo "N. California", deben activarse en esa región antes de su uso.

Nota: Si necesitas instalar el agente DataSync en VMware o en otro entorno local, consulta la guía oficial de AWS. Sin embargo, dado que estamos simulando una configuración local mediante instancias EC2, los agentes DataSync de este tutorial se despliegan siguiendo las mejores prácticas de AWS para instalaciones basadas en la nube.

  • Navega a la consola de administración de AWS y selecciona la opción "N. Región "California".
  • Abre el servicio AWS DataSync.
  • Si no existe ningún agente, haz clic en Empezar; si no, haz clic en Crear agente.
  • En la sección Punto final de servicio, déjalo como "Puntos finales de servicio público...".
  • En la sección Clave de activación, introduce la dirección IP pública del primer agente DataSync de las salidas de CloudFormation:
    • IP Pública del Agente 1
    • Agente 2 IP Pública:

La imagen muestra la pantalla de creación y activación del agente DataSync

Figura 8 - Crear y activar el agente DataSync

  • Haz clic en Obtener clave para recuperar la clave de activación.
  • Cuando la activación se haya realizado correctamente, introduce un nombre de Agente (por ejemplo, "Agente 1" o "Agente 2").
  • Aplica las etiquetas si es necesario.
  • Haz clic en Crearagente .
  • Repite los pasos anteriores para el segundo agente DataSync.

Crear una tarea DataSync

Ahora, ¡creemos por fin una tarea DataSync! Sigue estos pasos:

  • Ve a la consola de AWS DataSync.
  • Haz clic en TareasCrear tarea.
  • Crear ubicación de origen:
    • Ubicación tipo: Sistema de archivos en red (NFS).
    • Agentes: Selecciona tanto la "IP privada del Agente 1" como la "IP privada del Agente 2".
    • NFS Servidor Privado IP: IP privada NFS.
    • Ruta de montaje: /mnt/fs1/d0001 (copia sólo el directorio d0001 ).

Consola WS DataSync mostrando el paso "Configurar ubicación de origen". La interfaz muestra opciones para crear una nueva ubicación de origen con "Sistema de archivos de red (NFS)" como tipo de ubicación

Figura 10 - Configuración de la ubicación de origen para AWS DataSync

  • Crear ubicación de destino:
    • Tipo de emplazamiento: Amazon S3.
    • Selecciona el bucket S3 de las salidas de CloudFormation.
    • Clase de almacenamiento: Estándar.
    • Función IAM: Selecciona entre los resultados de CloudFormation

Configurar las tareas de transferencia de datos

Una vez configurado AWS DataSync, el siguiente paso es configurar las tareas de transferencia de datos. Estas tareas definen cómo, cuándo y dónde se transferirán los datos. AWS DataSync admite varias opciones para optimizar las transferencias, como el filtrado de archivos, la programación y la monitorización.

  • Configura los ajustes de la tarea:
    • Nombre de la tarea: Tarea de prueba
    • Patrones excluidos: */.htaccess y */index.html
    • Modo de transferencia: Transferir datos que sólo han cambiado (determina si DataSync transfiere sólo los datos y metadatos que difieren entre el origen y el destino).
    • Verifica los datos: Selecciona "Verificar sólo los datos transferidos".
  • Activa el registro de CloudWatch:
    • Grupo de registro: Selecciona DataSyncLogs-datasync-incloud.
  • Haz clic en Siguiente, revisa la configuración y haz clic en Crear tarea.

Realizar la transferencia de datos con AWS DataSync

Después de configurar una tarea DataSync, tienes que ejecutar la transferencia y controlar su progreso. En esta sección se explica cómo iniciar una transferencia manualmente o a través de la CLI, hacer un seguimiento de su estado y solucionar los problemas más comunes.

Iniciar la transferencia de datos

  • Espera a que el estado de la tarea cambie de "Creando" a "Disponible".
  • Pulsa el botón Iniciar revisa la configuración y pulsa Iniciar.

La consola de AWS DataSync muestra una tarea DataSync configurada con el estado "Disponible".

Figura 11 - Lista de tareas de AWS DataSync que muestra las opciones para iniciar, editar o eliminar la tarea

  • Controla el progreso de la tarea:
    • Pasará por estos estados: LanzamientoPreparandoTransfiriendoVerificandoÉxito.

Seguimiento del progreso de la transferencia

Haz clic en el botón Tarea historial y selecciona el objeto de ejecución para ver las estadísticas de transferencia en la tarea.

La consola de AWS DataSync muestra las estadísticas de rendimiento, incluido el total de archivos transferidos (10.041), los datos transferidos (194,73 MiB) y las métricas de rendimiento para la tasa de procesamiento, la tasa de transferencia de datos y el uso de la red.

Figura 12 - Métricas de rendimiento de AWS DataSync que muestran el rendimiento de archivos, el rendimiento de datos y la utilización de la red

Solución de problemas de transferencia de datos

Durante las transferencias de AWS DataSync, pueden producirse problemas comunes como fallos de conectividad, errores de permisos o velocidades de transferencia lentas. Para solucionar problemas:

  1. Comprueba los registros de CloudWatch - Identifica errores relacionados con permisos de archivos, conectividad del agente o transferencias fallidas.
  2. Verifica la conectividad de la red - Asegúrate de que los agentes DataSync pueden llegar tanto al origen (NFS/SMB) como al destino (S3, EFS, FSx).
  3. Revisa los permisos IAM - Confirma que el rol de servicio DataSync tiene los permisos necesarios para leer/escribir datos.
  4. Inspecciona la configuración del agente - Asegúrate de que los agentes están correctamente activados, en buen estado y pueden comunicarse con el servicio AWS DataSync.

Pasos posteriores a la transferencia y sincronización de datos

Una vez completada la transferencia de datos, es importante verificar la integridad de los archivos transferidos y establecer una sincronización continua si es necesario. Esta sección explica cómo comprobar la exactitud de los datos, programar sincronizaciones incrementales y limpiar los recursos no utilizados para optimizar los costes.

Verificar la integridad de los datos

  • Abre la consola de AWS S3 y navega hasta el bucket que empieza por "datasync".
  • Examina el cubo y comprueba que se han transferido todos los archivos esperados.

Bucket de AWS S3 mostrando los archivos transferidos a través de AWS DataSync

Figura 13 - Bucket AWS S3 mostrando los archivos transferidos a través de AWS DataSync

  • Asegúrate de que no se han copiado los archivos .htaccess y index.html.

También puedes comprobar los detalles de ejecución de la tarea a través de la CLI de AWS:

  • Obtén el ARN de ejecución de la tarea:
aws datasync list-task-executions --region us-west-1 | grep exec-
  • Describe la ejecución de la tarea:
aws datasync describe-task-execution --region us-west-1 --task-execution-arn <task-execution-arn>

Salida de la ejecución de la tarea de descripción de AWS DataSync, mostrando el estado: ÉXITO, archivos transferidos: 10.041, bytes transferidos: 204 MB, y exclusiones para los archivos .htaccess e index.html.

Figura 14 - Detalles de la ejecución de la tarea AWS DataSync

  • Revisa las métricas clave de rendimiento: EstimatedFilesToTransfer, BytesTransferred, velocidad de transferencia y duración.

Sincronización continua de datos

En el mundo real, se siguen añadiendo y modificando archivos después de una transferencia inicial. AWS DataSync admite transferencias incrementales, garantizando que sólo se copien en el destino los archivos nuevos o modificados. En esta sección, modificaremos los datos en fs2, ejecutaremos una transferencia incremental y optimizaremos el proceso utilizando filtros.

Empecemos modificando archivos en fs2.

  • Accede al servidor NFS mediante SSH:
ssh ec2-user@<NFS-Server-IP>
  • Crea un nuevo archivo y actualiza la lista de manifiestos:
cd /mnt/fs2/d0001/dir0001
dd if=/dev/urandom of=newfile1 bs=1M count=1
echo "newfile1" >> manifest.lst

Esto añade un nuevo archivo (newfile1) y modifica manifest.lst.

Después, vuelve a ejecutar la tarea para sincronizar los cambios:

  • Ve a la consola de AWS DataSync.
  • Haz clic en TareasPrueba Tarea (tarea creada previamente).
  • Haz clic en Iniciar para iniciar una nueva ejecución.
  • Supervisar los progresos en el marco de la Tarea historial de tareas.
  • Una vez completado, verifícalo:
    • 3 archivos transferidos (newfile1, actualización de manifest.lst, y actualización de la carpeta).
    • 1 MiB de datos copiados a S3.

Métricas de rendimiento de AWS DataSync que muestran una transferencia incremental.

Figura 15 - Métricas de rendimiento de AWS DataSync que muestran una transferencia incremental

  • Valida la transferencia en S3:
    • Ve al cubo S3 y confirma la presencia de newfile1.
    • Consulta manifest.lst para ver la fecha y hora actualizadas.

Automatizar las transferencias de DataSync con tareas programadas

Para entornos en los que los datos cambian con frecuencia, programar sincronizaciones periódicas garantiza que el destino permanezca actualizado con una intervención manual mínima. AWS DataSync te permite configurar tareas a intervalos regulares (por ejemplo, cada hora, cada día o cada semana), lo que reduce la sobrecarga operativa. 

Estableciendo una programación recurrente, DataSync detectará y transferirá automáticamente sólo los archivos nuevos y modificados, optimizando el uso del ancho de banda y la eficacia de la transferencia.

Para programar una tarea:

  1. Ve a la consola de AWS DataSync y edita una tarea existente.
  2. En el Programar selecciona "Diario", "Semanal", etc.
  3. Indica la hora concreta (opcional).
  4. Guarda la configuración y DataSync ejecutará la tarea a los intervalos especificados.

Limpieza y optimización de costes

Una vez finalizada la transferencia de datos, es esencial limpiar los recursos no utilizados para evitar costes innecesarios. Sigue estos pasos:

  • Detener y eliminar tareas de DataSync:
    • Ve a la consola de AWS DataSync, selecciona la tarea y elige Detener si se está ejecutando.
    • Haz clic en AccionesEliminar para eliminar las tareas completadas.
  • Borrar agentes DataSync:
    • Navegar a Agentes en la consola de DataSync.
    • Selecciona los agentes y haz clic en Borrar para eliminarlos.

Eliminar la pila de CloudFormation

  • Abre la consola de AWS CloudFormation.
  • Selecciona la Pila de CloudFormation creada durante el tutorial.
  • Haz clic en Borrar (esquina superior derecha).

Interfaz de AWS que solicita confirmación para eliminar una pila de CloudFormation.

Figura 15 - Confirmación de la eliminación de la pila en AWS

  • Confirma la eliminación: CloudFormation eliminará automáticamente todos los recursos asociados (esto puede tardar hasta 15 minutos).
  • Supervisa la consola de CloudFormation para asegurarte de que la pila se ha eliminado por completo.

Optimizar los costes de AWS DataSync

Para minimizar los gastos de transferencia de datos, ten en cuenta estas buenas prácticas:

  1. Utilizar transferencias incrementales - Configura DataSync para que sólo transfiera archivos nuevos o modificados, a fin de reducir el movimiento innecesario de datos.
  2. Optimiza la frecuencia de transferencia - Programa las tareas en función de la frecuencia de cambio de los datos, en lugar de ejecutar sincronizaciones continuas.
  3. Elige un almacenamiento rentable - Almacena los datos a los que se accede con poca frecuencia en Amazon S3 Glacier en lugar de Amazon EFS, que tiene costes más elevados.

Limpiando adecuadamente los recursos y optimizando las estrategias de transferencia, puedes reducir significativamente los costes de AWS, manteniendo al mismo tiempo una sincronización eficaz de los datos.

Características avanzadas de AWS DataSync

Más allá de las transferencias básicas, AWS DataSync ofrece potentes capacidades que mejoran el rendimiento, la rentabilidad y la seguridad. Esta sección explora casos clave de uso avanzado, como la integración con S3 y la migración de NFS a EFS.

Utilizar DataSync con Amazon S3

AWS DataSync es una potente herramienta para mover grandes cantidades de datos hacia y desde S3 y es ideal para tareas de backup, archivo y migración a la nube. Mejora el rendimiento mediante subidas multiparte, que dividen los archivos grandes en partes más pequeñas y luego las transfieren en paralelo. Además, la integración de DataSync con las clases de almacenamiento S3 ayuda a los usuarios a ahorrar dinero migrando los datos menos activos a S3 Glacier o S3 Intelligent-Tiering.

En este tutorial, explicamos cómo configurar una tarea DataSync, configurar una fuente NFS y mover archivos a un bucket S3, todo ello excluyendo los archivos no deseados. Puedes utilizar estos pasos para programar grandes traslados de datos con poco o ningún impacto operativo.

Migrar de NFS a Amazon EFS con DataSync

Para las organizaciones que necesitan migrar recursos compartidos NFS locales a Amazon EFS, la solución es automatizada, segura y escalable: AWS DataSync. El problema es que S3 es almacenamiento de objetos. Al mismo tiempo, Amazon EFS (Elastic File System) es un servicio de almacenamiento de archivos totalmente administrado que cumple con POSIX, lo que lo convierte en una buena opción para aplicaciones que necesitan acceso compartido y un rendimiento de baja latencia.

He aquí cómo ayuda DataSync en la migración de NFS a EFS:

  1. Conserva los metadatos - Conserva los permisos, las marcas de tiempo y la propiedad de los archivos.
  2. Admite sincronizaciones incrementales - Copia sólo los archivos modificados o nuevos, reduciendo los costes de transferencia.
  3. Automatiza la migración - No necesitas scripts manuales ni complejas estrategias de movimiento de datos.

Aunque este tutorial se basó en la migración de NFS a S3, se pueden utilizar los mismos principios de DataSync al migrar a Amazon EFS. La principal variación es elegir EFS como objetivo para que el movimiento de datos se ejecute bien para las aplicaciones que necesitan un sistema de archivos con escalado dinámico en AWS. 

Prácticas recomendadas para utilizar AWS DataSync

Para sacar el máximo partido de AWS DataSync, es esencial seguir las mejores prácticas que mejoran la velocidad, la seguridad y la rentabilidad. Esta sección abarca estrategias clave para optimizar las transferencias de datos, garantizar su seguridad y gestionar la supervisión con eficacia.

Optimiza la velocidad y el coste de la transferencia

Para migraciones de datos a gran escala, AWS Direct Connect (DX) es una conexión de red privada dedicada que evita la Internet pública y permite transferencias más rápidas y seguras con menor latencia. Si DX no está disponible, otras alternativas, comolas conexiones VPN o el peering VPC, pueden mejorar las velocidades de transferencia manteniendo la seguridad.

Además, AWS DataSync tiene incorporadala compresión que disminuye la cantidad de datos que se mueven por la red, aumentando así las velocidades y minimizando los costes de ancho de banda. Sin embargo, como la compresión utiliza recursos de la CPU, es crucial comparar las ventajas de rendimiento con la posible sobrecarga del sistema. 

Además, la programación de tareas y la configuración pueden optimizarse para mejorar aún más el rendimiento de DataSync. Reprogramar las transferencias a horas valle evita el tráfico en la red y garantiza la disponibilidad del ancho de banda, especialmente cuando se mueven archivos grandes. El ajuste fino del tamaño del búfer y de varios flujos de transferencia paralelos en función de la capacidad de la red y del almacenamiento mejora drásticamente el rendimiento. 

Para flujos de trabajo de archivos pequeños, aumentar el nivel de paralelismo reduce el tiempo necesario para transferir datos. En cambio, una gestión eficaz de los búferes mejora el rendimiento y la fiabilidad de los archivos grandes.

Garantizar la seguridad de los datos

Todos los datos que transfiere AWS DataSync se cifran en tránsito a través de TLS para garantizar una transferencia segura por la red. También debe estar activado el cifrado para los servicios de almacenamiento de destino, incluidos Amazon S3, Amazon EFS y Amazon FSx. Para aumentar el nivel de protección al utilizar S3, habilita tambiénel cifrado del lado del servidor.

Al asignar roles IAM para las tareas de DataSync, sigue el principio del menor privilegio. Para minimizar los riesgos de seguridad, sólo concede los permisos necesarios a los agentes DataSync y a los roles de ejecución de tareas. Abstente de utilizar claves de política basadas en etiquetas y emplea en su lugar políticas basadas en recursos para evitar alteraciones imprevistas de los datos.

Para las transferencias de datos intra-VPC, habilita los puntos finales de la VPC para atender el tráfico de DataSync dentro de la red de AWS sin involucrar a la Internet pública. Esto ayuda a reducir los riesgos de seguridad y a mejorar el rendimiento al mover datos entre distintos servicios de AWS.

El agente DataSync debe ejecutarse de forma segura, siguiendo las nuevas recomendaciones sobre seguridad del sistema operativo y segmentación de la red. También debe estar actualizado, y deben aplicarse las políticas de grupo de seguridad de AWS para denegar el acceso no autorizado.

Supervisar y gestionar eficazmente las transferencias

Una monitorización eficaz ayudará a garantizar que las transferencias de datos se realizan correctamente y de forma optimizada en AWS DataSync. Este tutorial también ha mostrado cómo integrarse con CloudWatch para proporcionar un seguimiento en tiempo real de la ejecución de tareas, velocidades de transferencia, tasas de error y rendimiento. Revisar los registros de tareas ayuda a identificar problemas, comprobar la integridad de los archivos y solucionar las transferencias fallidas.

Gráficos de AWS CloudWatch que muestran las métricas de transferencia de DataSync, incluido el número de archivos transferidos, el total de bytes movidos y los bytes escritos, con picos de actividad para dos agentes.

Figura 16 - Panel de monitorización de AWS DataSync CloudWatch que muestra los archivos transferidos, los bytes transferidos

Además, las alarmas de CloudWatchnotifican cuando las transferencias han fallado o tienen problemas de rendimiento, lo que puede ocurrir antes de lo previsto y puede tratarse antes de que se conviertan en un problema mayor.

Solución de problemas de AWS DataSync

Aunque AWS DataSync automatiza las transferencias de datos, puedes encontrarte con problemas de conectividad, errores de permisos o incoherencias en los datos. Esta sección proporciona soluciones a problemas comunes, explica cómo depurar utilizando los registros y garantiza una sincronización de datos fluida.

Errores comunes y cómo solucionarlos

Los usuarios de AWS DataSync pueden encontrarse con tiempos de espera, problemas de permisos o errores de integridad de los datos durante las transferencias. Aquí tienes algunos problemas frecuentes y sus soluciones:

  • Tiempo de espera de la tarea o transferencias lentas
    • Causa: Congestión de la red, límites de ancho de banda o elevado número de archivos.
    • Solución: Aumenta la asignación de ancho de banda y programa las transferencias fuera de las horas punta.
  • Errores de permiso denegado
    • Causa: Funciones IAM o restricciones de acceso NFS/SMB.
    • Solución: Asegúrate de que el rol IAM de DataSync tiene los permisos correctos y comprueba que los permisos de exportación NFS o de recurso compartido SMB permiten el acceso del agente.
  • Problemas de integridad de los datos (archivos corruptos o ausentes)
    • Causa: Transferencias incompletas, interrupciones o errores de verificación.
    • Solución: Activa el modo de verificación de datos en la configuración de la tarea, comprueba los registros en busca de archivos omitidos o fallidos, y vuelve a ejecutar la tarea si es necesario.
  • Fallos de conexión del agente
    • Causa: Mala configuración de la red, bloqueo del cortafuegos o activación incorrecta.
    • Solución: Asegúrate de que el agente tiene acceso a Internet o configura los extremos de la VPC para una conectividad privada. Si es necesario, vuelve a registrar al agente.

Depuración con logs y CloudWatch

Para solucionar eficazmente los problemas de las tareas de AWS DataSync, los registros proporcionan información valiosa sobre las transferencias fallidas, los archivos omitidos y los errores de red. Este tutorial ha mostrado la integración de CloudWatch para supervisar y depurar las ejecuciones de DataSync.

A continuación te explicamos cómo comprobar los registros de tareas de DataSync:

  • Navega a CloudWatch Registros → Abre el grupo de registros asociado a la tarea DataSync.
  • Busca mensajes de error o fallos de transferencia relacionados con problemas de permisos, tiempos de espera o errores de red.

Registros de AWS CloudWatch que muestran los detalles de ejecución de la tarea DataSync, incluido el inicio de la tarea, el registro del host de destino y el estado de finalización de la ejecución. Hay dos alarmas visibles en la sección Alarmas.

Figura 17 - Flujo de registro de AWS CloudWatch para la ejecución de la tarea DataSync

A continuación, configura las Alarmas de CloudWatch para los fallos:

  • Ir a CloudWatch Métricas → Selecciona AWS/DataSync.
  • Crea alarmas para las tasas de fallo elevadas, las caídas de velocidad de transferencia o los problemas de conectividad de los agentes.

Conclusión

AWS DataSync simplifica las transferencias de datos automatizadas, seguras y eficientes entre entornos locales y servicios de almacenamiento de AWS como Amazon S3, EFS y FSx. Este tutorial proporciona un enfoque práctico para configurar DataSync, configurar NFS como fuente y transferir datos garantizando la seguridad y el rendimiento.

Exploramos las transferencias incrementales, la programación de tareas y la supervisión de CloudWatch para optimizar DataSync en cuanto a coste, velocidad y fiabilidad. Además, los pasos para solucionar problemas y las técnicas de análisis de registros ayudan a diagnosticar y resolver eficazmente los problemas de transferencia.

Si eres nuevo en AWS o quieres profundizar en los conceptos y servicios de la nube, te recomiendo que consultes estos recursos de aprendizaje relacionados:

Estos cursos son una forma estupenda de adquirir conocimientos básicos y prepararse para situaciones reales en la nube con AWS.


Rahul Sharma's photo
Author
Rahul Sharma
LinkedIn
Twitter

Rahul Sharma es embajador de AWS, arquitecto DevOps y bloguero técnico especializado en computación en la nube, prácticas DevOps y tecnologías de código abierto. Con experiencia en AWS, Kubernetes y Terraform, simplifica conceptos complejos para estudiantes y profesionales a través de atractivos artículos y tutoriales. A Rahul le apasiona resolver los retos de DevOps y compartir conocimientos para capacitar a la comunidad tecnológica.

Temas

Aprende más sobre AWS con estos cursos

Programa

AWS Cloud Practitioner (CLF-C02)

0 min
Prepare for Amazon’s AWS Certified Cloud Practitioner (CLF-C02) by learning how to use and secure core AWS compute, database, and storage services.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

AWS Certified Cloud Practitioner: guía completa

Comprende la certificación y el examen AWS Certified Cloud Practitioner con nuestra guía completa. Descubre consejos, recursos y estrategias para garantizar tu éxito.
Srujana Maddula's photo

Srujana Maddula

13 min

blog

Los 13 mejores proyectos de AWS: De principiante a profesional

Explora 13 proyectos prácticos de AWS para todos los niveles. Mejora tus conocimientos sobre la nube con aplicaciones prácticas del mundo real y la orientación de expertos.
Joleen Bothma's photo

Joleen Bothma

12 min

Tutorial

Primeros pasos con AWS Athena: Guía práctica para principiantes

Esta guía práctica te ayudará a empezar a utilizar AWS Athena. Explora su arquitectura y características y aprende a consultar datos en Amazon S3 utilizando SQL.
Tim Lu's photo

Tim Lu

15 min

Tutorial

Sinapsis Azure: Guía paso a paso para principiantes

Una guía fácil de seguir para que los principiantes aprendan Azure Synapse, que abarca desde la configuración de tu espacio de trabajo hasta la integración de datos y la ejecución de análisis.
Moez Ali's photo

Moez Ali

13 min

Tutorial

Cuentas de almacenamiento Azure: Tutorial paso a paso para principiantes

Esta guía te enseña a configurar y gestionar las Cuentas de Almacenamiento de Azure, paso a paso. También explora opciones avanzadas de configuración para un rendimiento óptimo y una optimización de costes.
Anneleen Rummens's photo

Anneleen Rummens

11 min

Tutorial

Base de datos Azure SQL: Configuración y gestión paso a paso

Aprende a crear, conectar, gestionar, consultar y proteger tu base de datos Azure SQL. Esta guía paso a paso cubre todo lo esencial para una configuración óptima de la base de datos.
Anneleen Rummens's photo

Anneleen Rummens

12 min

Ver másVer más