curso
Azure Data Factory: Guía completa para principiantes
Azure Data Factory (ADF) es el servicio de integración de datos en la nube de Microsoft adaptado a las organizaciones modernas. Permite a los usuarios diseñar, gestionar y automatizar flujos de trabajo que gestionan tareas de movimiento y transformación de datos a escala empresarial.
ADF destaca por su interfaz fácil de usar y sin código, que permite tanto a los usuarios técnicos como a los no técnicos crear canalizaciones de datos fácilmente. Sus amplias capacidades de integración admiten más de 90 conectores nativos, lo que permite el flujo de datos a través de diversas fuentes, incluidos los sistemas locales y los servicios basados en la nube.
En esta guía, ofrezco una introducción completa a Azure Data Factory, cubriendo sus componentes y características y proporcionando un tutorial práctico para ayudarte a crear tu primera canalización de datos.
¿Qué es Azure Data Factory?
Azure Data Factory (ADF) es un servicio de integración de datos basado en la nube diseñado para orquestar y automatizar flujos de trabajo de datos.
Se utiliza para recopilar, transformar y entregar datos, garantizando que la información sea fácilmente accesible para el análisis y la toma de decisiones.
Con su arquitectura escalable y sin servidor, ADF puede manejar flujos de trabajo de cualquier tamaño, desde simples migraciones de datos hasta complejas canalizaciones de transformación de datos.
ADF tiende un puente entre los silos de datos, permitiendo a los usuarios mover y transformar datos entre sistemas locales, servicios en la nube y plataformas externas. Tanto si trabajas con big data, bases de datos operativas o API, Azure Data Factory proporciona las herramientas para conectar, procesar y unificar datos de forma eficiente.
Características de Azure Data Factory
Éstas son algunas de las características más importantes que ofrece el ADF.
1. Integración de datos
Azure Data Factory admite la integración con más de 90 fuentes de datos, incluidos sistemas basados en la nube y locales. Incluye compatibilidad con bases de datos SQL, sistemas NoSQL, API REST y fuentes de datos basadas en archivos, lo que te permite unificar los flujos de trabajo de datos independientemente de la fuente o el formato.
Conectores de datos disponibles en Azure Data Factory
2. Creación de canalizaciones sin código
La interfaz de arrastrar y soltar del ADF simplifica el modo en que los usuarios crean canalizaciones de datos. Con plantillas prediseñadas, asistentes de configuración guiados y un editor visual intuitivo, incluso los usuarios sin experiencia en codificación pueden diseñar flujos de trabajo completos de principio a fin.
Experiencia de creación sin código en Azure Data Factory
3. Programación
Las herramientas de programación de Azure Data Factory ofrecen automatización del flujo de trabajo. Los usuarios pueden configurar activadores basados en condiciones específicas, como la llegada de un archivo al almacenamiento en la nube o intervalos de tiempo programados. Estas opciones de programación eliminan la necesidad de intervenciones manuales y garantizan que los flujos de trabajo se ejecuten de forma coherente y fiable.
Programar pipelines en Azure Data Factory
Componentes principales de Azure Data Factory
Comprender los componentes básicos de Azure Data Factory es esencial para crear flujos de trabajo eficientes.
1. Tuberías
Las canalizaciones son la columna vertebral de Azure Data Factory. Representan flujos de trabajo basados en datos que definen los pasos necesarios para mover y transformar los datos.
Cada canalización sirve de contenedor para una o más actividades, ejecutadas secuencialmente o en paralelo, para conseguir el flujo de datos deseado.
Estas canalizaciones permiten a los ingenieros de datos crear procesos integrales, como la ingesta de datos brutos, su transformación en un formato utilizable y su carga en los sistemas de destino.
Ejemplo de canalización simple en Azure Data Factory
2. Actividades
Las actividades son los bloques funcionales de las canalizaciones, cada uno de los cuales realiza una operación específica. Se clasifican a grandes rasgos en:
- Actividades de movimiento de datos: Estas actividades facilitan la transferencia de datos entre distintos sistemas de almacenamiento. Por ejemplo, la actividad "Copiar datos" mueve datos de Azure Blob Storage a una Azure SQL Database.
- Actividades de transformación de datos: Estas actividades te permiten manipular o procesar datos. Por ejemplo, pueden utilizarse flujos de datos o scripts personalizados para transformar formatos de datos, agregar valores o limpiar conjuntos de datos.
- Controlar las actividades de flujo: Gestionan el flujo lógico de ejecución dentro de las canalizaciones. Algunos ejemplos son la bifurcación condicional, los bucles y la ejecución paralela, que proporcionan flexibilidad en el manejo de flujos de trabajo complejos.
Actividades en Azure Data Factory
3. Conjuntos de datos
Los conjuntos de datos son representaciones de los datos utilizados en las actividades. Definen el esquema, el formato y la ubicación de los datos que se ingieren o procesan.
Por ejemplo, un conjunto de datos puede describir un archivo CSV en Azure Blob Storage o una tabla en Azure SQL Database. Los conjuntos de datos son la capa intermedia que conecta las actividades con las fuentes y destinos reales de los datos.
Conjuntos de datos en Azure Data Factory
4. Servicios vinculados
Los servicios enlazados son cadenas de conexión que permiten a las actividades y conjuntos de datos acceder a sistemas y servicios externos.
Actúan como puentes entre Azure Data Factory y los recursos externos con los que interactúa, como bases de datos, cuentas de almacenamiento o entornos informáticos.
Por ejemplo, un servicio vinculado puede conectarse a un servidor SQL local o a un lago de datos basado en la nube.
Servicios enlazados en Azure Data Factory
5. Tiempos de ejecución de integración
Los tiempos de ejecución de integración (IR) son los entornos informáticos que impulsan el movimiento de datos, la transformación y la ejecución de actividades dentro de Azure Data Factory. ADF proporciona tres tipos de tiempos de ejecución de integración:
- Azure IR: Se encarga de las tareas de integración de datos en la nube y está gestionado íntegramente por Azure.
- RI autoalojado: Admite el movimiento de datos entre los sistemas locales y la nube, por lo que es ideal para escenarios híbridos.
- SSIS IR: Permite la ejecuciónn de paquetes de SQL Server Integration Services (SSIS) dentro de Azure, permitiéndote reutilizar los flujos de trabajo SSIS existentes en la nube.
Tiempos de ejecución de integración en Azure Data Factory
Domina Azure desde cero
Configuración de Azure Data Factory
Ahora, ¡pasemos a la parte práctica de esta guía!
1. Requisitos previos
1. Una suscripción active Azure.
2. Un grupo de recursos para gestionarlos recursos de Azure.
2. Crear una instancia de Azure Data Factory
1. Inicia sesión en en el portal Azure.
2. Navega hasta Crear un recurso y selecciona Fábrica de datos.
Crear un nuevo recurso Fábrica de datos
3. Rellena los campos obligatorios, incluyendo la suscripción, el grupo de recursos y la región.
Configurar el recurso Fábrica de datos
4. Revisa y crea la instancia.
Instancia de Azure Data Factory creada
3. Navegar por la interfaz del ADF
La interfaz del ADF consta de las siguientes secciones principales (accesibles a través del menú de navegación de la izquierda)
1. Autor: Para crear y gestionar canalizaciones.
2. Monitor: Para hacer un seguimiento de las ejecuciones de tuberías y solucionar problemas.
3. Gestiona: Para configurar los servicios vinculados y los tiempos de ejecución de integración.
Interfaz Azure Data Factory
Construir tu primera canalización en Azure Data Factory
Vamos a recorrer los pasos para crear una sencilla canalización de datos.
Paso 1: Crear servicios vinculados
Crear un servicio vinculado en Azure Data Factory
1. Ve a la pestaña Gestionar
- Abre tu instancia de Azure Data Factory y ve a la pestañaGestionar de la interfaz ADF. Aquí es donde defines los servicios enlazados, que conectan tus fuentes y destinos de datos.
2. Añade un servicio vinculado para la fuente de datos
- Haz clic en Servicios vinculados en la pestaña Gestionar.
- Selecciona + Nuevo para crear un nuevo servicio vinculado.
- En la lista de opciones disponibles, selecciona la fuente de datos a la que deseas conectarte, como por ejemplo Azure Blob Storage.
- Proporciona los detalles de conexión necesarios, como el nombre de la cuenta de almacenamiento y el método de autenticación (por ejemplo, clave de cuenta o identidad gestionada).
- Prueba la conexión para asegurarte de que todo está configurado correctamente y haz clic en Crear.
3. Añade un servicio vinculado para el destino de los datos
- Repite el proceso para el destino de los datos, como por ejemplo Base de datos Azure SQL.
- Selecciona el tipo de destino adecuado, configura los parámetros de conexión (por ejemplo, el nombre del servidor, el nombre de la base de datos y el método de autenticación) y prueba la conexión.
- Una vez verificado, guarda el servicio vinculado.
Paso 2: Crear un conjunto de datos
Crear un conjunto de datos en Azure Data Factory
1. Navega hasta la pestaña Autor
- Abre la pestañaAutor en tu interfaz de Azure Data Factory. Aquí es donde diseñas y gestionas tus canalizaciones, conjuntos de datos y otros componentes del flujo de trabajo.
2. Añade un conjunto de datos para la fuente
- Pulsa el botón + y selecciona Conjunto de datos en el menú desplegable.
- Elige el tipo de almacén de datos que coincida con tu servicio vinculado de origen. Por ejemplo, si tu fuente es Azure Blob Storage, selecciona el tipo de almacén de datos correspondiente, como Texto delimitado, Parquet u otra opción relevante.
- Configura el conjunto de datos:
- Servicio vinculado: Selecciona el servicio vinculado que creaste anteriormente para la fuente de datos.
- Ruta del archivo: Especifica la ruta o el contenedor donde residen tus datos de origen.
- Esquema y formato: Define el formato de los datos (por ejemplo, CSV, JSON) e importa el esquema si procede. Esto permite al ADF comprender la estructura de tus datos.
- Haz clic en OK para guardar el conjunto de datos.
3. Añade un conjunto de datos para el destino
- Repite el proceso para el conjunto de datos de destino.
- Elige el tipo de almacén de datos que se ajuste a tu servicio enlazado de destino. Por ejemplo, si tu destino es Azure SQL Database, selecciona el tipo apropiado, como Tabla.
- Configura el conjunto de datos:
- Servicio vinculado: Selecciona el servicio vinculado que creaste para el destino.
- Nombre o ruta de la tabla: Especifica la tabla o ruta de destino donde se escribirán los datos.
- Schema: Opcionalmente, define o importa el esquema del conjunto de datos de destino para garantizar la compatibilidad con los datos de origen.
- Guarda el conjunto de datos.
Paso 3: Añadir actividades
Añadir una actividad de copia de datos en Azure Data Factory
1. Abre el editor de Pipeline
- En el Autor crea una nueva canalización haciendo clic en + y seleccionando Canalización.
- Esto abrirá el editor de canalizaciones, una interfaz visual donde puedes diseñar tus flujos de trabajo de datos.
2. Añade la actividad Copiar datos
- En la caja de herramientas de la izquierda, localiza la opción Copiar datos bajo la actividad Mover y transformar categoría.
- Arrastra la actividadCopiar datos al lienzo. Esta actividad mueve los datos del origen al destino.
3. Configura la actividad de copiar datos
- Pulsa el botón Copiar datos para abrir su panel de configuración.
- Bajo el Fuente pestaña
- Selecciona el conjunto de datos fuente que creaste anteriormente.
- Configura opciones adicionales, como filtros de archivos o carpetas, si es necesario.
- Bajo el Fregadero ficha:
- Selecciona el conjunto de datos de destino.
- Especifica cualquier configuración adicional, como la forma de tratar los datos existentes en el destino (p. ej, sobrescribir o añadir).
- Utiliza el Mapeo para alinear los campos o columnas del origen al destino, asegurando la compatibilidad de los datos.
- Guarda tu configuración.
Paso 4: Publica y ejecuta el pipeline
Publicación de pipelines en Azure Data Factory
1. Publica tu pipeline
- Una vez configurado tu pipeline, haz clic en Publicar en la barra de herramientas.
- Esto guarda tu canalización y la prepara para la ejecución. Sin publicar, los cambios realizados en tu pipeline permanecen como borradores y no se pueden ejecutar.
2. Ejecuta la tubería
- Para probar tu pipeline, haz clic en Añadir activador en la parte superior y selecciona Activar ahora para una ejecución manual. Esto te permite verificar que la tubería funciona como se espera.
- Alternativamente, establece una programación automatizada:
- Ir a la sección Activadores y crea un nuevo activador.
- Define las condiciones de activación, como un horario (por ejemplo, todos los días a las 8:00 AM) o una condición basada en un evento (por ejemplo, la llegada de un archivo a Azure Blob Storage).
- Asocia el desencadenante a tu pipeline para permitir la automatización.
Capacidades de integración y transformación de Azure Data Factory
Azure Data Factory ofrece potentes funciones de integración y transformación de datos que simplifican los flujos de trabajo complejos y mejoran la productividad. En esta sección, repasaremos estas características.
1. Flujos de datos
Flujos de datos provide un entorno visual para definir la lógica de transformación, facilitando a los usuarios la manipulación y el tratamiento de los datos sin necesidad de escribir código complejo. Las tareas habituales que se realizan con los flujos de datos son
- Agregaciones: Resume los datos para extraer perspectivas significativas, como calcular las ventas totales o las métricas de rendimiento medio.
- Se une: Combina datos de múltiples fuentes para crear conjuntos de datos enriquecidos para los procesos posteriores.
- Filtros: Selecciona subconjuntos específicos de datos basándote en criterios definidos, lo que ayuda a centrarse en la información relevante.
Los flujos de datos también admiten operaciones avanzadas como derivaciones de columnas, conversiones de tipos de datos y transformaciones condicionales, lo que los convierte en herramientas versátiles para manejar diversos requisitos de datos.
2. Integración con Azure Synapse Analytics
ADF se integra perfectamente con Azure Synapse Analytics, lo que proporciona aiding una plataforma unificada para el procesamiento de big data y la analítica avanzada. Esta integración permite a los usuarios
- Organiza flujos de trabajo de datos integrales que incluyan la ingestión, la preparación y el análisis de datos.
- Aprovecha el potente motor de consulta de Synapse para procesar grandes conjuntos de datos con eficacia.
- Crea canalizaciones de datos que alimenten directamente Synapse Analyticsparacasos de uso de aprendizaje automático einformes.
Esta sinergia entre ADF y Synapse ayuda a agilizar los flujos de trabajo y reduce la complejidad de gestionar herramientas independientes para la integración y el análisis de datos.
3. Programación y supervisión de canalizaciones
- Programación: Como ya hemos dicho, las capacidades de programación del ADF ofrecen sólidas funciones de automatización. Los usuarios pueden definir desencadenantes basados en intervalos de tiempo (por ejemplo, cada hora o cada día) o en eventos (por ejemplo, la llegada de un archivo in Azure Blob Storage).
- Monitorización: La pestaña Monitor de Azure Data Factory, combinadacon Azure Monitor, proporcionaes de seguimiento y diagnóstico en tiempo real de las ejecuciones de pipeline. Los usuarios pueden ver registros detallados, seguir el progreso e identificar rápidamente cuellos de botella o fallos. Las alertas y notificaciones también se pueden configurar fácilmente.
Casos de uso de Azure Data Factory
Tras un repaso en profundidad de las características y componentes del ADF, veamos para qué podemos utilizarlo.
1. Migración de datos
ADF es una potente herramienta para migrar datos de sistemas locales a plataformas basadas en la nube. Simplifica las migraciones complejas automatizando el movimiento de datos, garantizando su integridad y minimizando el tiempo de inactividad.
Por ejemplo, puedes utilizar ADF para migrar datos de un servidor SQL Server locala una base de datos SQL de Azure con una intervención manual mínima. Al aprovechar los conectores incorporados y los tiempos de ejecución de integración, el ADF garantiza un proceso de migración seguro y eficaz, que da cabida tanto a los datos estructurados como a los no estructurados.
2. ETL para almacenamiento de datos
Los procesos de extracción, transformación y carga (ETL ) son el núcleo del almacenamiento de datos moderno. Azure Data Factory agiliza estos flujos de trabajo integrando datos de múltiples fuentes, aplicando lógica de transformación y cargándolos en un almacén de datos.
Por ejemplo, ADF puede consolidar datos de ventas de distintas regiones, transformarlos en un formato unificado y cargarlos en Azure Synapse Analytics. Este proceso racionalizado te permite mantener datos actualizados y de alta calidad para la elaboración de informes y la toma de decisiones.
Echa un vistazo a las 23 Mejores Herramientas ETL en 2024 y por qué elegirlas. |
3. Integración de datos para lagos de datos
Los lagos de datos sirven como repositorio central de diversos conjuntos de datos, permitiendo el análisis avanzado y el aprendizaje automático. El ADF facilita la ingesta de datos de varias fuentes en Azure Data Lake Storage, soportando escenarios batch y streaming.
Por ejemplo, puedes utilizar ADF para recopilar archivos de registro, feeds de redes sociales y datos de sensores IoT en un único lago de datos. Al proporcionar herramientas de transformación e integración de datos, el ADF garantiza que el lago de datos esté bien organizado y listo para las cargas de trabajo posteriores de análisis e IA.
Buenas prácticas para utilizar Azure Data Factory
Por último, merece la pena repasar algunas buenas prácticas para utilizar el ADF con eficacia.
1. Diseño modular de tuberías
Para crear flujos de trabajo mantenibles y escalables, diseña canalizaciones con componentes reutilizables. El diseño modular permite depurar, probar y actualizar más fácilmente las secciones individuales de la tubería. Por ejemplo, en lugar de incrustar lógica de transformación de datos en cada canalización, crea una canalización reutilizable que pueda invocarse en varios flujos de trabajo. Esto reduce la redundancia y mejora la coherencia entre proyectos.
2. Optimizar el movimiento de datos
- Utiliza la compresión: Para minimizar los tiempos de transferencia de datos y reducir el uso del ancho de banda de la red, comprime los conjuntos de datos grandes antes de moverlos. Por ejemplo, utilizar gzip o métodos similares puede acelerar significativamente el movimiento de archivos grandes.
- Selecciona el tiempo de ejecución de integración adecuado: La elección del tiempo de ejecución de la integración (Azure IR, Self-hosted IR o SSIS IR) es fundamental para optimizar el rendimiento. Por ejemplo, la IR autoalojada puede utilizarse para el movimiento de datos en las instalaciones, a fin de garantizar transferencias seguras y eficientes, mientras que la IR de Azure es ideal para operaciones nativas en la nube.
3. Implementar un tratamiento de errores robusto
- Políticas de reintento: Configura políticas de reintento para errores transitorios, como interrupciones temporales de la red o tiempos de espera del servidor. Esto garantiza que las tuberías puedan recuperarse y completarse con éxito sin intervención manual.
- Establece alertas: Implementa alertas y notificaciones para informar proactivamente a tu equipo de los fallos de pipeline o problemas de rendimiento. Utiliza herramientas como Azure Monitor para configurar alertas personalizadas basadas en tipos de error o retrasos de ejecución específicos, garantizando una resolución rápida y un tiempo de inactividad mínimo.
Entonces, ¿en qué se diferencia Azure Data Factoryde Databricks? Si tienes curiosidad y quieres descubrir las diferencias entre Azure Data Factory y Databricks, consulta Azure Data Factory vs Databricks: Un blog de Comparación Detallada.
Conclusión
Azure Data Factory simplifica el proceso de creación, gestión y escalado de canalizaciones de datos en la nube. Proporciona una plataforma intuitiva que se adapta tanto a usuarios técnicos como no técnicos, permitiéndoles integrar y transformar datos de diversas fuentes de forma eficaz.
Aprovechando sus funciones, como la creación de canalizaciones sin código, las capacidades de integración y las herramientas de supervisión, los usuarios pueden crear fácilmente flujos de trabajo escalables y fiables.
Para saber más sobre Azure Data Factory, te recomiendo que consultes las 27 mejores preguntas y respuestas de la entrevista sobre Azure Data Factory.
Si quieres explorar la columna vertebral de Azure, incluyendo temas como contenedores, máquinas virtuales y más, mi recomendación es este increíble curso gratuito sobre Comprender la arquitectura y los servicios de Microsoft Azure.
¡Aprende más sobre Microsoft Azure con estos cursos!
curso
Understanding Microsoft Azure Architecture and Services
curso
Understanding Microsoft Azure Management and Governance
tutorial
Sinapsis Azure: Guía paso a paso para principiantes
tutorial
Base de datos Azure SQL: Configuración y gestión paso a paso

Anneleen Rummens
25 min
tutorial
Cuentas de almacenamiento Azure: Tutorial paso a paso para principiantes

Anneleen Rummens
20 min
tutorial
Tutorial de Power BI DAX para principiantes
tutorial
Tutorial de Power BI para principiantes

DataCamp Team
16 min
tutorial
Primeros pasos con AWS Athena: Guía práctica para principiantes

Tim Lu
28 min