Saltar al contenido principal

Azure Data Factory: Guía completa para principiantes

¡Aprende los fundamentos de Azure Data Factory y construye tu primera canalización de datos con esta guía paso a paso!
Actualizado 15 ene 2025  · 30 min de lectura

Azure Data Factory (ADF) es el servicio de integración de datos en la nube de Microsoft adaptado a las organizaciones modernas. Permite a los usuarios diseñar, gestionar y automatizar flujos de trabajo que gestionan tareas de movimiento y transformación de datos a escala empresarial.

ADF destaca por su interfaz fácil de usar y sin código, que permite tanto a los usuarios técnicos como a los no técnicos crear canalizaciones de datos fácilmente. Sus amplias capacidades de integración admiten más de 90 conectores nativos, lo que permite el flujo de datos a través de diversas fuentes, incluidos los sistemas locales y los servicios basados en la nube.

En esta guía, ofrezco una introducción completa a Azure Data Factory, cubriendo sus componentes y características y proporcionando un tutorial práctico para ayudarte a crear tu primera canalización de datos.

¿Qué es Azure Data Factory?

Azure Data Factory (ADF) es un servicio de integración de datos basado en la nube diseñado para orquestar y automatizar flujos de trabajo de datos. 

Se utiliza para recopilar, transformar y entregar datos, garantizando que la información sea fácilmente accesible para el análisis y la toma de decisiones. 

Con su arquitectura escalable y sin servidor, ADF puede manejar flujos de trabajo de cualquier tamaño, desde simples migraciones de datos hasta complejas canalizaciones de transformación de datos.

ADF tiende un puente entre los silos de datos, permitiendo a los usuarios mover y transformar datos entre sistemas locales, servicios en la nube y plataformas externas. Tanto si trabajas con big data, bases de datos operativas o API, Azure Data Factory proporciona las herramientas para conectar, procesar y unificar datos de forma eficiente.

Características de Azure Data Factory

Éstas son algunas de las características más importantes que ofrece el ADF.

1. Integración de datos

Azure Data Factory admite la integración con más de 90 fuentes de datos, incluidos sistemas basados en la nube y locales. Incluye compatibilidad con bases de datos SQL, sistemas NoSQL, API REST y fuentes de datos basadas en archivos, lo que te permite unificar los flujos de trabajo de datos independientemente de la fuente o el formato.

Captura de pantalla de los conectores de datos en el ADF

Conectores de datos disponibles en Azure Data Factory

2. Creación de canalizaciones sin código

La interfaz de arrastrar y soltar del ADF simplifica el modo en que los usuarios crean canalizaciones de datos. Con plantillas prediseñadas, asistentes de configuración guiados y un editor visual intuitivo, incluso los usuarios sin experiencia en codificación pueden diseñar flujos de trabajo completos de principio a fin. 

Captura de pantalla de la experiencia de creación en ADF

Experiencia de creación sin código en Azure Data Factory

3. Programación

Las herramientas de programación de Azure Data Factory ofrecen automatización del flujo de trabajo. Los usuarios pueden configurar activadores basados en condiciones específicas, como la llegada de un archivo al almacenamiento en la nube o intervalos de tiempo programados. Estas opciones de programación eliminan la necesidad de intervenciones manuales y garantizan que los flujos de trabajo se ejecuten de forma coherente y fiable.

Captura de pantalla de la pantalla de programación en ADF

Programar pipelines en Azure Data Factory

Componentes principales de Azure Data Factory

Comprender los componentes básicos de Azure Data Factory es esencial para crear flujos de trabajo eficientes.

1. Tuberías

Las canalizaciones son la columna vertebral de Azure Data Factory. Representan flujos de trabajo basados en datos que definen los pasos necesarios para mover y transformar los datos. 

Cada canalización sirve de contenedor para una o más actividades, ejecutadas secuencialmente o en paralelo, para conseguir el flujo de datos deseado. 

Estas canalizaciones permiten a los ingenieros de datos crear procesos integrales, como la ingesta de datos brutos, su transformación en un formato utilizable y su carga en los sistemas de destino.

Captura de pantalla de una canalización sencilla creada en ADF

Ejemplo de canalización simple en Azure Data Factory

2. Actividades

Las actividades son los bloques funcionales de las canalizaciones, cada uno de los cuales realiza una operación específica. Se clasifican a grandes rasgos en:

  • Actividades de movimiento de datos: Estas actividades facilitan la transferencia de datos entre distintos sistemas de almacenamiento. Por ejemplo, la actividad "Copiar datos" mueve datos de Azure Blob Storage a una Azure SQL Database.
  • Actividades de transformación de datos: Estas actividades te permiten manipular o procesar datos. Por ejemplo, pueden utilizarse flujos de datos o scripts personalizados para transformar formatos de datos, agregar valores o limpiar conjuntos de datos.
  • Controlar las actividades de flujo: Gestionan el flujo lógico de ejecución dentro de las canalizaciones. Algunos ejemplos son la bifurcación condicional, los bucles y la ejecución paralela, que proporcionan flexibilidad en el manejo de flujos de trabajo complejos.

Captura de pantalla que muestra las Actividades en el ADF

Actividades en Azure Data Factory

3. Conjuntos de datos

Los conjuntos de datos son representaciones de los datos utilizados en las actividades. Definen el esquema, el formato y la ubicación de los datos que se ingieren o procesan. 

Por ejemplo, un conjunto de datos puede describir un archivo CSV en Azure Blob Storage o una tabla en Azure SQL Database. Los conjuntos de datos son la capa intermedia que conecta las actividades con las fuentes y destinos reales de los datos.

Captura de pantalla que muestra la creación de un nuevo conjunto de datos en el ADF

Conjuntos de datos en Azure Data Factory

4. Servicios vinculados

Los servicios enlazados son cadenas de conexión que permiten a las actividades y conjuntos de datos acceder a sistemas y servicios externos. 

Actúan como puentes entre Azure Data Factory y los recursos externos con los que interactúa, como bases de datos, cuentas de almacenamiento o entornos informáticos. 

Por ejemplo, un servicio vinculado puede conectarse a un servidor SQL local o a un lago de datos basado en la nube.

Captura de pantalla que muestra la creación de Servicios vinculados en ADF

Servicios enlazados en Azure Data Factory

5. Tiempos de ejecución de integración

Los tiempos de ejecución de integración (IR) son los entornos informáticos que impulsan el movimiento de datos, la transformación y la ejecución de actividades dentro de Azure Data Factory. ADF proporciona tres tipos de tiempos de ejecución de integración:

  • Azure IR: Se encarga de las tareas de integración de datos en la nube y está gestionado íntegramente por Azure.
  • RI autoalojado: Admite el movimiento de datos entre los sistemas locales y la nube, por lo que es ideal para escenarios híbridos.
  • SSIS IR: Permite la ejecuciónn de paquetes de SQL Server Integration Services (SSIS) dentro de Azure, permitiéndote reutilizar los flujos de trabajo SSIS existentes en la nube.

Captura de pantalla que muestra los Tiempos de Ejecución Integrados en ADF

Tiempos de ejecución de integración en Azure Data Factory

Domina Azure desde cero

Desarrolla habilidades de computación en la nube preparadas para el empleo dominando Azure.
Empieza a aprender gratis

Configuración de Azure Data Factory

Ahora, ¡pasemos a la parte práctica de esta guía!

1. Requisitos previos

1. Una suscripción active Azure.

2. Un grupo de recursos para gestionarlos recursos de Azure.

2. Crear una instancia de Azure Data Factory

1. Inicia sesión en en el portal Azure.

2. Navega hasta Crear un recurso y selecciona Fábrica de datos.

Captura de pantalla que muestra cómo crear un nuevo recurso en el portal Azure

Crear un nuevo recurso Fábrica de datos

3. Rellena los campos obligatorios, incluyendo la suscripción, el grupo de recursos y la región.

Captura de pantalla que muestra cómo crear un nuevo recurso en el portal Azure

Configurar el recurso Fábrica de datos

4. Revisa y crea la instancia.

Captura de pantalla que muestra cómo crear un nuevo recurso en el portal Azure

Instancia de Azure Data Factory creada

3. Navegar por la interfaz del ADF

La interfaz del ADF consta de las siguientes secciones principales (accesibles a través del menú de navegación de la izquierda)

1. Autor: Para crear y gestionar canalizaciones.

2. Monitor: Para hacer un seguimiento de las ejecuciones de tuberías y solucionar problemas.

3. Gestiona: Para configurar los servicios vinculados y los tiempos de ejecución de integración.

Captura de pantalla que muestra la interfaz ADF en el portal Azure

Interfaz Azure Data Factory

Construir tu primera canalización en Azure Data Factory

Vamos a recorrer los pasos para crear una sencilla canalización de datos.

Paso 1: Crear servicios vinculados

Captura de pantalla de Crear Servicios Vinculados en ADF

Crear un servicio vinculado en Azure Data Factory

1. Ve a la pestaña Gestionar

  • Abre tu instancia de Azure Data Factory y ve a la pestañaGestionar de la interfaz ADF. Aquí es donde defines los servicios enlazados, que conectan tus fuentes y destinos de datos.

2. Añade un servicio vinculado para la fuente de datos

  • Haz clic en Servicios vinculados en la pestaña Gestionar.
  • Selecciona + Nuevo para crear un nuevo servicio vinculado.
  • En la lista de opciones disponibles, selecciona la fuente de datos a la que deseas conectarte, como por ejemplo Azure Blob Storage.
  • Proporciona los detalles de conexión necesarios, como el nombre de la cuenta de almacenamiento y el método de autenticación (por ejemplo, clave de cuenta o identidad gestionada).
  • Prueba la conexión para asegurarte de que todo está configurado correctamente y haz clic en Crear.

3. Añade un servicio vinculado para el destino de los datos

  • Repite el proceso para el destino de los datos, como por ejemplo Base de datos Azure SQL.
  • Selecciona el tipo de destino adecuado, configura los parámetros de conexión (por ejemplo, el nombre del servidor, el nombre de la base de datos y el método de autenticación) y prueba la conexión.
  • Una vez verificado, guarda el servicio vinculado.

Paso 2: Crear un conjunto de datos

Captura de pantalla de Crear conjunto de datos en ADF

Crear un conjunto de datos en Azure Data Factory

1. Navega hasta la pestaña Autor

  • Abre la pestañaAutor en tu interfaz de Azure Data Factory. Aquí es donde diseñas y gestionas tus canalizaciones, conjuntos de datos y otros componentes del flujo de trabajo.

2. Añade un conjunto de datos para la fuente

  • Pulsa el botón + y selecciona Conjunto de datos en el menú desplegable.
  • Elige el tipo de almacén de datos que coincida con tu servicio vinculado de origen. Por ejemplo, si tu fuente es Azure Blob Storage, selecciona el tipo de almacén de datos correspondiente, como Texto delimitado, Parquet u otra opción relevante.
  • Configura el conjunto de datos:
    • Servicio vinculado: Selecciona el servicio vinculado que creaste anteriormente para la fuente de datos.
    • Ruta del archivo: Especifica la ruta o el contenedor donde residen tus datos de origen.
    • Esquema y formato: Define el formato de los datos (por ejemplo, CSV, JSON) e importa el esquema si procede. Esto permite al ADF comprender la estructura de tus datos.
  • Haz clic en OK para guardar el conjunto de datos.

3. Añade un conjunto de datos para el destino

  • Repite el proceso para el conjunto de datos de destino.
  • Elige el tipo de almacén de datos que se ajuste a tu servicio enlazado de destino. Por ejemplo, si tu destino es Azure SQL Database, selecciona el tipo apropiado, como Tabla.
  • Configura el conjunto de datos:
    • Servicio vinculado: Selecciona el servicio vinculado que creaste para el destino.
    • Nombre o ruta de la tabla: Especifica la tabla o ruta de destino donde se escribirán los datos.
    • Schema: Opcionalmente, define o importa el esquema del conjunto de datos de destino para garantizar la compatibilidad con los datos de origen.
  • Guarda el conjunto de datos.

Paso 3: Añadir actividades

Captura de pantalla de Creación de Pipeline en ADF

Añadir una actividad de copia de datos en Azure Data Factory

1. Abre el editor de Pipeline

  • En el Autor crea una nueva canalización haciendo clic en + y seleccionando Canalización.
  • Esto abrirá el editor de canalizaciones, una interfaz visual donde puedes diseñar tus flujos de trabajo de datos.

2. Añade la actividad Copiar datos

  • En la caja de herramientas de la izquierda, localiza la opción Copiar datos bajo la actividad Mover y transformar categoría.
  • Arrastra la actividadCopiar datos al lienzo. Esta actividad mueve los datos del origen al destino.

3. Configura la actividad de copiar datos

  • Pulsa el botón Copiar datos para abrir su panel de configuración.
  • Bajo el Fuente pestaña
    • Selecciona el conjunto de datos fuente que creaste anteriormente.
    • Configura opciones adicionales, como filtros de archivos o carpetas, si es necesario.
  • Bajo el Fregadero ficha:
    • Selecciona el conjunto de datos de destino.
    • Especifica cualquier configuración adicional, como la forma de tratar los datos existentes en el destino (p. ej, sobrescribir o añadir).
  • Utiliza el Mapeo para alinear los campos o columnas del origen al destino, asegurando la compatibilidad de los datos.
  • Guarda tu configuración.

Paso 4: Publica y ejecuta el pipeline

Captura de pantalla de Publicar en ADF

Publicación de pipelines en Azure Data Factory

1. Publica tu pipeline

  • Una vez configurado tu pipeline, haz clic en Publicar en la barra de herramientas.
  • Esto guarda tu canalización y la prepara para la ejecución. Sin publicar, los cambios realizados en tu pipeline permanecen como borradores y no se pueden ejecutar.

2. Ejecuta la tubería

  • Para probar tu pipeline, haz clic en Añadir activador en la parte superior y selecciona Activar ahora para una ejecución manual. Esto te permite verificar que la tubería funciona como se espera.
  • Alternativamente, establece una programación automatizada:
    • Ir a la sección Activadores y crea un nuevo activador.
    • Define las condiciones de activación, como un horario (por ejemplo, todos los días a las 8:00 AM) o una condición basada en un evento (por ejemplo, la llegada de un archivo a Azure Blob Storage).
    • Asocia el desencadenante a tu pipeline para permitir la automatización.

Capacidades de integración y transformación de Azure Data Factory

Azure Data Factory ofrece potentes funciones de integración y transformación de datos que simplifican los flujos de trabajo complejos y mejoran la productividad. En esta sección, repasaremos estas características.

1. Flujos de datos

Flujos de datos provide un entorno visual para definir la lógica de transformación, facilitando a los usuarios la manipulación y el tratamiento de los datos sin necesidad de escribir código complejo. Las tareas habituales que se realizan con los flujos de datos son

  • Agregaciones: Resume los datos para extraer perspectivas significativas, como calcular las ventas totales o las métricas de rendimiento medio.
  • Se une: Combina datos de múltiples fuentes para crear conjuntos de datos enriquecidos para los procesos posteriores.
  • Filtros: Selecciona subconjuntos específicos de datos basándote en criterios definidos, lo que ayuda a centrarse en la información relevante.

Los flujos de datos también admiten operaciones avanzadas como derivaciones de columnas, conversiones de tipos de datos y transformaciones condicionales, lo que los convierte en herramientas versátiles para manejar diversos requisitos de datos.

2. Integración con Azure Synapse Analytics

ADF se integra perfectamente con Azure Synapse Analytics, lo que proporciona aiding una plataforma unificada para el procesamiento de big data y la analítica avanzada. Esta integración permite a los usuarios

  • Organiza flujos de trabajo de datos integrales que incluyan la ingestión, la preparación y el análisis de datos.
  • Aprovecha el potente motor de consulta de Synapse para procesar grandes conjuntos de datos con eficacia.
  • Crea canalizaciones de datos que alimenten directamente Synapse Analyticsparacasos de uso de aprendizaje automático einformes.

Esta sinergia entre ADF y Synapse ayuda a agilizar los flujos de trabajo y reduce la complejidad de gestionar herramientas independientes para la integración y el análisis de datos.

3. Programación y supervisión de canalizaciones

  • Programación: Como ya hemos dicho, las capacidades de programación del ADF ofrecen sólidas funciones de automatización. Los usuarios pueden definir desencadenantes basados en intervalos de tiempo (por ejemplo, cada hora o cada día) o en eventos (por ejemplo, la llegada de un archivo in Azure Blob Storage). 
  • Monitorización: La pestaña Monitor de Azure Data Factory, combinadacon Azure Monitor, proporcionaes de seguimiento y diagnóstico en tiempo real de las ejecuciones de pipeline. Los usuarios pueden ver registros detallados, seguir el progreso e identificar rápidamente cuellos de botella o fallos. Las alertas y notificaciones también se pueden configurar fácilmente. 

Casos de uso de Azure Data Factory

Tras un repaso en profundidad de las características y componentes del ADF, veamos para qué podemos utilizarlo. 

1. Migración de datos

ADF es una potente herramienta para migrar datos de sistemas locales a plataformas basadas en la nube. Simplifica las migraciones complejas automatizando el movimiento de datos, garantizando su integridad y minimizando el tiempo de inactividad. 

Por ejemplo, puedes utilizar ADF para migrar datos de un servidor SQL Server locala una base de datos SQL de Azure con una intervención manual mínima. Al aprovechar los conectores incorporados y los tiempos de ejecución de integración, el ADF garantiza un proceso de migración seguro y eficaz, que da cabida tanto a los datos estructurados como a los no estructurados.

2. ETL para almacenamiento de datos

Los procesos de extracción, transformación y carga (ETL ) son el núcleo del almacenamiento de datos moderno. Azure Data Factory agiliza estos flujos de trabajo integrando datos de múltiples fuentes, aplicando lógica de transformación y cargándolos en un almacén de datos

Por ejemplo, ADF puede consolidar datos de ventas de distintas regiones, transformarlos en un formato unificado y cargarlos en Azure Synapse Analytics. Este proceso racionalizado te permite mantener datos actualizados y de alta calidad para la elaboración de informes y la toma de decisiones.

Echa un vistazo a las 23 Mejores Herramientas ETL en 2024 y por qué elegirlas.

3. Integración de datos para lagos de datos

Los lagos de datos sirven como repositorio central de diversos conjuntos de datos, permitiendo el análisis avanzado y el aprendizaje automático. El ADF facilita la ingesta de datos de varias fuentes en Azure Data Lake Storage, soportando escenarios batch y streaming. 

Por ejemplo, puedes utilizar ADF para recopilar archivos de registro, feeds de redes sociales y datos de sensores IoT en un único lago de datos. Al proporcionar herramientas de transformación e integración de datos, el ADF garantiza que el lago de datos esté bien organizado y listo para las cargas de trabajo posteriores de análisis e IA.

Buenas prácticas para utilizar Azure Data Factory

Por último, merece la pena repasar algunas buenas prácticas para utilizar el ADF con eficacia.

1. Diseño modular de tuberías

Para crear flujos de trabajo mantenibles y escalables, diseña canalizaciones con componentes reutilizables. El diseño modular permite depurar, probar y actualizar más fácilmente las secciones individuales de la tubería. Por ejemplo, en lugar de incrustar lógica de transformación de datos en cada canalización, crea una canalización reutilizable que pueda invocarse en varios flujos de trabajo. Esto reduce la redundancia y mejora la coherencia entre proyectos.

2. Optimizar el movimiento de datos

  • Utiliza la compresión: Para minimizar los tiempos de transferencia de datos y reducir el uso del ancho de banda de la red, comprime los conjuntos de datos grandes antes de moverlos. Por ejemplo, utilizar gzip o métodos similares puede acelerar significativamente el movimiento de archivos grandes.
  • Selecciona el tiempo de ejecución de integración adecuado: La elección del tiempo de ejecución de la integración (Azure IR, Self-hosted IR o SSIS IR) es fundamental para optimizar el rendimiento. Por ejemplo, la IR autoalojada puede utilizarse para el movimiento de datos en las instalaciones, a fin de garantizar transferencias seguras y eficientes, mientras que la IR de Azure es ideal para operaciones nativas en la nube.

3. Implementar un tratamiento de errores robusto

  • Políticas de reintento: Configura políticas de reintento para errores transitorios, como interrupciones temporales de la red o tiempos de espera del servidor. Esto garantiza que las tuberías puedan recuperarse y completarse con éxito sin intervención manual.
  • Establece alertas: Implementa alertas y notificaciones para informar proactivamente a tu equipo de los fallos de pipeline o problemas de rendimiento. Utiliza herramientas como Azure Monitor para configurar alertas personalizadas basadas en tipos de error o retrasos de ejecución específicos, garantizando una resolución rápida y un tiempo de inactividad mínimo.

Entonces, ¿en qué se diferencia Azure Data Factoryde Databricks? Si tienes curiosidad y quieres descubrir las diferencias entre Azure Data Factory y Databricks, consulta Azure Data Factory vs Databricks: Un blog de Comparación Detallada.

Conclusión

Azure Data Factory simplifica el proceso de creación, gestión y escalado de canalizaciones de datos en la nube. Proporciona una plataforma intuitiva que se adapta tanto a usuarios técnicos como no técnicos, permitiéndoles integrar y transformar datos de diversas fuentes de forma eficaz. 

Aprovechando sus funciones, como la creación de canalizaciones sin código, las capacidades de integración y las herramientas de supervisión, los usuarios pueden crear fácilmente flujos de trabajo escalables y fiables.

Para saber más sobre Azure Data Factory, te recomiendo que consultes las 27 mejores preguntas y respuestas de la entrevista sobre Azure Data Factory.

Si quieres explorar la columna vertebral de Azure, incluyendo temas como contenedores, máquinas virtuales y más, mi recomendación es este increíble curso gratuito sobre Comprender la arquitectura y los servicios de Microsoft Azure.


Moez Ali's photo
Author
Moez Ali
LinkedIn
Twitter

Científico de Datos, Fundador y Creador de PyCaret

Temas

¡Aprende más sobre Microsoft Azure con estos cursos!

curso

Understanding Microsoft Azure

3 hr
26.3K
Learn about the power of Microsoft Azure and cloud computing software to help you improve your data engineering skills.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

tutorial

Sinapsis Azure: Guía paso a paso para principiantes

Una guía fácil de seguir para que los principiantes aprendan Azure Synapse, que abarca desde la configuración de tu espacio de trabajo hasta la integración de datos y la ejecución de análisis.
Moez Ali's photo

Moez Ali

29 min

tutorial

Base de datos Azure SQL: Configuración y gestión paso a paso

Aprende a crear, conectar, gestionar, consultar y proteger tu base de datos Azure SQL. Esta guía paso a paso cubre todo lo esencial para una configuración óptima de la base de datos.
Anneleen Rummens's photo

Anneleen Rummens

25 min

tutorial

Cuentas de almacenamiento Azure: Tutorial paso a paso para principiantes

Esta guía te enseña a configurar y gestionar las Cuentas de Almacenamiento de Azure, paso a paso. También explora opciones avanzadas de configuración para un rendimiento óptimo y una optimización de costes.
Anneleen Rummens's photo

Anneleen Rummens

20 min

tutorial

Tutorial de Power BI DAX para principiantes

Aprende qué es DAX y descubre la sintaxis y las funciones DAX fundamentales que necesitarás para llevar tus conocimientos de Power BI al siguiente nivel.
Joleen Bothma's photo

Joleen Bothma

9 min

tutorial

Tutorial de Power BI para principiantes

Aprende los fundamentos de Power BI y a crear un informe básico con este tutorial paso a paso.
DataCamp Team's photo

DataCamp Team

16 min

tutorial

Primeros pasos con AWS Athena: Guía práctica para principiantes

Esta guía práctica te ayudará a empezar a utilizar AWS Athena. Explora su arquitectura y características y aprende a consultar datos en Amazon S3 utilizando SQL.
Tim Lu's photo

Tim Lu

28 min

Ver másVer más