Cursus
Azure Data Factory (ADF) is Microsofts cloudgebaseerde data-integratieservice die is afgestemd op moderne organisaties. Het stelt gebruikers in staat om workflows te ontwerpen, beheren en automatiseren die taken voor dataverplaatsing en -transformatie op ondernemingsschaal afhandelen.
ADF onderscheidt zich door zijn gebruiksvriendelijke no-code-interface, waarmee zowel technische als niet-technische gebruikers eenvoudig datapijplijnen kunnen bouwen. Dankzij de uitgebreide integratiemogelijkheden met meer dan 90 native connectors kan data stromen tussen diverse bronnen, waaronder on-premises systemen en clouddiensten.
In deze gids geef ik een uitgebreide introductie tot Azure Data Factory, met de belangrijkste componenten en functies, plus een praktische tutorial om je te helpen je eerste datapijplijn te maken.
Wat is Azure Data Factory?
Azure Data Factory (ADF) is een cloudgebaseerde data-integratieservice die is ontworpen om dataworkflows te orkestreren en te automatiseren.
Het wordt gebruikt om data te verzamelen, te transformeren en te leveren, zodat inzichten direct beschikbaar zijn voor analytics en besluitvorming.
Met zijn schaalbare en serverloze architectuur kan ADF workflows van elk formaat aan—van eenvoudige datamigraties tot complexe datatransformatiepijplijnen.
ADF overbrugt datasilo’s en stelt gebruikers in staat data te verplaatsen en te transformeren tussen on-premises systemen, clouddiensten en externe platforms. Of je nu werkt met big data, operationele databases of API’s, Azure Data Factory biedt de tools om data efficiënt te koppelen, te verwerken en te uniformeren.
Functies van Azure Data Factory
Hier zijn enkele van de belangrijkste functies die ADF biedt.
1. Dataintegratie
Azure Data Factory ondersteunt integratie met meer dan 100 native connectors, waaronder cloudgebaseerde en on-premises systemen. Het biedt ondersteuning voor SQL-databases, NoSQL-systemen, REST-API’s en bestandsgebaseerde databronnen, zodat je dataworkflows kunt verenigen ongeacht de bron of het formaat. Het is de fundamentele engine die ook de dataintegratiefuncties in Microsoft Fabric, Microsofts uniforme dataplatform, aandrijft.

Dataconnectors beschikbaar in Azure Data Factory
2. No-code pipeline-authoring
De drag-and-drop-interface van ADF vereenvoudigt het maken van datapijplijnen. Met vooraf gebouwde templates, begeleide configuratiewizards en een intuïtieve visuele editor kunnen zelfs gebruikers zonder codeerkennis end-to-endworkflows ontwerpen.

No-code authoring-ervaring in Azure Data Factory
3. Plannen
De planningshulpmiddelen van Azure Data Factory bieden workflowautomatisering. Gebruikers kunnen triggers instellen op basis van specifieke voorwaarden, zoals de aankomst van een bestand in cloudopslag of geplande tijdsintervallen. Deze planningsopties maken handmatige interventies overbodig en zorgen ervoor dat workflows consistent en betrouwbaar worden uitgevoerd.

Pijplijnen plannen in Azure Data Factory
Kerncomponenten van Azure Data Factory
Inzicht in de kerncomponenten van Azure Data Factory is essentieel om efficiënte workflows te bouwen.
1. Pijplijnen
Pijplijnen vormen de ruggengraat van Azure Data Factory. Ze vertegenwoordigen datagedreven workflows die de stappen definiëren die nodig zijn om data te verplaatsen en te transformeren.
Elke pijplijn fungeert als container voor één of meer activiteiten, die sequentieel of parallel worden uitgevoerd om de gewenste datastroom te realiseren.
Met deze pijplijnen kunnen data engineers end-to-endprocessen creëren, zoals het inladen van ruwe data, het omzetten naar een bruikbaar formaat en het laden in doelsystemen.

Voorbeeld van een eenvoudige pijplijn in Azure Data Factory
2. Activiteiten
Activiteiten zijn de functionele bouwstenen van pijplijnen en voeren elk een specifieke bewerking uit. Ze zijn grofweg onderverdeeld in:
- Dataverplaatsingsactiviteiten: Deze activiteiten faciliteren datatransfers tussen verschillende opslagsystemen. Zo verplaatst de activiteit "Copy data" data van Azure Blob Storage naar een Azure SQL Database.
- Datatransformatie-activiteiten: Met deze activiteiten kun je data manipuleren of verwerken. Bijvoorbeeld: dataflows of aangepaste scripts kunnen worden gebruikt om dataformaten te transformeren, waarden te aggregeren of datasets op te schonen.
- Controlflow-activiteiten: Deze beheren de logische uitvoeringsvolgorde binnen pijplijnen. Voorbeelden zijn conditionele vertakkingen, lussen en parallelle uitvoering, die flexibiliteit bieden bij het afhandelen van complexe workflows.

Activiteiten in Azure Data Factory
3. Datasets
Datasets zijn representaties van de data die in activiteiten worden gebruikt. Ze definiëren het schema, het formaat en de locatie van de data die wordt binnengehaald of verwerkt.
Een dataset kan bijvoorbeeld een CSV-bestand in Azure Blob Storage beschrijven of een tabel in een Azure SQL Database. Datasets vormen de intermediaire laag die activiteiten verbindt met de daadwerkelijke databronnen en -bestemmingen.

Datasets in Azure Data Factory
4. Gekoppelde services
Gekoppelde services zijn verbindingsreeksen die activiteiten en datasets toegang geven tot externe systemen en services.
Ze fungeren als bruggen tussen Azure Data Factory en de externe resources waarmee het samenwerkt, zoals databases, opslagaccounts of compute-omgevingen.
Zo kan een gekoppelde service verbinding maken met een on-premises SQL Server of een cloudgebaseerde datalake.

Gekoppelde services in Azure Data Factory
5. Integration runtimes
Integration runtimes (IR’s) zijn de compute-omgevingen die dataverplaatsing, transformatie en activiteituitvoering in Azure Data Factory aandrijven. ADF biedt drie typen integration runtimes:
- Azure IR: Handelt cloudgebaseerde dataintegratietaken af en wordt volledig door Azure beheerd.
- Self-hosted IR: Ondersteunt dataverplaatsing tussen on-premises systemen en de cloud en is ideaal voor hybride scenario’s.
- SSIS IR: Maakt de uitvoer van SQL Server Integration Services (SSIS)-pakketten binnen Azure mogelijk, zodat je bestaande SSIS-workflows in de cloud kunt hergebruiken.

Integration runtimes in Azure Data Factory
Azure Data Factory instellen
Laten we nu naar het praktische deel van deze gids gaan!
1. Vereisten
1. Een actieve Azure-abonnement.
2. Een resourcegroep voor het beheren van Azure-resources.
2. Een Azure Data Factory-exemplaar maken
1. Log in op de Azure-portal.
2. Navigeer naar Een resource maken en selecteer Data Factory.

Maak een nieuwe Data Factory-resource
3. Vul de vereiste velden in, waaronder abonnement, resourcegroep en regio.

Configureer Data Factory-resource
4. Controleer en maak het exemplaar.

Azure Data Factory-exemplaar gemaakt
3. Navigeren door de ADF-interface
De ADF-interface bestaat uit de volgende hoofdsecties (toegankelijk via het navigatiemenu aan de linkerkant)
1. Author: Voor het maken en beheren van pijplijnen.
2. Monitor: Om pijplijnruns te volgen en problemen op te lossen.
3. Manage: Voor het configureren van gekoppelde services en integration runtimes.

Azure Data Factory-interface
Je eerste pijplijn bouwen in Azure Data Factory
Laten we de stappen doorlopen om een eenvoudige datapijplijn te maken.
Stap 1: Gekoppelde services maken

Een gekoppelde service maken in Azure Data Factory
1. Ga naar het tabblad Manage
- Open je Azure Data Factory-exemplaar en ga naar het tabblad Manage in de ADF-interface. Hier definieer je gekoppelde services, die je databronnen en -bestemmingen verbinden.
2. Voeg een gekoppelde service toe voor de bron
- Klik op Linked services onder het tabblad Manage.
- Selecteer + New om een nieuwe gekoppelde service te maken.
- Kies uit de lijst met beschikbare opties de databron waarmee je verbinding wilt maken, zoals Azure Blob Storage.
- Geef de vereiste verbindingsgegevens op, zoals de naam van het opslagaccount en de verificatiemethode (bijv. accountsleutel of managed identity).
- Test de verbinding om te controleren of alles correct is ingesteld en klik op Create.
3. Voeg een gekoppelde service toe voor de bestemming
- Herhaal het proces voor de databestemming, zoals Azure SQL Database.
- Selecteer het juiste bestemmingstype, configureer de verbindingsinstellingen (bijv. servernaam, databasenaam en verificatiemethode) en test de verbinding.
- Sla de gekoppelde service op zodra deze is geverifieerd.
Stap 2: Maak een dataset

Een dataset maken in Azure Data Factory
1. Ga naar het tabblad Author
- Open het tabblad Author in je Azure Data Factory-interface. Hier ontwerp en beheer je pijplijnen, datasets en andere workflowcomponenten.
2. Voeg een dataset toe voor de bron
- Klik op de +-knop en selecteer Dataset in het dropdownmenu.
- Kies het type datastore dat overeenkomt met je gekoppelde bronservice. Als je bron bijvoorbeeld Azure Blob Storage is, selecteer dan het bijbehorende datastoretype, zoals Delimited Text, Parquet, of een andere relevante optie.
- Configureer de dataset:
- Linked service: Selecteer de gekoppelde service die je eerder voor de bron hebt gemaakt.
- Bestandspad: Geef het pad of de container op waar je brondata zich bevindt.
- Schema en formaat: Definieer het dataformaat (bijv. CSV, JSON) en importeer het schema indien van toepassing. Zo kan ADF de structuur van je data begrijpen.
- Klik op OK om de dataset op te slaan.
3. Voeg een dataset toe voor de bestemming
- Herhaal het proces voor de bestemmingsdataset.
- Kies het type datastore dat overeenkomt met je gekoppelde bestemmingsservice. Als je bestemming bijvoorbeeld Azure SQL Database is, selecteer dan het juiste type, zoals Table.
- Configureer de dataset:
- Linked service: Selecteer de gekoppelde service die je voor de bestemming hebt gemaakt.
- Tabelnaam of pad: Geef de tabel of het bestemmingspad op waar de data wordt weggeschreven.
- Schema: Definieer of importeer optioneel het schema voor de bestemmingsdataset om compatibiliteit met de brondata te waarborgen.
- Sla de dataset op.
Stap 3: Voeg activiteiten toe

Een Copy data-activiteit toevoegen in Azure Data Factory
1. Open de Pipeline-editor
- Maak in het tabblad Author een nieuwe pijplijn door op + te klikken en Pipeline te selecteren.
- Dit opent de pipeline-editor, een visuele interface waarin je je dataworkflows kunt ontwerpen.
2. Voeg de Copy data-activiteit toe
- Zoek in de toolbox links de activiteit Copy data onder de categorie Move & Transform.
- Sleep de activiteit Copy data naar het canvas. Deze activiteit verplaatst data van de bron naar de bestemming.
3. Configureer de Copy data-activiteit
- Klik op de activiteit Copy data om het instellingenpaneel te openen.
- Onder het tabblad Source:
- Selecteer de bron-dataset die je eerder hebt gemaakt.
- Configureer indien nodig extra opties, zoals bestands- of mapfilters.
- Onder het tabblad Sink:
- Selecteer de bestemmingsdataset.
- Specificeer eventuele extra instellingen, zoals hoe om te gaan met bestaande data op de bestemming (bijv. overschrijven of aanvullen).
- Gebruik het tabblad Mapping om de velden of kolommen van de bron aan de bestemming uit te lijnen, zodat de data compatibel is.
- Sla je configuratie op.
Stap 4: Publiceer en voer de pijplijn uit

Pijplijnen publiceren in Azure Data Factory
1. Publiceer je pijplijn
- Klik, zodra je pijplijn is geconfigureerd, op Publish in de toolbar.
- Hiermee sla je je pijplijn op en maak je deze klaar voor uitvoering. Zonder publiceren blijven aangebrachte wijzigingen concepten en kunnen ze niet worden uitgevoerd.
2. Voer de pijplijn uit
- Om je pijplijn te testen, klik je bovenaan op Add Trigger en selecteer je Trigger Now voor een handmatige run. Zo kun je verifiëren dat de pijplijn naar verwachting werkt.
- Stel anders een geautomatiseerd schema in:
- Ga naar het tabblad Triggers en maak een nieuwe trigger.
- Definieer de triggercondities, zoals een tijdgebonden schema (bijv. elke dag om 08:00) of een gebeurtenisgebonden voorwaarde (bijv. bestandsaankomst in Azure Blob Storage).
- Koppel de trigger aan je pijplijn om automatisering in te schakelen.
Integratie- en transformatiefuncties van Azure Data Factory
Azure Data Factory biedt krachtige dataintegratie- en transformatiefuncties die complexe workflows vereenvoudigen en de productiviteit verhogen. In dit onderdeel bespreken we deze functies.
1. Dataflows
Dataflows bieden een visuele omgeving voor het definiëren van transformatielogica, waardoor het voor gebruikers eenvoudiger wordt om data te manipuleren en te verwerken zonder complexe code te schrijven. Veelvoorkomende taken met dataflows zijn:
- Aggregaties: Data samenvatten om betekenisvolle inzichten te verkrijgen, zoals het berekenen van totale verkoop of gemiddelde prestatiemetingen.
- Joins: Data uit meerdere bronnen combineren om verrijkte datasets te creëren voor vervolgstappen.
- Filters: Specifieke subsets selecteren op basis van gedefinieerde criteria, zodat je je kunt richten op relevante informatie.
Dataflows ondersteunen ook geavanceerde bewerkingen zoals kolomafleidingen, datatypconversies en conditionele transformaties, waardoor het veelzijdige tools zijn voor uiteenlopende data-eisen.
2. Integratie met Azure Synapse Analytics
ADF integreert naadloos met Azure Synapse Analytics en biedt een uniform platform voor big dataverwerking en geavanceerde analytics. Deze integratie stelt gebruikers in staat om:
- End-to-end dataworkflows te orkestreren die data-inname, -voorbereiding en analytics omvatten.
- De krachtige query-engine van Synapse te benutten om grote datasets efficiënt te verwerken.
- Datapijplijnen te maken die rechtstreeks naar Synapse Analytics voeren voor machine learning en rapporting-usecases.
Deze synergie tussen ADF en Synapse helpt workflows te stroomlijnen en vermindert de complexiteit van het beheren van afzonderlijke tools voor dataintegratie en analyse.
3. Pijplijnen plannen en monitoren
- Plannen: Zoals vermeld, bieden de planningsmogelijkheden van ADF robuuste automatiseringsfuncties. Gebruikers kunnen triggers definiëren op basis van tijdsintervallen (bijv. elk uur, dagelijks) of gebeurtenissen (bijv. de aankomst van een bestand in Azure Blob Storage).
- Monitoren: Het tabblad Monitor in Azure Data Factory, gecombineerd met Azure Monitor, biedt realtimetracking en -diagnostiek voor pijplijnuitvoeringen. Gebruikers kunnen gedetailleerde logs bekijken, voortgang volgen en snel knelpunten of fouten identificeren. Meldingen en notificaties kunnen ook eenvoudig worden geconfigureerd.
Usecases voor Azure Data Factory
Na een grondige review van de functies en componenten van ADF, kijken we waar we het voor kunnen gebruiken.
1. Datamigratie
ADF is een krachtig hulpmiddel voor het migreren van data van on-premises systemen naar cloudplatforms. Het vereenvoudigt complexe migraties door dataverplaatsing te automatiseren, dataintegriteit te waarborgen en downtime te minimaliseren.
Zo kun je met ADF data migreren van een on-premises SQL Server naar een Azure SQL Database met minimale handmatige interventie. Door gebruik te maken van ingebouwde connectors en integration runtimes zorgt ADF voor een veilig en efficiënt migratieproces, voor zowel gestructureerde als ongestructureerde data.
2. ETL voor datawarehousing
Extract, transform, and load (ETL)-processen vormen de kern van modern datawarehousing. Azure Data Factory stroomlijnt deze workflows door data uit meerdere bronnen te integreren, transformatielogica toe te passen en deze te laden in een datawarehouse.
Zo kan ADF verkoopdata uit verschillende regio’s consolideren, omzetten naar een uniform formaat en laden in Azure Synapse Analytics. Dit gestroomlijnde proces zorgt voor actuele, hoogwaardige data voor rapportage en besluitvorming.
|
Bekijk 23 beste ETL-tools in 2024 en waarom je ervoor zou kiezen. |
3. Dataintegratie voor datalakes
Datalakes fungeren als centrale opslagplaats voor diverse datasets en maken geavanceerde analytics en machine learning mogelijk. ADF faciliteert het inladen van data uit verschillende bronnen in Azure Data Lake Storage, met ondersteuning voor batch- en streamingscenario’s.
Zo kun je met ADF logbestanden, socialmediafeeds en IoT-sensordata in één datalake verzamelen. Met transformatie- en integratietools zorgt ADF ervoor dat het datalake goed is georganiseerd en klaar is voor downstream analytics en AI-workloads.
Best practices voor het gebruik van Azure Data Factory
Tot slot is het de moeite waard om enkele best practices te bekijken voor effectief gebruik van ADF.
1. Modulaire pijplijnontwerp
Ontwerp pijplijnen met herbruikbare componenten om onderhoudbare en schaalbare workflows te creëren. Een modulair ontwerp maakt het eenvoudiger om afzonderlijke onderdelen te debuggen, testen en bijwerken. Maak bijvoorbeeld een herbruikbare pijplijn voor transformatielogica in plaats van die in elke pijplijn op te nemen. Dit vermindert redundantie en verhoogt de consistentie over projecten heen.
2. Optimaliseer dataverplaatsing
- Gebruik compressie: Om datatransfertijden te minimaliseren en netwerkbandbreedte te verminderen, comprimeer je grote datasets voordat je ze verplaatst. Het gebruik van bijvoorbeeld gzip kan het verplaatsen van grote bestanden aanzienlijk versnellen.
- Kies de juiste integration runtime: De keuze voor een integration runtime (Azure IR, Self-hosted IR of SSIS IR) is cruciaal voor het optimaliseren van prestaties. Zo kan self-hosted IR worden gebruikt voor on-premises dataverplaatsing om veilige en efficiënte overdrachten te garanderen, terwijl Azure IR ideaal is voor cloud-native operaties.
3. Implementeer robuuste foutafhandeling
- Retrybeleid: Configureer retrybeleid voor vluchtige fouten, zoals tijdelijke netwerkonderbrekingen of server-time-outs. Zo kunnen pijplijnen herstellen en succesvol afronden zonder handmatige tussenkomst.
- Stel meldingen in: Implementeer meldingen en notificaties om je team proactief te informeren bij pijplinfouten of prestatieproblemen. Gebruik tools zoals Azure Monitor om aangepaste alerts te configureren op basis van specifieke fouttypen of uitvoervertragingen, zodat je snel kunt ingrijpen en downtime tot een minimum beperkt.
Hoe verschilt Azure Data Factory dan van Databricks? Als je nieuwsgierig bent en de verschillen tussen Azure Data Factory en Databricks wilt ontdekken, bekijk dan de blog Azure Data Factory vs Databricks: A Detailed Comparison.
Azure Data Factory vs. Microsoft Fabric
Terwijl je Azure Data Factory onder de knie krijgt, is het cruciaal om de evolutie ervan te begrijpen: Microsoft Fabric.
Hoewel Azure Data Factory (ADF) een robuuste, zelfstandige Platform-as-a-Service (PaaS)-oplossing blijft die breed wordt gebruikt in enterprises, heeft Microsoft Fabric geïntroduceerd als de toekomst van zijn data-ecosysteem. Fabric is een alles-in-één SaaS-platform dat Data Factory, Synapse Analytics en Power BI samenbrengt in één omgeving.
Moet je ADF of Fabric gebruiken?
- Blijf bij ADF als: Je een volwassen, sterk aanpasbare PaaS-oplossing nodig hebt met diepe integratie in legacy on-premises systemen, of als je granulaire controle over infrastructuur nodig hebt (zoals dedicated Integration Runtimes).
- Kijk naar Fabric als: Je een modern dataplatform vanaf nul bouwt en een uniforme ervaring wilt waarin data engineering, datawarehousing en Power BI-visualisatie in één workspace plaatsvinden zonder data te verplaatsen (dankzij OneLake).
Let op: ADF-pijplijnen en Fabric Data Factory-pijplijnen lijken sterk op elkaar, dus de skills die je vandaag in ADF leert, zijn direct overdraagbaar naar Fabric. Je kunt onze Introduction to Microsoft Fabric-cursus volgen om meer te leren.
Conclusie
Azure Data Factory vereenvoudigt het bouwen, beheren en opschalen van datapijplijnen in de cloud. Het biedt een intuïtief platform voor zowel technische als niet-technische gebruikers, waarmee ze data uit verschillende bronnen efficiënt kunnen integreren en transformeren.
Door gebruik te maken van functies zoals codevrije pipeline-authoring, integratiemogelijkheden en monitoringtools, kunnen gebruikers eenvoudig schaalbare en betrouwbare workflows creëren.
Wil je meer leren over Azure Data Factory? Bekijk dan de Top 27 Azure Data Factory Interview Questions and Answers.
Als je de ruggengraat van Azure wilt verkennen, inclusief onderwerpen als containers, virtuele machines en meer, raad ik deze geweldige gratis cursus aan: Understanding Microsoft Azure Architecture and Services.
Azure Data Factory FAQ’s
Is Azure Data Factory een ETL- of ELT-tool?
Het ondersteunt beide. ADF wordt traditioneel gebruikt voor ELT (Extract, Load, Transform), waarbij ruwe data in een cloudbestemming wordt geladen voordat deze wordt verwerkt. Met Mapping Data Flows biedt het echter volledige visuele ETL-mogelijkheden, zodat je data tijdens het transport kunt transformeren zonder code te schrijven.
Wat is het verschil tussen Azure Data Factory en Microsoft Fabric?
Azure Data Factory (ADF) is een zelfstandige PaaS (Platform as a Service)-tool die puur gericht is op dataintegratie. Microsoft Fabric is een uniform SaaS (Software as a Service)-platform dat Data Factory-mogelijkheden combineert met Power BI, Synapse en Data Science-tools in één omgeving.
Heb ik programmeervaardigheden nodig om Azure Data Factory te gebruiken?
Nee. ADF is primair een low-code/no-code-platform met een drag-and-drop-interface voor het bouwen van pijplijnen. Kennis van SQL wordt echter sterk aanbevolen voor database-interacties, en Python is nuttig als je geavanceerde orkestratiefuncties zoals Airflow wilt gebruiken.
Hoe werkt de prijsstelling van Azure Data Factory?
ADF hanteert een pay-as-you-go-consumptiemodel. Je betaalt geen vast maandbedrag; in plaats daarvan worden de kosten berekend op basis van het aantal activity-runs, uren dataverplaatsing en de duur van dataflow-uitvoering. Dit maakt het kosteneffectief voor zowel kleine als grote workloads.
Kan Azure Data Factory verbinden met on-premises data?
Ja. Je kunt veilig verbinding maken met on-premises servers (zoals SQL Server, Oracle of bestandssystemen) door de Self-Hosted Integration Runtime te installeren op een lokale machine binnen je netwerk. Dit fungeert als een veilige gateway/brug naar de cloud zonder firewallpoorten te openen.
Wat is het verschil tussen ADF en Databricks?
ADF is een orkestrator die is ontworpen om workflows te plannen en te beheren. Databricks is een compute-engine die is geoptimaliseerd voor zware dataverwerking met Spark en Python. In veel architecturen triggert ADF Databricks-notebooks om complexe transformaties uit te voeren.
Hoe gaat ADF om met beveiliging?
Azure Data Factory biedt security op ondernemingsniveau, waaronder Managed Identity voor naadloze authenticatie zonder referenties te beheren, ondersteuning voor Azure Key Vault om secrets op te slaan, en Private Endpoints (via Azure Private Link) om te garanderen dat dataverkeer nooit over het publieke internet gaat.

