Chuyển đến nội dung chính

Azure Data Factory: Hướng dẫn đầy đủ cho người mới bắt đầu

Tìm hiểu những kiến thức cơ bản về Azure Data Factory và xây dựng đường ống dữ liệu đầu tiên của bạn với hướng dẫn từng bước này!
Đã cập nhật 5 thg 6, 2026  · 13 phút đọc

Azure Data Factory (ADF) là dịch vụ tích hợp dữ liệu trên đám mây của Microsoft, được thiết kế cho các tổ chức hiện đại. Dịch vụ này cho phép người dùng thiết kế, quản lý và tự động hóa các quy trình làm việc để xử lý các tác vụ di chuyển và chuyển đổi dữ liệu ở quy mô doanh nghiệp.

ADF nổi bật nhờ giao diện không cần viết mã, thân thiện với người dùng, cho phép cả người dùng kỹ thuật và không kỹ thuật xây dựng các đường ống dữ liệu một cách dễ dàng. Khả năng tích hợp phong phú của ADF hỗ trợ hơn 90 trình kết nối gốc, cho phép luồng dữ liệu giữa nhiều nguồn khác nhau, bao gồm hệ thống tại chỗ và các dịch vụ đám mây.

Trong hướng dẫn này, tôi sẽ giới thiệu toàn diện về Azure Data Factory, bao gồm các thành phần và tính năng, đồng thời cung cấp một phần thực hành để giúp bạn tạo đường ống dữ liệu đầu tiên.

Azure Data Factory là gì?

Azure Data Factory (ADF) là dịch vụ tích hợp dữ liệu trên đám mây được thiết kế để điều phối và tự động hóa các quy trình làm việc với dữ liệu. 

Dịch vụ này được sử dụng để thu thập, chuyển đổi và phân phối dữ liệu, đảm bảo các thông tin chuyên sâu luôn sẵn sàng cho phân tích và ra quyết định. 

Với kiến trúc serverless và khả năng mở rộng, ADF có thể xử lý mọi quy trình làm việc—từ di chuyển dữ liệu đơn giản đến các đường ống chuyển đổi dữ liệu phức tạp.

ADF phá vỡ các “kho dữ liệu” rời rạc, cho phép người dùng di chuyển và chuyển đổi dữ liệu giữa hệ thống tại chỗ, dịch vụ đám mây và nền tảng bên ngoài. Dù bạn làm việc với dữ liệu lớn, cơ sở dữ liệu vận hành hay API, Azure Data Factory cung cấp công cụ để kết nối, xử lý và hợp nhất dữ liệu hiệu quả.

Các tính năng của Azure Data Factory

Dưới đây là một số tính năng quan trọng nhất mà ADF cung cấp.

1. Tích hợp dữ liệu

Azure Data Factory hỗ trợ tích hợp với hơn 100 trình kết nối gốc, bao gồm hệ thống đám mây và tại chỗ. Dịch vụ này hỗ trợ cơ sở dữ liệu SQL, hệ thống NoSQL, REST API và các nguồn dữ liệu dạng tệp, cho phép bạn hợp nhất quy trình dữ liệu bất kể nguồn hay định dạng. Đây cũng là động cơ nền tảng cung cấp khả năng tích hợp dữ liệu trong Microsoft Fabric, nền tảng dữ liệu hợp nhất của Microsoft.

Screen shot of data connectors in ADF

Các trình kết nối dữ liệu có sẵn trong Azure Data Factory

2. Biên soạn đường ống không cần mã

Giao diện kéo thả của ADF giúp đơn giản hóa việc tạo đường ống dữ liệu. Với mẫu dựng sẵn, trình hướng dẫn cấu hình và trình soạn thảo trực quan, ngay cả người không rành mã cũng có thể thiết kế các quy trình đầu-cuối hoàn chỉnh. 

Screen shot of authoring experience in ADF

Trải nghiệm biên soạn không cần mã trong Azure Data Factory

3. Lập lịch

Công cụ lập lịch của Azure Data Factory cung cấp khả năng tự động hóa quy trình. Người dùng có thể thiết lập kích hoạt dựa trên các điều kiện cụ thể, như khi tệp đến trong bộ nhớ đám mây hoặc các khoảng thời gian đã định. Các tùy chọn lập lịch này loại bỏ thao tác thủ công và đảm bảo quy trình được thực thi nhất quán, đáng tin cậy.

Screenshot of scheduling pipeline screen in ADF

Lập lịch đường ống trong Azure Data Factory

Các thành phần cốt lõi của Azure Data Factory

Hiểu các thành phần cốt lõi của Azure Data Factory là điều cần thiết để xây dựng quy trình làm việc hiệu quả.

1. Pipeline (đường ống)

Pipeline là xương sống của Azure Data Factory. Chúng đại diện cho các quy trình làm việc theo dữ liệu, xác định các bước cần thiết để di chuyển và chuyển đổi dữ liệu. 

Mỗi pipeline đóng vai trò là một vùng chứa cho một hoặc nhiều hoạt động (activity), được thực thi tuần tự hoặc song song để đạt luồng dữ liệu mong muốn. 

Các pipeline cho phép kỹ sư dữ liệu tạo quy trình đầu-cuối, như tiếp nhận dữ liệu thô, chuyển đổi dữ liệu sang định dạng sử dụng được và nạp vào hệ thống đích.

Screen shot of a simple pipeline created in ADF

Ví dụ một pipeline đơn giản trong Azure Data Factory

2. Activity (hoạt động)

Activity là các khối chức năng cấu thành pipeline, mỗi activity thực hiện một thao tác cụ thể. Chúng được phân loại rộng thành:

  • Hoạt động di chuyển dữ liệu: Hỗ trợ truyền dữ liệu giữa các hệ thống lưu trữ khác nhau. Ví dụ, activity "Copy data" chuyển dữ liệu từ Azure Blob Storage sang Azure SQL Database.
  • Hoạt động chuyển đổi dữ liệu: Cho phép thao tác hoặc xử lý dữ liệu. Chẳng hạn, data flow hoặc script tùy chỉnh có thể dùng để chuyển đổi định dạng, tổng hợp giá trị hoặc làm sạch tập dữ liệu.
  • Hoạt động điều khiển luồng (control flow): Quản lý luồng thực thi logic trong pipeline. Ví dụ gồm rẽ nhánh theo điều kiện, vòng lặp và thực thi song song, giúp linh hoạt xử lý quy trình phức tạp.

Screenshot showing Activities in ADF

Các activity trong Azure Data Factory

3. Dataset (tập dữ liệu)

Dataset là biểu diễn của dữ liệu được sử dụng trong các activity. Chúng xác định lược đồ, định dạng và vị trí của dữ liệu được nạp vào hoặc xử lý. 

Ví dụ, một dataset có thể mô tả tệp CSV trong Azure Blob Storage hoặc một bảng trong Azure SQL Database. Dataset là lớp trung gian kết nối activity với các nguồn và đích dữ liệu thực tế.

Screenshot showing creating new dataset in ADF

Dataset trong Azure Data Factory

4. Dịch vụ liên kết (Linked service)

Linked service là chuỗi kết nối cho phép activity và dataset truy cập các hệ thống và dịch vụ bên ngoài. 

Chúng hoạt động như cầu nối giữa Azure Data Factory và các tài nguyên bên ngoài mà ADF tương tác, như cơ sở dữ liệu, tài khoản lưu trữ hoặc môi trường tính toán. 

Ví dụ, một linked service có thể kết nối tới SQL Server tại chỗ hoặc một data lake trên đám mây.

Screenshot showing creating Linked services in ADF

Linked service trong Azure Data Factory

5. Integration runtime

Integration runtime (IR) là môi trường tính toán cung cấp năng lực di chuyển dữ liệu, chuyển đổi và thực thi activity trong Azure Data Factory. ADF cung cấp ba loại integration runtime:

  • Azure IR: Xử lý các tác vụ tích hợp dữ liệu trên đám mây và được Azure quản lý hoàn toàn.
  • Self-hosted IR: Hỗ trợ di chuyển dữ liệu giữa hệ thống tại chỗ và đám mây, lý tưởng cho kịch bản lai.
  • SSIS IR: Cho phép chạy gói SQL Server Integration Services (SSIS) trong Azure, giúp bạn tái sử dụng các quy trình SSIS hiện có trên đám mây.

Screenshot showing Integrated Runtimes in ADF

Integration runtime trong Azure Data Factory

Thiết lập Azure Data Factory

Giờ hãy chuyển sang phần thực hành của hướng dẫn này!

1. Điều kiện tiên quyết

1. Một gói đăng ký Azure đang hoạt động.

2. Một nhóm tài nguyên (resource group) để quản lý các tài nguyên Azure.

2. Tạo một phiên bản Azure Data Factory

1. Đăng nhập vào cổng Azure.

2. Điều hướng đến Create a resource và chọn Data Factory.

Screenshot showing how to create a new resource in Azure portal

Tạo tài nguyên Data Factory mới

3. Điền các trường bắt buộc, bao gồm subscription, resource group và khu vực (region).

Screenshot showing how to create a new resource in Azure portal

Cấu hình tài nguyên Data Factory

4. Xem lại và tạo phiên bản.

Screenshot showing how to create a new resource in Azure portal

Phiên bản Azure Data Factory đã được tạo

3. Điều hướng giao diện ADF

Giao diện ADF gồm các phần chính sau (truy cập qua menu điều hướng bên trái)

1. Author: Dùng để tạo và quản lý pipeline.

2. Monitor: Theo dõi lượt chạy pipeline và khắc phục sự cố.

3. Manage: Cấu hình linked service và integration runtime.

Screenshot showing ADF interface on Azure portal

Giao diện Azure Data Factory

Xây dựng pipeline đầu tiên của bạn trong Azure Data Factory

Hãy cùng đi qua các bước để tạo một đường ống dữ liệu đơn giản.

Bước 1: Tạo linked service

Screenshot of Create Linked Services in ADF

Tạo Linked service trong Azure Data Factory

1. Điều hướng đến thẻ Manage

  • Mở phiên bản Azure Data Factory của bạn và đi đến thẻ Manage trong giao diện ADF. Đây là nơi bạn định nghĩa các linked service, kết nối nguồn và đích dữ liệu.

2. Thêm linked service cho nguồn dữ liệu

  • Nhấp vào Linked services trong thẻ Manage.
  • Chọn + New để tạo linked service mới.
  • Từ danh sách tùy chọn, chọn nguồn dữ liệu bạn muốn kết nối, chẳng hạn Azure Blob Storage.
  • Cung cấp thông tin kết nối cần thiết, như tên tài khoản lưu trữ và phương thức xác thực (ví dụ: khóa tài khoản hoặc managed identity).
  • Kiểm tra kết nối để đảm bảo mọi thứ đã được thiết lập đúng, sau đó nhấp Create.

3. Thêm linked service cho đích dữ liệu

  • Lặp lại quy trình cho đích dữ liệu, chẳng hạn Azure SQL Database.
  • Chọn loại đích phù hợp, cấu hình cài đặt kết nối (ví dụ: tên máy chủ, tên cơ sở dữ liệu và phương thức xác thực) và kiểm tra kết nối.
  • Sau khi xác minh, lưu linked service.

Bước 2: Tạo dataset

Screenshot of Create Dataset in ADF

Tạo dataset trong Azure Data Factory

1. Điều hướng đến thẻ Author

  • Mở thẻ Author trong giao diện Azure Data Factory của bạn. Đây là nơi bạn thiết kế và quản lý pipeline, dataset và các thành phần quy trình khác.

2. Thêm dataset cho nguồn

  • Nhấp nút + và chọn Dataset trong menu thả xuống.
  • Chọn loại kho dữ liệu khớp với linked service nguồn của bạn. Ví dụ, nếu nguồn là Azure Blob Storage, hãy chọn loại tương ứng như Delimited Text, Parquet, hoặc tùy chọn phù hợp khác.
  • Cấu hình dataset:
    • Linked service: Chọn linked service bạn đã tạo trước đó cho nguồn dữ liệu.
    • Đường dẫn tệp: Chỉ định đường dẫn hoặc container chứa dữ liệu nguồn của bạn.
    • Lược đồ và định dạng: Xác định định dạng dữ liệu (ví dụ: CSV, JSON) và nhập lược đồ nếu áp dụng. Điều này giúp ADF hiểu cấu trúc dữ liệu của bạn.
  • Nhấp OK để lưu dataset.

3. Thêm dataset cho đích

  • Lặp lại quy trình cho dataset đích.
  • Chọn loại kho dữ liệu khớp với linked service đích. Ví dụ, nếu đích là Azure SQL Database, chọn loại phù hợp như Table.
  • Cấu hình dataset:
    • Linked service: Chọn linked service bạn đã tạo cho đích.
    • Tên bảng hoặc đường dẫn: Chỉ định bảng hoặc đường dẫn đích nơi dữ liệu sẽ được ghi.
    • Lược đồ: Tùy chọn định nghĩa hoặc nhập lược đồ cho dataset đích để đảm bảo tương thích với dữ liệu nguồn.
  • Lưu dataset.

Bước 3: Thêm activity

Screenshot of Pipeline Authoring in ADF

Thêm activity copy data trong Azure Data Factory

1. Mở trình soạn thảo Pipeline

  • Trong thẻ Author, tạo pipeline mới bằng cách nhấp + và chọn Pipeline.
  • Thao tác này sẽ mở trình soạn thảo pipeline, một giao diện trực quan để bạn thiết kế quy trình dữ liệu.

2. Thêm activity copy data

  • Từ hộp công cụ bên trái, tìm activity Copy data trong danh mục Move & Transform.
  • Kéo activity Copy data vào canvas. Activity này chuyển dữ liệu từ nguồn sang đích.

3. Cấu hình activity copy data

  • Nhấp vào activity Copy data để mở ngăn cài đặt.
  • Trong thẻ Source:
    • Chọn dataset nguồn bạn đã tạo trước đó.
    • Cấu hình thêm các tùy chọn như bộ lọc tệp hoặc thư mục nếu cần.
  • Trong thẻ Sink:
    • Chọn dataset đích.
    • Chỉ định các cài đặt bổ sung, như cách xử lý dữ liệu đã tồn tại ở đích (ví dụ: overwrite hoặc append).
  • Sử dụng thẻ Mapping để căn chỉnh các trường/cột từ nguồn sang đích, đảm bảo tương thích dữ liệu.
  • Lưu cấu hình của bạn.

Bước 4: Publish và chạy pipeline

Screenshot of Publish screen in ADF

Publish pipeline trong Azure Data Factory

1. Publish pipeline của bạn

  • Sau khi cấu hình xong pipeline, nhấp Publish trên thanh công cụ.
  • Thao tác này lưu pipeline và sẵn sàng để thực thi. Nếu không publish, các thay đổi vẫn ở dạng bản nháp và không thể chạy.

2. Chạy pipeline

  • Để kiểm thử pipeline, nhấp Add Trigger ở trên cùng và chọn Trigger Now để chạy thủ công. Việc này giúp bạn xác minh pipeline hoạt động như mong đợi.
  • Hoặc thiết lập lịch tự động:
    • Đi đến thẻ Triggers và tạo trigger mới.
    • Xác định điều kiện kích hoạt, như lịch theo thời gian (ví dụ: mỗi ngày lúc 8:00 sáng) hoặc điều kiện theo sự kiện (ví dụ: tệp đến trong Azure Blob Storage).
    • Gắn trigger với pipeline của bạn để kích hoạt tự động.

Khả năng tích hợp và chuyển đổi của Azure Data Factory

Azure Data Factory cung cấp các tính năng tích hợp và chuyển đổi dữ liệu mạnh mẽ giúp đơn giản hóa quy trình phức tạp và nâng cao năng suất. Phần này sẽ điểm qua các tính năng đó.

1. Data flow

Data flow mang đến môi trường trực quan để định nghĩa logic chuyển đổi, giúp người dùng dễ dàng thao tác và xử lý dữ liệu mà không cần viết mã phức tạp. Các tác vụ phổ biến với data flow gồm:

  • Tổng hợp (Aggregations): Tóm tắt dữ liệu để rút ra thông tin, như tính tổng doanh số hoặc giá trị hiệu suất trung bình.
  • Join: Kết hợp dữ liệu từ nhiều nguồn để tạo bộ dữ liệu phong phú phục vụ các bước tiếp theo.
  • Bộ lọc (Filters): Chọn các tập con dữ liệu theo tiêu chí xác định, giúp tập trung vào thông tin liên quan.

Data flow cũng hỗ trợ các thao tác nâng cao như suy diễn cột, chuyển đổi kiểu dữ liệu và chuyển đổi có điều kiện, khiến chúng trở thành công cụ linh hoạt để xử lý nhiều yêu cầu dữ liệu khác nhau.

2. Tích hợp với Azure Synapse Analytics

ADF tích hợp liền mạch với Azure Synapse Analytics, mang đến nền tảng hợp nhất cho xử lý dữ liệu lớn và phân tích nâng cao. Sự tích hợp này cho phép người dùng:

  • Điều phối quy trình dữ liệu đầu-cuối bao gồm tiếp nhận, chuẩn bị và phân tích dữ liệu.
  • Tận dụng công cụ truy vấn mạnh mẽ của Synapse để xử lý hiệu quả các tập dữ liệu lớn.
  • Tạo pipeline dữ liệu nạp trực tiếp vào Synapse Analytics cho các bài toán machine learning và báo ccáo.

Sự cộng hưởng giữa ADF và Synapse giúp tinh gọn quy trình và giảm bớt độ phức tạp khi phải quản lý riêng rẽ các công cụ tích hợp và phân tích dữ liệu.

3. Lập lịch và giám sát pipeline

  • Lập lịch: Như đã đề cập, khả năng lập lịch của ADF mang đến tính tự động hóa mạnh mẽ. Người dùng có thể định nghĩa trigger theo khoảng thời gian (ví dụ: hàng giờ, hàng ngày) hoặc sự kiện (ví dụ: tệp đến Azure Blob Storage). 
  • Giám sát: Thẻ Monitor trong Azure Data Factory, kết hợp với Azure Monitor, cung cấp khả năng theo dõi và chẩn đoán thời gian thực cho các lần thực thi pipeline. Người dùng có thể xem log chi tiết, theo dõi tiến độ và nhanh chóng xác định nút thắt hay lỗi. Cảnh báo và thông báo cũng có thể cấu hình dễ dàng. 

Các trường hợp sử dụng Azure Data Factory

Sau khi xem chi tiết các tính năng và thành phần của ADF, hãy cùng xem chúng ta có thể dùng ADF cho những gì. 

1. Di chuyển dữ liệu

ADF là công cụ mạnh mẽ để di chuyển dữ liệu từ hệ thống tại chỗ lên nền tảng đám mây. Dịch vụ này đơn giản hóa các lần di chuyển phức tạp bằng cách tự động hóa việc di chuyển dữ liệu, đảm bảo toàn vẹn dữ liệu và giảm thiểu thời gian ngừng hoạt động. 

Chẳng hạn, bạn có thể dùng ADF để di chuyển dữ liệu từ SQL Server tại chỗ sang Azure SQL Database với ít can thiệp thủ công. Bằng cách tận dụng các trình kết nối dựng sẵn và integration runtime, ADF đảm bảo quy trình di chuyển an toàn, hiệu quả, đáp ứng cả dữ liệu có cấu trúc và phi cấu trúc.

2. ETL cho kho dữ liệu

Quy trình trích xuất, chuyển đổi và nạp (ETL) là cốt lõi của kho dữ liệu hiện đại. Azure Data Factory giúp tinh gọn các quy trình này bằng cách tích hợp dữ liệu từ nhiều nguồn, áp dụng logic chuyển đổi và nạp vào kho dữ liệu

Ví dụ, ADF có thể hợp nhất dữ liệu bán hàng từ nhiều khu vực, chuyển đổi về định dạng thống nhất và nạp vào Azure Synapse Analytics. Quy trình tinh gọn này giúp bạn duy trì dữ liệu cập nhật, chất lượng cao cho báo cáo và ra quyết định.

Xem 23 công cụ ETL tốt nhất năm 2024 và lý do nên chọn chúng.

3. Tích hợp dữ liệu cho data lake

Data lake đóng vai trò kho lưu trữ tập trung cho các tập dữ liệu đa dạng, hỗ trợ phân tích nâng cao và học máy. ADF hỗ trợ tiếp nhận dữ liệu từ nhiều nguồn vào Azure Data Lake Storage, bao gồm cả kịch bản batch và streaming. 

Ví dụ, bạn có thể dùng ADF để thu thập tệp log, nguồn cấp dữ liệu mạng xã hội và dữ liệu cảm biến IoT vào một data lake duy nhất. Nhờ cung cấp công cụ chuyển đổi và tích hợp, ADF giúp data lake được tổ chức tốt và sẵn sàng cho phân tích và tác vụ AI phía sau.

Thực hành tốt nhất khi sử dụng Azure Data Factory

Cuối cùng, đáng để xem qua một số thực hành tốt để dùng ADF hiệu quả.

1. Thiết kế pipeline dạng mô-đun

Để tạo quy trình dễ bảo trì và mở rộng, hãy thiết kế pipeline với các thành phần có thể tái sử dụng. Thiết kế mô-đun giúp gỡ lỗi, kiểm thử và cập nhật từng phần dễ dàng hơn. Ví dụ, thay vì nhúng logic chuyển đổi dữ liệu trong mọi pipeline, hãy tạo một pipeline tái sử dụng có thể được gọi trong nhiều quy trình. Cách này giảm dư thừa và tăng tính nhất quán giữa các dự án.

2. Tối ưu hóa di chuyển dữ liệu

  • Dùng nén: Để giảm thời gian truyền và băng thông mạng, hãy nén các tập dữ liệu lớn trước khi di chuyển. Ví dụ, dùng gzip hoặc phương pháp tương tự có thể tăng tốc đáng kể việc truyền tệp lớn.
  • Chọn đúng integration runtime: Việc chọn integration runtime (Azure IR, Self-hosted IR hoặc SSIS IR) rất quan trọng để tối ưu hiệu năng. Ví dụ, self-hosted IR phù hợp cho di chuyển dữ liệu tại chỗ nhằm đảm bảo truyền an toàn, hiệu quả; trong khi Azure IR lý tưởng cho tác vụ thuần đám mây.

3. Triển khai xử lý lỗi vững chắc

  • Chính sách retry: Cấu hình retry cho các lỗi tạm thời, như gián đoạn mạng hoặc hết thời gian chờ máy chủ. Điều này giúp pipeline tự phục hồi và hoàn tất thành công mà không cần can thiệp thủ công.
  • Thiết lập cảnh báo: Triển khai cảnh báo và thông báo để chủ động thông tin cho nhóm của bạn khi pipeline gặp lỗi hoặc vấn đề hiệu năng. Dùng các công cụ như Azure Monitor để cấu hình cảnh báo tùy chỉnh dựa trên loại lỗi hoặc độ trễ thực thi cụ thể, đảm bảo khắc phục nhanh và giảm thiểu thời gian gián đoạn.

Vậy Azure Data Factory khác gì so với Databricks? Nếu bạn tò mò và muốn khám phá sự khác biệt giữa Azure Data Factory và Databricks, hãy xem bài viết so sánh chi tiết Azure Data Factory vs Databricks.

Azure Data Factory so với Microsoft Fabric

Khi bạn thành thạo Azure Data Factory, điều quan trọng là hiểu sự phát triển của nó: Microsoft Fabric.

Trong khi Azure Data Factory (ADF) vẫn là giải pháp PaaS độc lập, mạnh mẽ và được sử dụng rộng rãi trong doanh nghiệp, Microsoft đã giới thiệu Fabric như tương lai của hệ sinh thái dữ liệu. Fabric là nền tảng SaaS tất-cả-trong-một, hợp nhất Data Factory, Synapse Analytics và Power BI trong một môi trường duy nhất.

Nên dùng ADF hay Fabric?

  • Tiếp tục dùng ADF nếu: Bạn cần một giải pháp PaaS trưởng thành, có khả năng tùy biến cao, tích hợp sâu với hệ thống tại chỗ cũ, hoặc bạn cần kiểm soát chi tiết hạ tầng (như Integration Runtime chuyên biệt).
  • Xem xét Fabric nếu: Bạn đang xây dựng nền tảng dữ liệu hiện đại mới và muốn trải nghiệm hợp nhất, nơi kỹ thuật dữ liệu, kho dữ liệu và trực quan hóa Power BI diễn ra trong một workspace mà không cần di chuyển dữ liệu (nhờ OneLake).

Lưu ý: Pipeline của ADF và pipeline của Fabric Data Factory rất tương đồng, nên kỹ năng bạn học với ADF hôm nay có thể chuyển giao trực tiếp sang Fabric. Bạn có thể tham gia khóa Introduction to Microsoft Fabric để tìm hiểu thêm. 

Kết luận

Azure Data Factory đơn giản hóa quá trình xây dựng, quản lý và mở rộng các đường ống dữ liệu trên đám mây. Dịch vụ này cung cấp nền tảng trực quan phù hợp cho cả người dùng kỹ thuật và không kỹ thuật, giúp họ tích hợp và chuyển đổi dữ liệu từ nhiều nguồn một cách hiệu quả. 

Bằng cách tận dụng các tính năng như biên soạn pipeline không cần mã, khả năng tích hợp và công cụ giám sát, người dùng có thể dễ dàng tạo quy trình làm việc có khả năng mở rộng và độ tin cậy cao.

Để tìm hiểu thêm về Azure Data Factory, tôi khuyên bạn nên xem 27 Câu hỏi phỏng vấn Azure Data Factory hàng đầu kèm đáp án.

Nếu bạn muốn khám phá nền tảng của Azure, bao gồm các chủ đề như container, máy ảo và nhiều hơn nữa, tôi gợi ý khóa miễn phí tuyệt vời này: Understanding Microsoft Azure Architecture and Services.

Câu hỏi thường gặp về Azure Data Factory

Azure Data Factory là công cụ ETL hay ELT?

Có cả hai. ADF theo truyền thống được dùng cho ELT (Extract, Load, Transform), trong đó dữ liệu thô được nạp vào đích trên đám mây trước khi xử lý. Tuy nhiên, với Mapping Data Flow, ADF cung cấp đầy đủ khả năng ETL trực quan, cho phép bạn chuyển đổi dữ liệu trong quá trình mà không cần viết mã.

Sự khác biệt giữa Azure Data Factory và Microsoft Fabric là gì?

Azure Data Factory (ADF) là công cụ PaaS (Platform as a Service) độc lập tập trung thuần túy vào tích hợp dữ liệu. Microsoft Fabric là nền tảng SaaS (Software as a Service) hợp nhất, bao gồm khả năng Data Factory cùng với Power BI, Synapse và công cụ Khoa học dữ liệu trong một môi trường duy nhất.

Tôi có cần kỹ năng lập trình để dùng Azure Data Factory không?

Không. ADF chủ yếu là nền tảng low-code/no-code với giao diện kéo thả để xây dựng pipeline. Tuy nhiên, biết SQL rất được khuyến nghị khi làm việc với cơ sở dữ liệu, và Python hữu ích nếu bạn định dùng các tính năng điều phối nâng cao như Airflow.

Cách tính phí của Azure Data Factory như thế nào?

ADF sử dụng mô hình tính phí theo mức tiêu thụ. Bạn không bị tính phí cố định hàng tháng; thay vào đó, chi phí được tính dựa trên số lượt chạy activity, số giờ di chuyển dữ liệu và thời lượng thực thi data flow. Điều này giúp tiết kiệm chi phí cho cả khối lượng công việc nhỏ và lớn.

Azure Data Factory có kết nối được với dữ liệu tại chỗ không?

Có. Bạn có thể kết nối an toàn tới máy chủ tại chỗ (như SQL Server, Oracle hoặc hệ thống tệp) bằng cách cài đặt Self-Hosted Integration Runtime trên một máy cục bộ trong mạng của bạn. Nó hoạt động như một cổng/cầu nối an toàn tới đám mây mà không cần mở cổng tường lửa.

Sự khác biệt giữa ADF và Databricks là gì?

ADF là bộ điều phối (orchestrator) được thiết kế để lập lịch và quản lý quy trình làm việc. Databricks là động cơ tính toán tối ưu cho xử lý dữ liệu nặng bằng Spark và Python. Trong nhiều kiến trúc, ADF kích hoạt notebook Databricks để thực hiện chuyển đổi phức tạp.

ADF xử lý bảo mật như thế nào?

Azure Data Factory cung cấp bảo mật cấp doanh nghiệp, bao gồm Managed Identity để xác thực liền mạch mà không cần quản lý thông tin xác thực, hỗ trợ Azure Key Vault để lưu trữ bí mật, và Private Endpoints (qua Azure Private Link) nhằm đảm bảo lưu lượng dữ liệu không đi qua Internet công cộng.


Moez Ali's photo
Author
Moez Ali
LinkedIn
Twitter

Nhà khoa học dữ liệu, Nhà sáng lập & Người tạo ra PyCaret

Chủ đề

Tìm hiểu thêm về Microsoft Azure với các khóa học này!

Courses

Tìm hiểu Microsoft Azure

3 giờ
46.9K
Tìm hiểu về sức mạnh của Microsoft Azure và phần mềm điện toán đám mây để giúp bạn nâng cao kỹ năng kỹ thuật dữ liệu của mình.
Xem chi tiếtRight Arrow
Bắt đầu khóa học
Xem thêmRight Arrow