Chuyển đổi dữ liệu với Spark SQL trong Databricks

Trung cấpTrình độ kỹ năng

Đã cập nhật tháng 07, 2026

Xây dựng pipeline dữ liệu end-to-end - từ làm sạch và tổng hợp đến streaming và orchestration.

Mô tả khóa học

Sẵn sàng xử lý dữ liệu thực tế ở quy mô lớn? Khóa học này hướng dẫn bạn chuyển đổi các tập dữ liệu lớn bằng Spark SQL và PySpark trong Databricks. Học cách định hình và làm sạch dữ liệu, chạy tổng hợp với các phép join được tối ưu, và áp dụng window functions cho phân tích nâng cao. Bạn cũng sẽ thiết lập streaming dựa trên tệp với checkpoint chịu lỗi và lưu kết quả dưới dạng bảng Delta. Cuối khóa, bạn sẽ điều phối các pipeline nhiều bước ở môi trường sản xuất bằng Databricks Workflows và Lakeflow Declarative Pipelines.

Điều kiện tiên quyết

Introduction to Databricks SQL Introduction to PySpark

Nạp và định hình dữ liệu

Trong chương này, bạn sẽ học cách làm việc với notebook của Databricks, nạp dữ liệu CSV vào Spark DataFrame, và định hình dữ liệu bằng PySpark và SQL.

Mô tả khóa học

Nhận Giấy Chứng Nhận Hoàn Thành

Tham gia cùng .css-nklxlk{color:var(--wf-brand--main, #03EF62);}hơn 19 triệu học viên và bắt đầu Chuyển đổi dữ liệu với Spark SQL trong Databricks ngay hôm nay!

Tạo Tài Khoản Miễn Phí

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tham gia cùng hơn 19 triệu học viên và bắt đầu Chuyển đổi dữ liệu với Spark SQL trong Databricks ngay hôm nay!