Khóa học
Nhập môn PySpark
Trung cấpTrình độ kỹ năng
Đã cập nhật tháng 01, 2026
SparkData Engineering4 gio11 video36 Bài tập2,850 XP29,450Giấy chứng nhận Thành tích
Tạo Tài Khoản Miễn Phí
Tiếp tục với GoogleHiển thị thêm tùy chọnhoặc
Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.
Được người học tại hàng ngàn công ty yêu thích
Đào tạo một đội ngũ?
Dùng thử cho Doanh nghiệpMô tả khóa học
Tại sao chọn Spark? Tại sao bây giờ?
Khám phá tốc độ và khả năng mở rộng của Apache Spark, framework mạnh mẽ được thiết kế để xử lý big data. Thông qua các bài học tương tác và bài tập thực hành, bạn sẽ thấy cách xử lý trong bộ nhớ của Spark mang lại lợi thế cho nó so với các framework truyền thống như Hadoop. Bạn sẽ bắt đầu bằng cách thiết lập các phiên Spark và tìm hiểu sâu về các thành phần cốt lõi như Resilient Distributed Datasets (RDDs) và DataFrames. Học cách lọc, nhóm và kết hợp các bộ dữ liệu một cách dễ dàng khi làm việc với các ví dụ thực tế.Nâng cao kỹ năng Python và SQL của bạn cho Big Data
Tìm hiểu cách tận dụng PySpark SQL để truy vấn và quản lý dữ liệu bằng cú pháp SQL quen thuộc. Giải quyết các schema, kiểu dữ liệu phức tạp và hàm do người dùng định nghĩa (UDF), đồng thời xây dựng kỹ năng lưu vào bộ nhớ đệm và tối ưu hóa hiệu suất cho các hệ thống phân tán.Xây dựng Nền tảng Big Data của bạn
Kết thúc khóa học này, bạn sẽ tự tin xử lý, truy vấn và xử lý big data bằng PySpark. Với những kỹ năng nền tảng này, bạn sẽ sẵn sàng khám phá các chủ đề nâng cao như học máy và phân tích dữ liệu lớn.Điều kiện tiên quyết
Introduction to SQLData Manipulation with pandas1
Giới thiệu về Apache Spark và PySpark
Giới thiệu tổng quan về PySpark và tính toán phân tán. Phần này giới thiệu PySpark, PySpark DataFrame và RDD.
2
PySpark trong Python
Tiếp tục với DataFrame và kiểu dữ liệu phức tạp. Phần này mở rộng những gì DataFrame cung cấp trong PySpark và giới thiệu một số khái niệm Spark SQL.
3
Nhập môn PySpark SQL
Tìm hiểu cách tận dụng Spark SQL và PySpark cho xử lý dữ liệu có khả năng mở rộng, kết hợp sự đơn giản của SQL với sức mạnh tính toán phân tán của PySpark để xử lý hiệu quả các tập dữ liệu lớn.
Nhập môn PySpark
Hoàn Thành
Nhận Giấy Chứng Nhận Hoàn Thành
Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của banChia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay
Tham gia cùng hơn 19 triệu học viên và bắt đầu Nhập môn PySpark ngay hôm nay!
Tạo Tài Khoản Miễn Phí
Tiếp tục với GoogleHiển thị thêm tùy chọnhoặc
Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.
Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động
Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.