Chuyển đến nội dung chính
Trang chủSpark

Khóa học

Nhập môn PySpark

Trung cấpTrình độ kỹ năng
Đã cập nhật tháng 01, 2026
Thành thạo PySpark để xử lý big data dễ dàng—học cách xử lý, truy vấn và tối ưu hóa các bộ dữ liệu khổng lồ cho phân tích mạnh mẽ!
Bắt Đầu Khóa Học Miễn Phí
SparkData Engineering
4 gio
11 video
36 Bài tập
2,850 XP
29,450
Giấy chứng nhận Thành tích

Tạo Tài Khoản Miễn Phí

Tiếp tục với GoogleHiển thị thêm tùy chọn

hoặc


Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.

Được người học tại hàng ngàn công ty yêu thích

Group

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Khóa học này hoàn hảo cho các kỹ sư dữ liệu, Nhà khoa học dữ liệu và những người thực hành học máy đang tìm kiếm cách làm việc hiệu quả với các bộ dữ liệu lớn. Dù bạn đang chuyển từ các công cụ như Pandas hay lần đầu tiên tìm hiểu về các công nghệ dữ liệu lớn, khóa học này mang đến một phần giới thiệu vững chắc về PySpark và xử lý dữ liệu phân tán.

Tại sao chọn Spark? Tại sao bây giờ?

Khám phá tốc độ và khả năng mở rộng của Apache Spark, framework mạnh mẽ được thiết kế để xử lý big data. Thông qua các bài học tương tác và bài tập thực hành, bạn sẽ thấy cách xử lý trong bộ nhớ của Spark mang lại lợi thế cho nó so với các framework truyền thống như Hadoop. Bạn sẽ bắt đầu bằng cách thiết lập các phiên Spark và tìm hiểu sâu về các thành phần cốt lõi như Resilient Distributed Datasets (RDDs) và DataFrames. Học cách lọc, nhóm và kết hợp các bộ dữ liệu một cách dễ dàng khi làm việc với các ví dụ thực tế.

Nâng cao kỹ năng Python và SQL của bạn cho Big Data

Tìm hiểu cách tận dụng PySpark SQL để truy vấn và quản lý dữ liệu bằng cú pháp SQL quen thuộc. Giải quyết các schema, kiểu dữ liệu phức tạp và hàm do người dùng định nghĩa (UDF), đồng thời xây dựng kỹ năng lưu vào bộ nhớ đệm và tối ưu hóa hiệu suất cho các hệ thống phân tán.

Xây dựng Nền tảng Big Data của bạn

Kết thúc khóa học này, bạn sẽ tự tin xử lý, truy vấn và xử lý big data bằng PySpark. Với những kỹ năng nền tảng này, bạn sẽ sẵn sàng khám phá các chủ đề nâng cao như học máy và phân tích dữ liệu lớn.

Điều kiện tiên quyết

Introduction to SQLData Manipulation with pandas
1

Giới thiệu về Apache Spark và PySpark

Giới thiệu tổng quan về PySpark và tính toán phân tán. Phần này giới thiệu PySpark, PySpark DataFrame và RDD.
Bắt Đầu Chương
2

PySpark trong Python

Tiếp tục với DataFrame và kiểu dữ liệu phức tạp. Phần này mở rộng những gì DataFrame cung cấp trong PySpark và giới thiệu một số khái niệm Spark SQL.
Bắt Đầu Chương
Nhập môn PySpark
Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của ban
Đăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Nhập môn PySpark ngay hôm nay!

Tạo Tài Khoản Miễn Phí

Tiếp tục với GoogleHiển thị thêm tùy chọn

hoặc


Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.