Chuyển đến nội dung chính
Trang chủSpark

Khóa học

Nền tảng Big Data với PySpark

Nâng caoTrình độ kỹ năng
Đã cập nhật tháng 02, 2025
Nắm vững kiến thức cơ bản về làm việc với dữ liệu lớn bằng PySpark.
Bắt Đầu Khóa Học Miễn Phí
SparkData Engineering
4 gio
16 video
55 Bài tập
4,600 XP
65,294
Giấy chứng nhận Thành tích

Tạo Tài Khoản Miễn Phí

Tiếp tục với GoogleHiển thị thêm tùy chọn

hoặc


Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.

Được người học tại hàng ngàn công ty yêu thích

Group

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Trong vài năm qua, Big Data đã tạo nên nhiều bàn luận và nay đã trở thành xu hướng chính ở nhiều công ty. Vậy Big Data là gì? Khóa học này giới thiệu các nền tảng của Big Data thông qua PySpark. Spark là một khung "tính toán cụm cực nhanh" dành cho Big Data. Nó cung cấp một động cơ xử lý dữ liệu tổng quát và cho phép bạn chạy chương trình nhanh hơn tới 100 lần trong bộ nhớ, hoặc 10 lần trên đĩa, so với Hadoop. Bạn sẽ dùng PySpark, gói Python dành cho lập trình Spark, cùng các thư viện cấp cao mạnh mẽ như SparkSQL, MLlib (cho Machine Learning), v.v. Bạn sẽ khám phá tác phẩm của William Shakespeare, phân tích dữ liệu Fifa 2018 và thực hiện phân cụm trên các bộ dữ liệu bộ gen. Kết thúc khóa học, bạn sẽ nắm vững PySpark và cách ứng dụng vào phân tích Big Data tổng quát.

Điều kiện tiên quyết

Introduction to Python
1

Giới thiệu phân tích Big Data với Spark

Chương này giới thiệu thế giới Big Data đầy hứng khởi, cùng các khái niệm và những khung xử lý Big Data khác nhau. Bạn sẽ hiểu vì sao Apache Spark được xem là khung tốt nhất cho Big Data.
Bắt Đầu Chương
2

Lập trình với PySpark RDD

Trừu tượng chính mà Spark cung cấp là resilient distributed dataset (RDD), kiểu dữ liệu nền tảng và xương sống của động cơ này. Chương này giới thiệu về RDD và cách tạo, thực thi RDD thông qua các phép biến đổi (Transformations) và hành động (Actions) trên RDD.
Bắt Đầu Chương
4

Machine Learning với PySpark MLlib

PySpark MLlib là thư viện Machine Learning có khả năng mở rộng của Apache Spark trong Python, bao gồm các thuật toán học máy phổ biến và các tiện ích kèm theo. Xuyên suốt chương cuối, bạn sẽ học các thuật toán Machine Learning quan trọng. Bạn sẽ xây dựng hệ gợi ý phim và bộ lọc thư rác, và sử dụng phân cụm k-means.
Bắt Đầu Chương
Nền tảng Big Data với PySpark
Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của ban
Đăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Nền tảng Big Data với PySpark ngay hôm nay!

Tạo Tài Khoản Miễn Phí

Tiếp tục với GoogleHiển thị thêm tùy chọn

hoặc


Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.