Chuyển đến nội dung chính
Trang chủSpark

Khóa học

Nhập môn Spark SQL bằng Python

Nâng caoTrình độ kỹ năng
Đã cập nhật tháng 03, 2026
Bắt Đầu Khóa Học Miễn Phí
SparkData Manipulation
4 gio
15 video
52 Bài tập
4,200 XP
20,388
Giấy chứng nhận Thành tích

Tạo Tài Khoản Miễn Phí

Tiếp tục với GoogleHiển thị thêm tùy chọn

hoặc


Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.

Được người học tại hàng ngàn công ty yêu thích

Group

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học













Điều kiện tiên quyết

Python ToolboxPostgreSQL Summary Stats and Window FunctionsIntroduction to PySpark
1

PySpark SQL

Trong chương này bạn sẽ học cách tạo và truy vấn một bảng SQL trong Spark. Spark SQL mang tính biểu đạt của SQL vào Spark. Bạn cũng sẽ học cách dùng SQL window functions trong Spark. Window functions thực hiện phép tính trên các hàng có liên quan đến hàng hiện tại. Chúng giúp đơn giản hóa đáng kể những kết quả khó thể hiện chỉ với joins và các phép tổng hợp truyền thống. Chúng ta sẽ dùng window functions để tính tổng lũy kế, hiệu lũy kế và các thao tác khác vốn khó thực hiện trong SQL cơ bản.
Bắt Đầu Chương
2

Dùng Window Function SQL cho Xử lý Ngôn ngữ Tự nhiên

Trong chương này, bạn sẽ nạp văn bản ngôn ngữ tự nhiên. Sau đó bạn sẽ áp dụng phân tích cửa sổ trượt để tìm các chuỗi từ xuất hiện thường xuyên.
Bắt Đầu Chương
3

Caching, Logging và Spark UI

Trong các chương trước, bạn đã học cách tận dụng tính biểu đạt của window function SQL. Tuy nhiên, chính sự linh hoạt này khiến việc hiểu cách cache đúng cách các dataframe và cache bảng SQL trở nên quan trọng. Cũng quan trọng không kém là biết cách đánh giá ứng dụng của bạn. Bạn sẽ học cách thực hiện việc này bằng Spark UI. Bạn cũng sẽ học một thực hành tốt cho việc ghi log trong Spark. Spark SQL còn mang đến một công cụ hữu ích khác để tinh chỉnh hiệu năng truy vấn: kế hoạch thực thi truy vấn. Bạn sẽ học cách dùng kế hoạch thực thi để đánh giá nguồn gốc (provenance) của một dataframe.
Bắt Đầu Chương
4

Phân loại văn bản

Các chương trước đã cung cấp cho bạn công cụ để nạp văn bản thô, tách token và trích xuất chuỗi từ. Điều này vốn đã rất hữu ích cho phân tích, đồng thời cũng hữu ích cho Machine Learning. Những gì bạn đã học sẽ được kết nối lại bằng cách dùng logistic regression để phân loại văn bản. Kết thúc chương này, bạn sẽ nạp dữ liệu văn bản ngôn ngữ tự nhiên thô và dùng nó để huấn luyện một bộ phân loại văn bản.
Bắt Đầu Chương
Nhập môn Spark SQL bằng Python
Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của ban
Đăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Nhập môn Spark SQL bằng Python ngay hôm nay!

Tạo Tài Khoản Miễn Phí

Tiếp tục với GoogleHiển thị thêm tùy chọn

hoặc


Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.