Khóa học
Nhập môn Spark SQL bằng Python
Nâng caoTrình độ kỹ năng
Đã cập nhật tháng 03, 2026
SparkData Manipulation4 gio15 video52 Bài tập4,200 XP20,388Giấy chứng nhận Thành tích
Tạo Tài Khoản Miễn Phí
Tiếp tục với GoogleHiển thị thêm tùy chọnhoặc
Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.
Được người học tại hàng ngàn công ty yêu thích
Đào tạo một đội ngũ?
Dùng thử cho Doanh nghiệpMô tả khóa học
Điều kiện tiên quyết
Python ToolboxPostgreSQL Summary Stats and Window FunctionsIntroduction to PySpark1
PySpark SQL
Trong chương này bạn sẽ học cách tạo và truy vấn một bảng SQL trong Spark. Spark SQL mang tính biểu đạt của SQL vào Spark. Bạn cũng sẽ học cách dùng SQL window functions trong Spark. Window functions thực hiện phép tính trên các hàng có liên quan đến hàng hiện tại. Chúng giúp đơn giản hóa đáng kể những kết quả khó thể hiện chỉ với joins và các phép tổng hợp truyền thống. Chúng ta sẽ dùng window functions để tính tổng lũy kế, hiệu lũy kế và các thao tác khác vốn khó thực hiện trong SQL cơ bản.
2
Dùng Window Function SQL cho Xử lý Ngôn ngữ Tự nhiên
Trong chương này, bạn sẽ nạp văn bản ngôn ngữ tự nhiên. Sau đó bạn sẽ áp dụng phân tích cửa sổ trượt để tìm các chuỗi từ xuất hiện thường xuyên.
3
Caching, Logging và Spark UI
Trong các chương trước, bạn đã học cách tận dụng tính biểu đạt của window function SQL. Tuy nhiên, chính sự linh hoạt này khiến việc hiểu cách cache đúng cách các dataframe và cache bảng SQL trở nên quan trọng. Cũng quan trọng không kém là biết cách đánh giá ứng dụng của bạn. Bạn sẽ học cách thực hiện việc này bằng Spark UI. Bạn cũng sẽ học một thực hành tốt cho việc ghi log trong Spark. Spark SQL còn mang đến một công cụ hữu ích khác để tinh chỉnh hiệu năng truy vấn: kế hoạch thực thi truy vấn. Bạn sẽ học cách dùng kế hoạch thực thi để đánh giá nguồn gốc (provenance) của một dataframe.
4
Phân loại văn bản
Các chương trước đã cung cấp cho bạn công cụ để nạp văn bản thô, tách token và trích xuất chuỗi từ. Điều này vốn đã rất hữu ích cho phân tích, đồng thời cũng hữu ích cho Machine Learning. Những gì bạn đã học sẽ được kết nối lại bằng cách dùng logistic regression để phân loại văn bản. Kết thúc chương này, bạn sẽ nạp dữ liệu văn bản ngôn ngữ tự nhiên thô và dùng nó để huấn luyện một bộ phân loại văn bản.
Nhập môn Spark SQL bằng Python
Hoàn Thành
Nhận Giấy Chứng Nhận Hoàn Thành
Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của banChia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay
Tham gia cùng hơn 19 triệu học viên và bắt đầu Nhập môn Spark SQL bằng Python ngay hôm nay!
Tạo Tài Khoản Miễn Phí
Tiếp tục với GoogleHiển thị thêm tùy chọnhoặc
Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.
Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động
Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.