Khóa học
Machine Learning with PySpark
Nâng caoTrình độ kỹ năng
Đã cập nhật tháng 11, 2025Bắt Đầu Khóa Học Miễn Phí
Bao gồm vớiCao cấp or Đội nhóm
SparkMachine Learning4 giờ16 video56 Bài tập4,550 XP28,979Giấy Chứng Nhận Thành Tích
Tạo tài khoản miễn phí
hoặc
Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.Được yêu thích bởi học viên tại hàng nghìn công ty
Đào tạo 2 người trở lên?
Thử DataCamp for BusinessMô tả khóa học
Learn to Use Apache Spark for Machine Learning
Spark is a powerful, general purpose tool for working with Big Data. Spark transparently handles the distribution of compute tasks across a cluster. This means that operations are fast, but it also allows you to focus on the analysis rather than worry about technical details. In this course you'll learn how to get data into Spark and then delve into the three fundamental Spark Machine Learning algorithms: Linear Regression, Logistic Regression/Classifiers, and creating pipelines.Build and Test Decision Trees
Building your own decision trees is a great way to start exploring machine learning models. You’ll use an algorithm called ‘Recursive Partitioning’ to divide data into two classes and find a predictor within your data that results in the most informative split of the two classes, and repeat this action with further nodes. You can then use your decision tree to make predictions with new data.Master Logistic and Linear Regression in PySpark
Logistic and linear regression are essential machine learning techniques that are supported by PySpark. You’ll learn to build and evaluate logistic regression models, before moving on to creating linear regression models to help you refine your predictors to only the most relevant options.By the end of the course, you’ll feel confident in applying your new-found machine learning knowledge, thanks to hands-on tasks and practice data sets found throughout the course.
Điều kiện tiên quyết
Supervised Learning with scikit-learnIntroduction to PySpark1
Introduction
Spark is a framework for working with Big Data. In this chapter you'll cover some background about Spark and Machine Learning. You'll then find out how to connect to Spark using Python and load CSV data.
2
Classification
Now that you are familiar with getting data into Spark, you'll move onto building two types of classification model: Decision Trees and Logistic Regression. You'll also find out about a few approaches to data preparation.
3
Regression
Next you'll learn to create Linear Regression models. You'll also find out how to augment your data by engineering new predictors as well as a robust approach to selecting only the most relevant predictors.
4
Ensembles & Pipelines
Finally you'll learn how to make your models more efficient. You'll find out how to use pipelines to make your code clearer and easier to maintain. Then you'll use cross-validation to better test your models and select good model parameters. Finally you'll dabble in two types of ensemble model.
Machine Learning with PySpark
Hoàn Thành
Nhận Giấy Chứng Nhận Hoàn Thành
Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của banChia sẻ trên mạng xã hội và trong đánh giá hiệu suất của ban
Bao gồm vớiCao cấp or Đội nhóm
Đăng Ký NgayTham gia cùng hơn 19 triệu học viên và bắt đầu Machine Learning with PySpark ngay hôm nay!
Tạo tài khoản miễn phí
hoặc
Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.