Cours
Apprentissage automatique avec PySpark
AvancéNiveau de compétence
Actualisé 11/2025SparkMachine Learning4 h16 vidéos56 Exercices4,550 XP28,943Certificat de réussite.
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.Apprécié par des utilisateurs provenant de milliers d'entreprises
Former 2 personnes ou plus ?
Essayez DataCamp for BusinessDescription du cours
Apprenez à utiliser Apache Spark pour l'apprentissage automatique (Machine Learning)
Spark est un outil puissant et généraliste pour travailler avec les Big Data. Spark gère de manière transparente la répartition des tâches de calcul sur un cluster. Cela signifie que les opérations sont rapides, mais cela vous permet également de vous concentrer sur l'analyse plutôt que de vous préoccuper des détails techniques. Dans ce cours, vous apprendrez à intégrer des données dans Spark, puis à vous plonger dans les trois algorithmes fondamentaux de Spark Machine Learning : Régression linéaire, régression logistique/classificateurs et création de pipelines.Construire et tester des arbres de décision
La construction de vos propres arbres de décision est un excellent moyen de commencer à explorer les modèles d'apprentissage automatique. Vous utiliserez un algorithme appelé "partitionnement récursif" pour diviser les données en deux classes et trouver un prédicteur dans vos données qui aboutit à la division la plus informative des deux classes, et répéter cette action avec d'autres nœuds. Vous pouvez ensuite utiliser votre arbre de décision pour faire des prévisions avec de nouvelles données.Maîtriser la régression logistique et linéaire dans PySpark
La régression logistique et la régression linéaire sont des techniques d'apprentissage automatique essentielles prises en charge par PySpark. Vous apprendrez à construire et à évaluer des modèles de régression logistique, avant de passer à la création de modèles de régression linéaire pour vous aider à affiner vos prédicteurs en ne retenant que les options les plus pertinentes.À la fin du cours, vous serez confiant dans l'application de vos nouvelles connaissances en matière d'apprentissage automatique, grâce aux tâches pratiques et aux ensembles de données d'entraînement que vous trouverez tout au long du cours.
Prérequis
Supervised Learning with scikit-learnIntroduction to PySpark1
Introduction
Spark is a framework for working with Big Data. In this chapter you'll cover some background about Spark and Machine Learning. You'll then find out how to connect to Spark using Python and load CSV data.
2
Classification
Now that you are familiar with getting data into Spark, you'll move onto building two types of classification model: Decision Trees and Logistic Regression. You'll also find out about a few approaches to data preparation.
3
Regression
Next you'll learn to create Linear Regression models. You'll also find out how to augment your data by engineering new predictors as well as a robust approach to selecting only the most relevant predictors.
4
Ensembles & Pipelines
Finally you'll learn how to make your models more efficient. You'll find out how to use pipelines to make your code clearer and easier to maintain. Then you'll use cross-validation to better test your models and select good model parameters. Finally you'll dabble in two types of ensemble model.
Apprentissage automatique avec PySpark
Cours terminé
Obtenez un certificat de réussite
Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolioPartagez-la sur les réseaux sociaux et dans votre évaluation de performance
Inclus avecPremium or Teams
S'inscrire MaintenantRejoignez plus de 19 millions d'utilisateurs et commencez Apprentissage automatique avec PySpark dès aujourd'hui !
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.