Introduction à PySpark

IntermédiaireNiveau de compétence

Actualisé 01/2026

Maîtrisez PySpark pour traiter, analyser et optimiser de grands volumes de données et produire des analyses performantes.

Créez votre compte gratuit

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.

Description du cours

Ce cours est idéal pour les ingénieurs de données, les scientifiques de données et les praticiens du machine learning qui souhaitent travailler efficacement avec des ensembles de données volumineux. Que vous soyez en train de passer d'outils tels que Pandas ou que vous vous lanciez pour la première fois dans les technologies du big data, ce cours offre une introduction solide à PySpark et au traitement distribué des données.

Pourquoi choisir Spark ? Pourquoi pas ?

Découvrez la rapidité et l'évolutivité de Spark, le puissant framework conçu pour traiter le big data. Grâce à des cours interactifs et des exercices pratiques, vous découvrirez comment le traitement en mémoire de Spark lui confère un avantage par rapport aux frameworks traditionnels tels que Hadoop. Vous commencerez par configurer des sessions Spark et vous plongerez dans les composants essentiels tels que les ensembles de données distribués résilients (RDD) et les DataFrame. Apprenez à filtrer, regrouper et joindre des ensembles de données avec aisance tout en travaillant sur des exemples concrets.

Améliorez vos compétences en Python et SQL pour le Big Data

Découvrez comment exploiter PySpark SQL pour interroger et gérer des données à l'aide d'une syntaxe SQL familière. Apprenez à gérer les schémas, les types de données complexes et les fonctions définies par l'utilisateur (UDF), tout en développant vos compétences en matière de mise en cache et d'optimisation des performances pour les systèmes distribués.

Élaborez les fondements de votre stratégie Big Data

À la fin de ce cours, vous serez en mesure de manipuler, interroger et traiter des données volumineuses à l'aide de PySpark. Grâce à ces compétences fondamentales, vous serez prêt à explorer des sujets avancés tels que l'apprentissage automatique et l'analyse des mégadonnées.

Prérequis

Introduction to SQL Data Manipulation with pandas

Introduction à Apache Spark et PySpark

Description du cours

Pourquoi choisir Spark ? Pourquoi pas ?

Améliorez vos compétences en Python et SQL pour le Big Data

Élaborez les fondements de votre stratégie Big Data

Obtenez un certificat de réussite

Rejoignez plus de .css-nklxlk{color:var(--wf-brand--main, #03EF62);}18 millions d'utilisateurs et commencez Introduction à PySpark dès aujourd'hui !

Créez votre compte gratuit

Rejoignez plus de 18 millions d'utilisateurs et commencez Introduction à PySpark dès aujourd'hui !