Cours
Introduction à PySpark
IntermédiaireNiveau de compétence
Actualisé 01/2026SparkData Engineering4 h11 vidéos36 Exercices2,850 XP25,109Certificat de réussite.
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.Apprécié par des utilisateurs provenant de milliers d'entreprises
Former 2 personnes ou plus ?
Essayez DataCamp for BusinessDescription du cours
Pourquoi choisir Spark ? Pourquoi pas ?
Découvrez la rapidité et l'évolutivité de Spark, le puissant framework conçu pour traiter le big data. Grâce à des cours interactifs et des exercices pratiques, vous découvrirez comment le traitement en mémoire de Spark lui confère un avantage par rapport aux frameworks traditionnels tels que Hadoop. Vous commencerez par configurer des sessions Spark et vous plongerez dans les composants essentiels tels que les ensembles de données distribués résilients (RDD) et les DataFrame. Apprenez à filtrer, regrouper et joindre des ensembles de données avec aisance tout en travaillant sur des exemples concrets.Améliorez vos compétences en Python et SQL pour le Big Data
Découvrez comment exploiter PySpark SQL pour interroger et gérer des données à l'aide d'une syntaxe SQL familière. Apprenez à gérer les schémas, les types de données complexes et les fonctions définies par l'utilisateur (UDF), tout en développant vos compétences en matière de mise en cache et d'optimisation des performances pour les systèmes distribués.Élaborez les fondements de votre stratégie Big Data
À la fin de ce cours, vous serez en mesure de manipuler, interroger et traiter des données volumineuses à l'aide de PySpark. Grâce à ces compétences fondamentales, vous serez prêt à explorer des sujets avancés tels que l'apprentissage automatique et l'analyse des mégadonnées.Prérequis
Introduction to SQLData Manipulation with pandas1
Introduction to Apache Spark and PySpark
A General introduction to PySpark and distributed computing. This section introduces PySpark, PySpark DataFrames, and RDDs.
2
PySpark in Python
A continuation of DataFrames and complex datatypes. This section expands on what DataFrames offer in PySpark and introduces some Spark SQL concepts.
3
Introduction to PySpark SQL
Delve into leveraging Spark SQL and PySpark for scalable data processing, combining SQL's simplicity with PySpark's distributed computing power to handle large datasets efficiently.
Introduction à PySpark
Cours terminé
Obtenez un certificat de réussite
Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolioPartagez-la sur les réseaux sociaux et dans votre évaluation de performance
Inclus avecPremium or Teams
S'inscrire MaintenantRejoignez plus de 19 millions d'utilisateurs et commencez Introduction à PySpark dès aujourd'hui !
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.