Cours
Principes fondamentaux des mégadonnées avec PySpark
AvancéNiveau de compétence
Actualisé 02/2025
SparkData Engineering4 h16 vidéos55 Exercices4,600 XP65,280Certificat de formation
Créez votre compte gratuitement
Continuer avec GoogleAfficher plus d’optionsou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.
Apprécié par des utilisateurs provenant de milliers d'entreprises
Former une équipe ?
Essayez pour les entreprisesDescription du cours
Prérequis
Introduction to Python1
Introduction à l'analyse des mégadonnées avec Spark
Ce chapitre présente le monde passionnant des mégadonnées ou Big Data, ainsi que les différents concepts et frameworks de traitement de ces mégadonnées. Vous comprendrez pourquoi Apache Spark est considéré comme le meilleur framework pour les mégadonnées.
2
Programmer dans les RDD de PySpark
La principale abstraction fournie par Spark est un jeu de données distribué résilient (RDD), qui est le type de données fondamental et l’épine dorsale de ce moteur. Ce chapitre présente les RDD et montre comment créer et exécuter des RDD à l'aide des transformations et actions de RDD.
3
PySpark SQL et DataFrames
Dans ce chapitre, vous découvrirez Spark SQL, qui est un module Spark destiné au traitement des données structurées. Il fournit une abstraction de programmation appelée DataFrame et peut également agir en tant que moteur de requête SQL distribué. Ce chapitre montre comment Spark SQL vous permet d'utiliser des DataFrames en Python.
4
Machine learning avec PySpark MLlib
PySpark MLlib est la bibliothèque de machine learning évolutive d'Apache Spark en Python, composée d'algorithmes d'apprentissage et d'utilitaires courants. Tout au long de ce dernier chapitre, vous apprendrez d'importants algorithmes de machine learning. Vous construirez un moteur de recommandation de films et un filtre anti-spam, et vous utiliserez le clustering k-means (ou k-moyennes).
Principes fondamentaux des mégadonnées avec PySpark
Cours terminé
Obtenez un certificat de réussite
Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolioPartagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant
Rejoignez plus de 19 millions d'utilisateurs et commencez Principes fondamentaux des mégadonnées avec PySpark dès aujourd'hui !
Créez votre compte gratuitement
Continuer avec GoogleAfficher plus d’optionsou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.
Apprenez où que vous soyez avec l'application DataCamp
Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.