Accéder au contenu principal
AccueilSpark

Cours

Principes fondamentaux des mégadonnées avec PySpark

AvancéNiveau de compétence
Actualisé 02/2025
Apprenez les bases du travail avec les big data avec PySpark.
Commencer le cours gratuitement
SparkData Engineering
4 h
16 vidéos
55 Exercices
4,600 XP
65,280
Certificat de formation

Créez votre compte gratuitement

Continuer avec GoogleAfficher plus d’options

ou


En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.

Apprécié par des utilisateurs provenant de milliers d'entreprises

Group

Former une équipe ?

Essayez pour les entreprises

Description du cours

Les mégadonnées ont fait couler beaucoup d'encre ces dernières années, et elles sont enfin devenues monnaie courante pour de nombreuses entreprises. Mais que sont ces mégadonnées ? Ce cours couvre les fondamentaux des mégadonnées via PySpark. Spark est un framework de « calcul de clusters rapide comme l'éclair » pour les mégadonnées. Il fournit un moteur de plateforme de traitement de données général et vous permet d'exécuter des programmes jusqu'à 100 fois plus vite en mémoire, ou 10 fois plus vite sur disque, que Hadoop. Vous utiliserez PySpark, un paquet Python pour la programmation Spark et ses puissantes bibliothèques de plus haut niveau telles que SparkSQL, MLlib (pour le machine learning), etc. Vous explorerez les œuvres de William Shakespeare, analyserez les données de la Fifa 2018 et effectuerez du clustering sur des ensembles de données génomiques. A la fin de ce cours, vous aurez acquis une compréhension approfondie de PySpark et de son application à l'analyse générale des mégadonnées.

Prérequis

Introduction to Python
1

Introduction à l'analyse des mégadonnées avec Spark

Ce chapitre présente le monde passionnant des mégadonnées ou Big Data, ainsi que les différents concepts et frameworks de traitement de ces mégadonnées. Vous comprendrez pourquoi Apache Spark est considéré comme le meilleur framework pour les mégadonnées.
Commencer le chapitre
2

Programmer dans les RDD de PySpark

La principale abstraction fournie par Spark est un jeu de données distribué résilient (RDD), qui est le type de données fondamental et l’épine dorsale de ce moteur. Ce chapitre présente les RDD et montre comment créer et exécuter des RDD à l'aide des transformations et actions de RDD.
Commencer le chapitre
4

Machine learning avec PySpark MLlib

Principes fondamentaux des mégadonnées avec PySpark
Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performance
S'inscrire maintenant

Rejoignez plus de 19 millions d'utilisateurs et commencez Principes fondamentaux des mégadonnées avec PySpark dès aujourd'hui !

Créez votre compte gratuitement

Continuer avec GoogleAfficher plus d’options

ou


En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données seront hébergées aux États-Unis.

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.