Accéder au contenu principal

Cours

Principes fondamentaux des mégadonnées avec PySpark

AvancéNiveau de compétence

Actualisé 02/2025

Apprenez les bases du travail avec les big data avec PySpark.

Commencer le cours gratuitement

SparkData Engineering

4 h

16 vidéos

55 Exercices

4,600 XP

65,280

Certificat de formation

Apprécié par des utilisateurs provenant de milliers d'entreprises

Former une équipe ?

Essayez pour les entreprises

Description du cours

Les mégadonnées ont fait couler beaucoup d'encre ces dernières années, et elles sont enfin devenues monnaie courante pour de nombreuses entreprises. Mais que sont ces mégadonnées ? Ce cours couvre les fondamentaux des mégadonnées via PySpark. Spark est un framework de « calcul de clusters rapide comme l'éclair » pour les mégadonnées. Il fournit un moteur de plateforme de traitement de données général et vous permet d'exécuter des programmes jusqu'à 100 fois plus vite en mémoire, ou 10 fois plus vite sur disque, que Hadoop. Vous utiliserez PySpark, un paquet Python pour la programmation Spark et ses puissantes bibliothèques de plus haut niveau telles que SparkSQL, MLlib (pour le machine learning), etc. Vous explorerez les œuvres de William Shakespeare, analyserez les données de la Fifa 2018 et effectuerez du clustering sur des ensembles de données génomiques. A la fin de ce cours, vous aurez acquis une compréhension approfondie de PySpark et de son application à l'analyse générale des mégadonnées.

Prérequis

Introduction to Python

1

Introduction à l'analyse des mégadonnées avec Spark

Ce chapitre présente le monde passionnant des mégadonnées ou Big Data, ainsi que les différents concepts et frameworks de traitement de ces mégadonnées. Vous comprendrez pourquoi Apache Spark est considéré comme le meilleur framework pour les mégadonnées.

Que sont les mégadonnées ?

Les 3 V des mégadonnées

PySpark : Spark avec Python

Comprendre SparkContext

Utilisation interactive de PySpark

Chargement des données dans le shell PySpark

Révision de la programmation fonctionnelle en Python

Utilisation de lambda() avec map()

Utilisation de lambda() avec filter()

Commencer le chapitre

2

Programmer dans les RDD de PySpark

La principale abstraction fournie par Spark est un jeu de données distribué résilient (RDD), qui est le type de données fondamental et l’épine dorsale de ce moteur. Ce chapitre présente les RDD et montre comment créer et exécuter des RDD à l'aide des transformations et actions de RDD.

Abstraction des données avec les RDD

RDD à partir de collections parallélisées

RDD à partir d'ensembles de données externes

Partitions dans vos données

Transformations et actions de base des RDD

Map et Collect

Filter et Count

RDD de paires dans PySpark

ReduceBykey et Collect

SortByKey et Collect

Actions avancées des RDD

Comptage des clés

Créer un RDD de base et le transformer

Supprimer les mots vides et réduire l'ensemble de données

Afficher la fréquence des mots

Commencer le chapitre

3

PySpark SQL et DataFrames

Dans ce chapitre, vous découvrirez Spark SQL, qui est un module Spark destiné au traitement des données structurées. Il fournit une abstraction de programmation appelée DataFrame et peut également agir en tant que moteur de requête SQL distribué. Ce chapitre montre comment Spark SQL vous permet d'utiliser des DataFrames en Python.

Abstraction des données avec les DataFrames

Du RDD vers le DataFrame

Chargement de CSV dans DataFrame

Opérations sur des DataFrames dans PySpark

Inspection des données dans un DataFrame PySpark

Création de sous-ensembles et nettoyage des DataFrames PySpark

Filtrer votre DataFrame

Interagir avec les DataFrame en utilisant PySpark SQL

Exécution programmatique de requêtes SQL

Requêtes SQL pour filtrer une table

Visualisation de données dans PySpark avec les DataFrames

Visualisation des DataFrames PySpark

Première partie : Créer un DataFrame à partir d’un fichier CSV

Deuxième partie : Requêtes SQL sur le DataFrame

Troisième partie : Visualisation des données

Commencer le chapitre

4

Machine learning avec PySpark MLlib

PySpark MLlib est la bibliothèque de machine learning évolutive d'Apache Spark en Python, composée d'algorithmes d'apprentissage et d'utilitaires courants. Tout au long de ce dernier chapitre, vous apprendrez d'importants algorithmes de machine learning. Vous construirez un moteur de recommandation de films et un filtre anti-spam, et vous utiliserez le clustering k-means (ou k-moyennes).

Présentation de PySpark MLlib

Bibliothèques de ML PySpark

Algorithmes PySpark MLlib

Filtrage collaboratif

Chargement de l’ensemble de données Movie Lens dans des RDD

Entraînement et prédictions du modèle

Évaluation du modèle à l'aide de la MSE

Classification

Chargement des données de spam et non-spam

Hachage de caractéristiques et LabelPoint

Entraînement du modèle de régression logistique

Chargement et analyse des données de 5 000 points

Entraînement K-means

Visualiser les clusters

Félicitations !

Commencer le chapitre

Principes fondamentaux des mégadonnées avec PySpark

Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant

Rejoignez plus de 19 millions d'utilisateurs et commencez Principes fondamentaux des mégadonnées avec PySpark dès aujourd'hui !

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.