Accéder au contenu principal

Accueil Databricks

Cours

Transformation des données avec Spark SQL dans Databricks

IntermédiaireNiveau de compétence

Actualisé 07/2026

Construisez des pipelines de données de bout en bout, du nettoyage et de l’agrégation au streaming et à l’orchestration.

Commencer le cours gratuitement

DatabricksData Engineering

3 h

7 vidéos

25 Exercices

1,750 XP

Certificat de formation

Apprécié par des utilisateurs provenant de milliers d'entreprises

Former une équipe ?

Essayez pour les entreprises

Description du cours

Prêt à traiter des données réelles à grande échelle ? Ce cours vous apprend à transformer de vastes jeux de données avec Spark SQL et PySpark dans Databricks. Vous apprendrez à façonner et nettoyer les données, à exécuter des agrégations avec des jointures optimisées, et à appliquer des fonctions de fenêtre pour des analyses avancées. Vous configurerez aussi un streaming basé sur des fichiers avec des points de contrôle tolérants aux pannes et vous conserverez les résultats sous forme de tables Delta. À la fin, vous orchestrerez des pipelines de production en plusieurs étapes avec Databricks Workflows et Lakeflow Declarative Pipelines.

Prérequis

Introduction to Databricks SQL Introduction to PySpark

1

Chargement et mise en forme des données

Dans ce chapitre, vous apprendrez à utiliser les notebooks Databricks, à charger des données CSV dans des DataFrames Spark et à mettre les données en forme avec PySpark et SQL.

Utiliser les notebooks Databricks

Comprendre les notebooks Databricks

Charger votre premier jeu de données

Explorer les journaux du driver

Préparer et façonner les données avec PySpark et SQL

Façonner les données avec PySpark

Analyser des données avec SQL

Comprendre les vues temporaires

Commencer le chapitre

2

Nettoyage des données et optimisation

Apprenez à définir des schémas explicites, à construire un pipeline de nettoyage des données et à optimiser les performances des requêtes avec des broadcast joins.

Nettoyage des données et contrôles qualité

Pourquoi des schémas explicites sont essentiels

Nettoyer le jeu de données d'e-commerce

Choisir le bon indicateur de qualité

Agréger et joindre des données efficacement

Joindre et agréger des données retail

Comprendre le goulot d'étranglement du shuffle

Quand utiliser une broadcast join

Commencer le chapitre

3

Analytique et pipelines de production

Apprenez à calculer des cumuls et des classements avec des fonctions de fenêtre, à créer des pipelines de streaming et à déployer des workflows de production.

Fonctions de fenêtre et requêtes en streaming

Classer les clients avec des fonctions de fenêtrage

Diffuser des données retail vers Delta Lake

Reprendre après un redémarrage

Pipelines de production avec les workflows

Écrire et lire une table Delta

Créer un pipeline de job multi-tâches

Pourquoi passer à Lakeflow ?

Pour conclure

Commencer le chapitre

Transformation des données avec Spark SQL dans Databricks

Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant

Rejoignez plus de 19 millions d'utilisateurs et commencez Transformation des données avec Spark SQL dans Databricks dès aujourd'hui !

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.