课程描述

准备好在大规模场景中处理真实世界的数据了吗？本课程将带您在 Databricks 中使用 Spark SQL 和 PySpark 转换海量数据集。您将学习整理与清洗数据、使用优化的连接执行聚合，并应用窗口函数完成高级分析。您还会搭建基于文件的流处理，配置具备容错能力的检查点，并将结果持久化为 Delta 表。课程结束时，您将能够使用 Databricks Workflows 和 Lakeflow Declarative Pipelines 编排多步骤的生产级管道。

先决条件

Introduction to Databricks SQL Introduction to PySpark

加载与整形数据

本章将带您了解如何使用 Databricks 笔记本，将 CSV 数据加载到 Spark DataFrame 中，并用 PySpark 与 SQL 对数据进行整形。

课程描述

获得成就证明

加入超过.css-nklxlk{color:var(--wf-brand--main, #03EF62);}19百万学习者，今天就开始在 Databricks 中使用 Spark SQL 进行数据转换！

创建您的免费帐户

通过 DataCamp for Mobile 提升您的数据技能

加入超过19百万学习者，今天就开始在 Databricks 中使用 Spark SQL 进行数据转换！