课程描述

这门课程非常适合希望高效处理大型数据集的数据工程师、数据科学家和机器学习从业者。无论你是从 Pandas 等工具转向，还是第一次接触大数据技术，这门课程都将为你提供 PySpark 和分布式数据处理的扎实入门。

为什么选择 Spark？为什么是现在？

探索 Apache Spark 的速度与可扩展性，这一强大的框架专为处理大数据而设计。通过互动课程和动手练习，你将了解 Spark 的内存处理如何让它比 Hadoop 等传统框架更具优势。你将从设置 Spark 会话开始，并深入了解诸如弹性分布式数据集（RDD）和 DataFrame 等核心组件。轻松学习如何筛选、分组和连接数据集，同时通过真实案例进行实践。

提升你的 Python 和 SQL 技能，驾驭大数据

学习如何利用 PySpark SQL，使用熟悉的 SQL 语法来查询和管理数据。处理 schema、复杂数据类型和用户定义函数（UDF），同时培养缓存和优化分布式系统性能的能力。

构建您的大数据基础

在本课程结束时，您将有信心使用 PySpark 处理、查询和处理大数据。掌握这些基础技能后，你就可以开始探索机器学习和大数据分析等高级主题。

先决条件

Introduction to SQL Data Manipulation with pandas

Introduction to Apache Spark and PySpark

A General introduction to PySpark and distributed computing. This section introduces PySpark, PySpark DataFrames, and RDDs.

课程描述

为什么选择 Spark？为什么是现在？

提升你的 Python 和 SQL 技能，驾驭大数据

构建您的大数据基础

获得成就证明

加入超过.css-nklxlk{color:var(--wf-brand--main, #03EF62);}19百万学习者，今天就开始PySpark 入门！

创建您的免费帐户

通过 DataCamp for Mobile 提升您的数据技能

加入超过19百万学习者，今天就开始PySpark 入门！