跳至内容
首页Spark

课程

PySpark 入门

中级技能水平
更新时间 2026年1月
精通 PySpark,轻松处理大数据——学习处理、查询和优化海量数据集,释放强大分析能力!
免费开始课程
SparkData Engineering
4小时
11 视频
36 道练习
2,850 XP
29,195
成就证明

创建您的免费帐户

继续使用 Google显示更多选项


继续操作即表示您接受我们的《使用条款》和《隐私政策》,并同意您的数据存储在美国。

深受数千家公司学习者的喜爱

Group

需要团队培训?

企业版试用

课程描述

这门课程非常适合希望高效处理大型数据集的数据工程师、数据科学家和机器学习从业者。 无论你是从 Pandas 等工具转向,还是第一次接触大数据技术,这门课程都将为你提供 PySpark 和分布式数据处理的扎实入门。

为什么选择 Spark?为什么是现在?

探索 Apache Spark 的速度与可扩展性,这一强大的框架专为处理大数据而设计。 通过互动课程和动手练习,你将了解 Spark 的内存处理如何让它比 Hadoop 等传统框架更具优势。 你将从设置 Spark 会话开始,并深入了解诸如弹性分布式数据集(RDD)和 DataFrame 等核心组件。 轻松学习如何筛选、分组和连接数据集,同时通过真实案例进行实践。

提升你的 Python 和 SQL 技能,驾驭大数据

学习如何利用 PySpark SQL,使用熟悉的 SQL 语法来查询和管理数据。 处理 schema、复杂数据类型和用户定义函数(UDF),同时培养缓存和优化分布式系统性能的能力。

构建您的大数据基础

在本课程结束时,您将有信心使用 PySpark 处理、查询和处理大数据。 掌握这些基础技能后,你就可以开始探索机器学习和大数据分析等高级主题。

先决条件

Introduction to SQLData Manipulation with pandas
1

Introduction to Apache Spark and PySpark

A General introduction to PySpark and distributed computing. This section introduces PySpark, PySpark DataFrames, and RDDs.
开始章节
2

PySpark in Python

A continuation of DataFrames and complex datatypes. This section expands on what DataFrames offer in PySpark and introduces some Spark SQL concepts.
开始章节
PySpark 入门
课程完成

获得成就证明

将此证书添加到您的 LinkedIn 档案、简历或履历中
在社交媒体和绩效评估中分享
立即注册

加入超过19百万学习者,今天就开始PySpark 入门!

创建您的免费帐户

继续使用 Google显示更多选项


继续操作即表示您接受我们的《使用条款》和《隐私政策》,并同意您的数据存储在美国。

通过 DataCamp for Mobile 提升您的数据技能

随时随地通过我们的移动课程和每日 5 分钟编程挑战提升技能。