课程
PySpark 入门
中级技能水平
更新时间 2026年1月
SparkData Engineering4小时11 视频36 道练习2,850 XP29,195成就证明
创建您的免费帐户
继续使用 Google显示更多选项或
继续操作即表示您接受我们的《使用条款》和《隐私政策》,并同意您的数据存储在美国。
深受数千家公司学习者的喜爱
需要团队培训?
企业版试用课程描述
为什么选择 Spark?为什么是现在?
探索 Apache Spark 的速度与可扩展性,这一强大的框架专为处理大数据而设计。 通过互动课程和动手练习,你将了解 Spark 的内存处理如何让它比 Hadoop 等传统框架更具优势。 你将从设置 Spark 会话开始,并深入了解诸如弹性分布式数据集(RDD)和 DataFrame 等核心组件。 轻松学习如何筛选、分组和连接数据集,同时通过真实案例进行实践。提升你的 Python 和 SQL 技能,驾驭大数据
学习如何利用 PySpark SQL,使用熟悉的 SQL 语法来查询和管理数据。 处理 schema、复杂数据类型和用户定义函数(UDF),同时培养缓存和优化分布式系统性能的能力。构建您的大数据基础
在本课程结束时,您将有信心使用 PySpark 处理、查询和处理大数据。 掌握这些基础技能后,你就可以开始探索机器学习和大数据分析等高级主题。先决条件
Introduction to SQLData Manipulation with pandas1
Introduction to Apache Spark and PySpark
A General introduction to PySpark and distributed computing. This section introduces PySpark, PySpark DataFrames, and RDDs.
2
PySpark in Python
A continuation of DataFrames and complex datatypes. This section expands on what DataFrames offer in PySpark and introduces some Spark SQL concepts.
3
Introduction to PySpark SQL
Delve into leveraging Spark SQL and PySpark for scalable data processing, combining SQL's simplicity with PySpark's distributed computing power to handle large datasets efficiently.
PySpark 入门
课程完成 加入超过19百万学习者,今天就开始PySpark 入门!
创建您的免费帐户
继续使用 Google显示更多选项或
继续操作即表示您接受我们的《使用条款》和《隐私政策》,并同意您的数据存储在美国。
通过 DataCamp for Mobile 提升您的数据技能
随时随地通过我们的移动课程和每日 5 分钟编程挑战提升技能。