跳至内容
首页Python

学习路径

使用 PySpark 处理大数据

更新时间 2026年5月
掌握如何使用 PySpark API 处理大数据并高效利用 Apache Spark。
免费开始学习路径
Python导入与清洗数据
25小时
9,009

创建您的免费帐户

继续使用 Google显示更多选项


继续操作即表示您接受我们的《使用条款》和《隐私政策》,并同意您的数据存储在美国。

深受数千家公司学习者的喜爱

Group

需要团队培训?

企业版试用

学习路径描述

使用 PySpark 处理大数据

通过掌握 Apache Spark 提升你的数据技能。 使用 Spark Python API PySpark,您将利用并行计算处理大型数据集,并为高性能机器学习做好准备。 从清理数据到创建特征并实施机器学习模型,你将使用 Spark 执行端到端工作流。 该学习路径以使用流行的 MovieLens 数据集和 Million Songs 数据集构建推荐引擎作为结尾。

先决条件

此学习路径无先决条件
  • Course

    1

    PySpark 入门

    精通 PySpark,轻松处理大数据——学习处理、查询和优化海量数据集,释放强大分析能力!

  • Course

    Learn the gritty details that data scientists are spending 70-80% of their time on; data wrangling and feature engineering.

  • Course

    Learn how to make predictions from data with Apache Spark, using decision trees, logistic regression, linear regression, ensembles, and pipelines.

  • Project

    额外

    Building a Demand Forecasting Model

    Use PySpark to build an e-commerce forecasting model!

使用 PySpark 处理大数据
6 课程
学习路径完成

获得成就证明

将此证书添加到您的 LinkedIn 档案、简历或履历中
在社交媒体和绩效评估中分享
立即注册

加入超过19百万学习者,今天就开始使用 PySpark 处理大数据 !

创建您的免费帐户

继续使用 Google显示更多选项


继续操作即表示您接受我们的《使用条款》和《隐私政策》,并同意您的数据存储在美国。

通过 DataCamp for Mobile 提升您的数据技能

随时随地通过我们的移动课程和每日 5 分钟编程挑战提升技能。