ข้ามไปยังเนื้อหาหลัก
หน้าหลักSpark

คอร์ส

Big Data Fundamentals with PySpark

ขั้นสูงระดับทักษะ
อัปเดตแล้ว 02/2568
Learn the fundamentals of working with big data with PySpark.
เริ่มคอร์สฟรี
SparkData Engineering
4 ชม.
16 วิดีโอ
55 แบบฝึกหัด
4,600 XP
65,217
ใบรับรองความสำเร็จ

สร้างบัญชีฟรีของคุณ

ดำเนินการต่อด้วย Googleแสดงตัวเลือกเพิ่มเติม

หรือ


เมื่อดำเนินการต่อ คุณยอมรับ ข้อกำหนดการใช้งาน ของเรา นโยบายความเป็นส่วนตัว ของเรา และยอมรับว่าข้อมูลของคุณจะถูกจัดเก็บในสหรัฐอเมริกา

เป็นที่รักของผู้เรียนในบริษัทหลายพันแห่ง

Group

กำลังฝึกอบรมทีม?

ลองใช้สำหรับธุรกิจ

คำอธิบายคอร์ส

There's been a lot of buzz about Big Data over the past few years, and it's finally become mainstream for many companies. But what is this Big Data? This course covers the fundamentals of Big Data via PySpark. Spark is a "lightning fast cluster computing" framework for Big Data. It provides a general data processing platform engine and lets you run programs up to 100x faster in memory, or 10x faster on disk, than Hadoop. You’ll use PySpark, a Python package for Spark programming and its powerful, higher-level libraries such as SparkSQL, MLlib (for machine learning), etc. You will explore the works of William Shakespeare, analyze Fifa 2018 data and perform clustering on genomic datasets. At the end of this course, you will have gained an in-depth understanding of PySpark and its application to general Big Data analysis.

ข้อกำหนดเบื้องต้น

Introduction to Python
1

Introduction to Big Data analysis with Spark

This chapter introduces the exciting world of Big Data, as well as the various concepts and different frameworks for processing Big Data. You will understand why Apache Spark is considered the best framework for BigData.
เริ่มบท
2

Programming in PySpark RDD’s

The main abstraction Spark provides is a resilient distributed dataset (RDD), which is the fundamental and backbone data type of this engine. This chapter introduces RDDs and shows how RDDs can be created and executed using RDD Transformations and Actions.
เริ่มบท
4

Machine Learning with PySpark MLlib

PySpark MLlib is the Apache Spark scalable machine learning library in Python consisting of common learning algorithms and utilities. Throughout this last chapter, you'll learn important Machine Learning algorithms. You will build a movie recommendation engine and a spam filter, and use k-means clustering.
เริ่มบท
Big Data Fundamentals with PySpark
คอร์สเสร็จสมบูรณ์

รับใบรับรองความสำเร็จ

เพิ่มใบรับรองนี้ไปยังโปรไฟล์ LinkedIn เรซูเม่ หรือ CV ของคุณ
แชร์บน social media และในการรีวิวผลการปฏิบัติงานของคุณ
ลงทะเบียนทันที

ร่วมกับผู้เรียนกว่า 19 ล้านคนและเริ่มต้น Big Data Fundamentals with PySpark วันนี้!

สร้างบัญชีฟรีของคุณ

ดำเนินการต่อด้วย Googleแสดงตัวเลือกเพิ่มเติม

หรือ


เมื่อดำเนินการต่อ คุณยอมรับ ข้อกำหนดการใช้งาน ของเรา นโยบายความเป็นส่วนตัว ของเรา และยอมรับว่าข้อมูลของคุณจะถูกจัดเก็บในสหรัฐอเมริกา

พัฒนาทักษะด้านข้อมูลของคุณด้วย DataCamp for Mobile

พัฒนาทักษะได้ทุกที่ทุกเวลาด้วยคอร์สเรียนบนมือถือและแบบฝึกหัดเขียนโค้ดประจำวัน 5 นาทีของเรา