Lewati ke konten utama

Kursus

Fundamental Big Data dengan PySpark

LanjutanTingkat Keterampilan

Diperbarui 02/2025

Pelajari dasar-dasar bekerja dengan big data menggunakan PySpark.

Mulai Kursus Gratis

SparkData Engineering

4 jam

16 videos

55 Latihan

4,600 XP

65,294

Pernyataan Pencapaian

Dipercaya oleh para pelajar di ribuan perusahaan

Melatih Tim?

Coba untuk Bisnis

Deskripsi Kursus

Selama beberapa tahun terakhir, Big Data banyak diperbincangkan dan kini telah menjadi arus utama bagi banyak perusahaan. Namun, apa sebenarnya Big Data itu? Kursus ini membahas dasar-dasar Big Data melalui PySpark. Spark adalah kerangka kerja komputasi klaster yang "secepat kilat" untuk Big Data. Spark menyediakan mesin platform pemrosesan data umum dan memungkinkan Anda menjalankan program hingga 100x lebih cepat di memori, atau 10x lebih cepat di disk, dibandingkan Hadoop. Anda akan menggunakan PySpark, paket Python untuk pemrograman Spark beserta pustaka tingkat tingginya yang andal seperti SparkSQL, MLlib (untuk Machine Learning), dan lain-lain. Anda akan mengeksplorasi karya William Shakespeare, menganalisis data Fifa 2018, dan melakukan pengelompokan pada himpunan data genomik. Di akhir kursus, Anda akan memiliki pemahaman mendalam tentang PySpark dan penerapannya untuk analisis Big Data secara umum.

Persyaratan

Introduction to Python

1

Pengantar analisis Big Data dengan Spark

Bab ini memperkenalkan dunia Big Data yang menarik, serta berbagai konsep dan beragam kerangka kerja untuk memproses Big Data. Anda akan memahami mengapa Apache Spark dianggap sebagai kerangka kerja terbaik untuk Big Data.

Apa itu Big Data?

Tiga V pada Big Data

PySpark: Spark dengan Python

Memahami SparkContext

Penggunaan Interaktif PySpark

Memuat data di PySpark shell

Tinjauan pemrograman fungsional di Python

Penggunaan lambda() dengan map()

Penggunaan lambda() dengan filter()

2

Pemrograman di PySpark RDD

Abstraksi utama yang disediakan Spark adalah resilient distributed dataset (RDD), yang merupakan tipe data fundamental dan tulang punggung dari mesin ini. Bab ini memperkenalkan RDD dan menunjukkan cara membuat serta mengeksekusi RDD menggunakan Transformations dan Actions pada RDD.

Abstraksi Data dengan RDD

RDD dari Koleksi yang Diparalelkan

RDD dari Himpunan Data Eksternal

Partisi dalam data Anda

Transformasi dan Aksi RDD Dasar

Map dan Collect

Filter dan Hitung

Pair RDD di PySpark

ReduceBykey dan Collect

SortByKey dan Collect

Aksi RDD Lanjutan

CountingBykeys

Buat RDD dasar dan transformasikan

Hapus stop words dan lakukan reduksi pada himpunan data

Cetak frekuensi kata

3

PySpark SQL & DataFrame

Pada bab ini, Anda akan mempelajari Spark SQL, yaitu modul Spark untuk pemrosesan data terstruktur. Modul ini menyediakan abstraksi pemrograman bernama DataFrame dan juga dapat bertindak sebagai mesin kueri SQL terdistribusi. Bab ini menunjukkan bagaimana Spark SQL memungkinkan Anda menggunakan DataFrame di Python.

Abstraksi Data dengan DataFrame

RDD ke DataFrame

Memuat CSV ke dalam DataFrame

Melakukan Operasi pada DataFrame di PySpark

Memeriksa data dalam PySpark DataFrame

Subsetting dan pembersihan PySpark DataFrame

Menyaring DataFrame Anda

Berinteraksi dengan DataFrame menggunakan PySpark SQL

Menjalankan Kueri SQL Secara Terprogram

Kueri SQL untuk memfilter Tabel

Visualisasi Data di PySpark menggunakan DataFrame

Visualisasi PySpark DataFrame

Bagian 1: Membuat DataFrame dari berkas CSV

Bagian 2: Kueri SQL pada DataFrame

Bagian 3: Visualisasi data

4

Machine Learning dengan PySpark MLlib

PySpark MLlib adalah pustaka Machine Learning berskala besar milik Apache Spark dalam Python yang terdiri atas algoritme pembelajaran umum dan utilitasnya. Sepanjang bab terakhir ini, Anda akan mempelajari algoritme Machine Learning penting. Anda akan membangun mesin rekomendasi film dan penyaring spam, serta menggunakan pengelompokan k-means.

Tinjauan PySpark MLlib

Pustaka ML di PySpark

Algoritme PySpark MLlib

Collaborative filtering

Memuat himpunan data MovieLens ke dalam RDD

Pelatihan model dan prediksi

Evaluasi model menggunakan MSE

Klasifikasi

Memuat data spam dan non-spam

Feature hashing dan LabelPoint

Pelatihan model Logistic Regression

Pengelompokan

Memuat dan mengurai data 5000 points

Pelatihan K-means

Memvisualisasikan klaster

Fundamental Big Data dengan PySpark

Kursus
Selesai

Memperoleh Surat Keterangan Prestasi

Tambahkan kredensial ini ke profil LinkedIn, resume, atau CV Anda
Bagikan di media sosial dan dalam penilaian kinerja AndaDaftar sekarang

Bergabung dengan 19 juta pelajar dan mulai Fundamental Big Data dengan PySpark Hari Ini!

Kembangkan keterampilan data Anda dengan DataCamp untuk Mobile

Buat kemajuan di mana saja dengan kursus mobile kami dan tantangan coding harian 5 menit.