Lewati ke konten utama
BerandaSpark

Kursus

Fundamental Big Data dengan PySpark

LanjutanTingkat Keterampilan
Diperbarui 02/2025
Pelajari dasar-dasar bekerja dengan big data menggunakan PySpark.
Mulai Kursus Gratis
SparkData Engineering
4 jam
16 videos
55 Latihan
4,600 XP
65,294
Pernyataan Pencapaian

Buat Akun Gratis Anda

Lanjutkan dengan GoogleTampilkan opsi lainnya

atau


Dengan melanjutkan, Anda menerima Ketentuan Penggunaan kami, Kebijakan Privasi kami dan bahwa data Anda disimpan di Amerika Serikat.

Dipercaya oleh para pelajar di ribuan perusahaan

Group

Melatih Tim?

Coba untuk Bisnis

Deskripsi Kursus

Selama beberapa tahun terakhir, Big Data banyak diperbincangkan dan kini telah menjadi arus utama bagi banyak perusahaan. Namun, apa sebenarnya Big Data itu? Kursus ini membahas dasar-dasar Big Data melalui PySpark. Spark adalah kerangka kerja komputasi klaster yang "secepat kilat" untuk Big Data. Spark menyediakan mesin platform pemrosesan data umum dan memungkinkan Anda menjalankan program hingga 100x lebih cepat di memori, atau 10x lebih cepat di disk, dibandingkan Hadoop. Anda akan menggunakan PySpark, paket Python untuk pemrograman Spark beserta pustaka tingkat tingginya yang andal seperti SparkSQL, MLlib (untuk Machine Learning), dan lain-lain. Anda akan mengeksplorasi karya William Shakespeare, menganalisis data Fifa 2018, dan melakukan pengelompokan pada himpunan data genomik. Di akhir kursus, Anda akan memiliki pemahaman mendalam tentang PySpark dan penerapannya untuk analisis Big Data secara umum.

Persyaratan

Introduction to Python
1

Pengantar analisis Big Data dengan Spark

Bab ini memperkenalkan dunia Big Data yang menarik, serta berbagai konsep dan beragam kerangka kerja untuk memproses Big Data. Anda akan memahami mengapa Apache Spark dianggap sebagai kerangka kerja terbaik untuk Big Data.
Mulai Bab
2

Pemrograman di PySpark RDD

Abstraksi utama yang disediakan Spark adalah resilient distributed dataset (RDD), yang merupakan tipe data fundamental dan tulang punggung dari mesin ini. Bab ini memperkenalkan RDD dan menunjukkan cara membuat serta mengeksekusi RDD menggunakan Transformations dan Actions pada RDD.
Mulai Bab
4

Machine Learning dengan PySpark MLlib

PySpark MLlib adalah pustaka Machine Learning berskala besar milik Apache Spark dalam Python yang terdiri atas algoritme pembelajaran umum dan utilitasnya. Sepanjang bab terakhir ini, Anda akan mempelajari algoritme Machine Learning penting. Anda akan membangun mesin rekomendasi film dan penyaring spam, serta menggunakan pengelompokan k-means.
Mulai Bab
Fundamental Big Data dengan PySpark
Kursus
Selesai

Memperoleh Surat Keterangan Prestasi

Tambahkan kredensial ini ke profil LinkedIn, resume, atau CV Anda
Bagikan di media sosial dan dalam penilaian kinerja Anda
Daftar sekarang

Bergabung dengan 19 juta pelajar dan mulai Fundamental Big Data dengan PySpark Hari Ini!

Buat Akun Gratis Anda

Lanjutkan dengan GoogleTampilkan opsi lainnya

atau


Dengan melanjutkan, Anda menerima Ketentuan Penggunaan kami, Kebijakan Privasi kami dan bahwa data Anda disimpan di Amerika Serikat.

Kembangkan keterampilan data Anda dengan DataCamp untuk Mobile

Buat kemajuan di mana saja dengan kursus mobile kami dan tantangan coding harian 5 menit.