Vai al contenuto principale
HomeSpark

Corso

Fondamenti di Big Data con PySpark

AvanzatoLivello di competenza
Aggiornato 02/2025
Impara le basi per lavorare con i big data usando PySpark.
Inizia il corso gratis
SparkData Engineering
4 h
16 video
55 Esercizi
4,600 XP
65,280
Attestato di conseguimento

Crea il tuo account gratuito

Continua con GoogleMostra più opzioni

o


Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.

Preferito dagli studenti di migliaia di aziende

Group

Formare un team?

Prova per il Business

Descrizione del corso

Negli ultimi anni si è parlato molto di Big Data, e ormai sono entrati nel mainstream per molte aziende. Ma cosa sono davvero i Big Data? Questo corso copre i fondamenti dei Big Data tramite PySpark. Spark è un framework di "lightning fast cluster computing" per i Big Data. Fornisce un motore generale per l’elaborazione dei dati e ti permette di eseguire programmi fino a 100 volte più veloci in memoria, o 10 volte più veloci su disco, rispetto a Hadoop. Userai PySpark, un pacchetto Python per programmare in Spark, e le sue potenti librerie di livello superiore come SparkSQL, MLlib (per il Machine Learning), ecc. Esplorerai le opere di William Shakespeare, analizzerai i dati dei Mondiali Fifa 2018 ed eseguirai il clustering su insiemi di dati genomici. Al termine del corso, avrai una comprensione approfondita di PySpark e della sua applicazione all’analisi generale dei Big Data.

Prerequisiti

Introduction to Python
1

Introduzione all’analisi dei Big Data con Spark

Questo capitolo introduce l’entusiasmante mondo dei Big Data, insieme ai vari concetti e ai diversi framework per l’elaborazione dei Big Data. Capirai perché Apache Spark è considerato il miglior framework per i Big Data.
Inizia il capitolo
2

Programmare con gli RDD di PySpark

La principale astrazione offerta da Spark è il resilient distributed dataset (RDD), che è il tipo di dato fondamentale e portante di questo motore. Questo capitolo introduce gli RDD e mostra come crearli ed eseguirli usando le RDD Transformations e le Actions.
Inizia il capitolo
Fondamenti di Big Data con PySpark
Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performance
Iscriviti ora

Unisciti a oltre 19 milioni di studenti e inizia Fondamenti di Big Data con PySpark oggi!

Crea il tuo account gratuito

Continua con GoogleMostra più opzioni

o


Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.