Machine Learning con PySpark

AvanzatoLivello di competenza

Aggiornato 11/2025

Impara a fare previsioni dai dati con Apache Spark, usando alberi decisionali, regressione logistica, regressione lineare, insiemi e pipeline.

Descrizione del corso

Impara a usare Apache Spark per il machine learning

Spark è uno strumento potente e versatile per lavorare con i Big Data. Spark gestisce in modo trasparente la distribuzione dei compiti di calcolo all'interno di un cluster. Questo vuol dire che le operazioni sono veloci, ma ti permette anche di concentrarti sull'analisi invece di preoccuparti dei dettagli tecnici. In questo corso imparerai come inserire i dati in Spark e poi approfondirai i tre algoritmi fondamentali di Spark Machine Learning: Regressione lineare, regressione logistica/classificatori e creazione di pipeline.

Costruire e testare alberi decisionali

Creare i tuoi alberi decisionali è un ottimo modo per iniziare a esplorare i modelli di apprendimento automatico. Userai un algoritmo chiamato "partizionamento ricorsivo" per dividere i dati in due classi e trovare un predittore all'interno dei tuoi dati che porti alla divisione più informativa delle due classi, e ripeterai questa operazione con altri nodi. Puoi quindi usare il tuo albero decisionale per fare previsioni con nuovi dati.

Padroneggia la logistica e la regressione lineare in PySpark

La regressione logistica e lineare sono tecniche di machine learning super importanti supportate da PySpark. Imparerai a costruire e valutare modelli di regressione logistica, prima di passare alla creazione di modelli di regressione lineare che ti aiuteranno a perfezionare i tuoi predittori selezionando solo le opzioni più rilevanti.

Alla fine del corso, ti sentirai sicuro nell'applicare le tue nuove conoscenze sul machine learning, grazie alle attività pratiche e ai set di dati di esercitazione che troverai durante il corso.

Prerequisiti

Supervised Learning with scikit-learn Introduction to PySpark

Introduzione

Spark è un framework per lavorare con i Big Data. In questo capitolo vedrai alcune nozioni di base su Spark e sul Machine Learning. Poi scoprirai come connetterti a Spark con Python e caricare dati CSV.

Machine Learning e Spark

50 XP

Caratteristiche di Spark

50 XP

Componenti in un cluster Spark

50 XP

Connessione a Spark

Descrizione del corso

Impara a usare Apache Spark per il machine learning

Costruire e testare alberi decisionali

Padroneggia la logistica e la regressione lineare in PySpark

Ottieni Attestato di conseguimento

Unisciti a oltre .css-nklxlk{color:var(--wf-brand--main, #03EF62);}19 milioni di studenti e inizia Machine Learning con PySpark oggi!

Crea il tuo account gratuito

Aumenta le tue competenze sui dati con l'app di DataCamp

Unisciti a oltre 19 milioni di studenti e inizia Machine Learning con PySpark oggi!