Corso
Introduzione a Spark SQL in Python
AvanzatoLivello di competenza
Aggiornato 03/2026
SparkData Manipulation4 h15 video52 Esercizi4,200 XP20,388Attestato di conseguimento
Crea il tuo account gratuito
Continua con GoogleMostra più opzionio
Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.
Preferito dagli studenti di migliaia di aziende
Formare un team?
Prova per il BusinessDescrizione del corso
Impara Spark SQL
Se conosci bene SQL e hai sentito parlare bene di Apache Spark, questo corso fa proprio al caso tuo. Apache Spark è un framework informatico per l'elaborazione dei big data, e Spark SQL è un componente di Apache Spark. Questo corso di quattro ore ti insegnerà come usare Spark in modo ancora più efficace, grazie a funzioni SQL avanzate, come le funzioni finestra.In quattro capitoli, userai Spark SQL per analizzare dati temporali, trovare le parole più frequenti in un documento di testo, creare insiemi di caratteristiche da un testo in linguaggio naturale e usarli per prevedere l'ultima parola di una frase con la regressione logistica.
Scopri come usare Spark SQL
Inizierai creando e interrogando una tabella SQL in Spark, oltre a imparare come usare le funzioni finestra SQL per fare somme cumulative, differenze cumulative e altre operazioni.Poi, scoprirai come usare la funzione window in Spark SQL per l'elaborazione del linguaggio naturale, compreso l'uso di un'analisi a finestra mobile per trovare sequenze di parole comuni.
Nel capitolo 3 imparerai come usare l'interfaccia utente SQL Spark per memorizzare correttamente nella cache i DataFrame e le tabelle SQL, prima di scoprire le migliori pratiche per la registrazione in Spark.
Infine, usi tutte le competenze acquisite finora per caricare e tokenizzare il testo grezzo prima di estrarre le sequenze di parole. Poi userai la regressione logistica per classificare il testo, usando dati grezzi in linguaggio naturale per addestrare un classificatore di testo.
Scopri tutto quello che c'è da sapere su Spark SQL
Alla fine del corso, avrai una buona conoscenza di Spark SQL e capirai come Spark unisce la potenza dell'elaborazione distribuita con la facilità d'uso di Python e SQL.Prerequisiti
Python ToolboxPostgreSQL Summary Stats and Window FunctionsIntroduction to PySpark1
PySpark SQL
In questo capitolo imparerai a creare e interrogare una tabella SQL in Spark. Spark SQL porta l’espressività di SQL in Spark. Imparerai anche a usare le funzioni finestra SQL in Spark. Le funzioni finestra eseguono un calcolo su righe correlate alla riga corrente. Semplificano notevolmente il raggiungimento di risultati difficili da esprimere usando solo join e aggregazioni tradizionali. Useremo le funzioni finestra per calcolare somme cumulative, differenze progressive e altre operazioni complesse da ottenere con il semplice SQL.
2
Uso delle funzioni finestra SQL per il Natural Language Processing
In questo capitolo caricherai testo in linguaggio naturale. Poi applicherai un’analisi a finestra mobile per trovare sequenze di parole frequenti.
3
Caching, logging e Spark UI
Nei capitoli precedenti hai imparato a sfruttare l’espressività delle funzioni finestra in SQL. Tuttavia, proprio questa espressività rende importante capire come mettere correttamente in cache i DataFrame e le tabelle SQL. È anche fondamentale sapere come valutare la tua applicazione. Imparerai a farlo usando la Spark UI. Vedrai inoltre una buona pratica per il logging in Spark. Spark SQL offre anche un altro strumento utile per ottimizzare le prestazioni delle query: il piano di esecuzione. Imparerai a usare il piano di esecuzione per valutare la provenienza di un DataFrame.
4
Classificazione del testo
I capitoli precedenti ti hanno fornito gli strumenti per caricare testo grezzo, tokenizzarlo ed estrarre sequenze di parole. Questo è già molto utile per l’analisi, ma è utile anche per il Machine Learning. Quello che hai imparato ora converge nell’uso della regressione logistica per classificare il testo. Al termine di questo capitolo, avrai caricato dati testuali in linguaggio naturale grezzi e li avrai usati per addestrare un classificatore di testo.
Introduzione a Spark SQL in Python
Corso completato
Ottieni Attestato di conseguimento
Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CVCondividila sui social e nella valutazione delle tue performanceIscriviti ora
Unisciti a oltre 19 milioni di studenti e inizia Introduzione a Spark SQL in Python oggi!
Crea il tuo account gratuito
Continua con GoogleMostra più opzionio
Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.
Aumenta le tue competenze sui dati con l'app di DataCamp
Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.