Vai al contenuto principale
HomeSpark

Corso

Introduzione a Spark SQL in Python

AvanzatoLivello di competenza
Aggiornato 03/2026
Impara a gestire i dati e a creare set di funzionalità di machine learning in Spark usando SQL in Python.
Inizia il corso gratis
SparkData Manipulation
4 h
15 video
52 Esercizi
4,200 XP
20,388
Attestato di conseguimento

Crea il tuo account gratuito

Continua con GoogleMostra più opzioni

o


Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.

Preferito dagli studenti di migliaia di aziende

Group

Formare un team?

Prova per il Business

Descrizione del corso

Impara Spark SQL

Se conosci bene SQL e hai sentito parlare bene di Apache Spark, questo corso fa proprio al caso tuo. Apache Spark è un framework informatico per l'elaborazione dei big data, e Spark SQL è un componente di Apache Spark. Questo corso di quattro ore ti insegnerà come usare Spark in modo ancora più efficace, grazie a funzioni SQL avanzate, come le funzioni finestra.

In quattro capitoli, userai Spark SQL per analizzare dati temporali, trovare le parole più frequenti in un documento di testo, creare insiemi di caratteristiche da un testo in linguaggio naturale e usarli per prevedere l'ultima parola di una frase con la regressione logistica.

Scopri come usare Spark SQL

Inizierai creando e interrogando una tabella SQL in Spark, oltre a imparare come usare le funzioni finestra SQL per fare somme cumulative, differenze cumulative e altre operazioni.

Poi, scoprirai come usare la funzione window in Spark SQL per l'elaborazione del linguaggio naturale, compreso l'uso di un'analisi a finestra mobile per trovare sequenze di parole comuni.

Nel capitolo 3 imparerai come usare l'interfaccia utente SQL Spark per memorizzare correttamente nella cache i DataFrame e le tabelle SQL, prima di scoprire le migliori pratiche per la registrazione in Spark.

Infine, usi tutte le competenze acquisite finora per caricare e tokenizzare il testo grezzo prima di estrarre le sequenze di parole. Poi userai la regressione logistica per classificare il testo, usando dati grezzi in linguaggio naturale per addestrare un classificatore di testo.

Scopri tutto quello che c'è da sapere su Spark SQL

Alla fine del corso, avrai una buona conoscenza di Spark SQL e capirai come Spark unisce la potenza dell'elaborazione distribuita con la facilità d'uso di Python e SQL.

Prerequisiti

Python ToolboxPostgreSQL Summary Stats and Window FunctionsIntroduction to PySpark
1

PySpark SQL

In questo capitolo imparerai a creare e interrogare una tabella SQL in Spark. Spark SQL porta l’espressività di SQL in Spark. Imparerai anche a usare le funzioni finestra SQL in Spark. Le funzioni finestra eseguono un calcolo su righe correlate alla riga corrente. Semplificano notevolmente il raggiungimento di risultati difficili da esprimere usando solo join e aggregazioni tradizionali. Useremo le funzioni finestra per calcolare somme cumulative, differenze progressive e altre operazioni complesse da ottenere con il semplice SQL.
Inizia il capitolo
2

Uso delle funzioni finestra SQL per il Natural Language Processing

In questo capitolo caricherai testo in linguaggio naturale. Poi applicherai un’analisi a finestra mobile per trovare sequenze di parole frequenti.
Inizia il capitolo
3

Caching, logging e Spark UI

Nei capitoli precedenti hai imparato a sfruttare l’espressività delle funzioni finestra in SQL. Tuttavia, proprio questa espressività rende importante capire come mettere correttamente in cache i DataFrame e le tabelle SQL. È anche fondamentale sapere come valutare la tua applicazione. Imparerai a farlo usando la Spark UI. Vedrai inoltre una buona pratica per il logging in Spark. Spark SQL offre anche un altro strumento utile per ottimizzare le prestazioni delle query: il piano di esecuzione. Imparerai a usare il piano di esecuzione per valutare la provenienza di un DataFrame.
Inizia il capitolo
4

Classificazione del testo

I capitoli precedenti ti hanno fornito gli strumenti per caricare testo grezzo, tokenizzarlo ed estrarre sequenze di parole. Questo è già molto utile per l’analisi, ma è utile anche per il Machine Learning. Quello che hai imparato ora converge nell’uso della regressione logistica per classificare il testo. Al termine di questo capitolo, avrai caricato dati testuali in linguaggio naturale grezzi e li avrai usati per addestrare un classificatore di testo.
Inizia il capitolo
Introduzione a Spark SQL in Python
Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performance
Iscriviti ora

Unisciti a oltre 19 milioni di studenti e inizia Introduzione a Spark SQL in Python oggi!

Crea il tuo account gratuito

Continua con GoogleMostra più opzioni

o


Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.