Corso

I Jupyter Notebook sono documenti per contenuti tecnici e di data science. Questo tutorial offre una panoramica dei Jupyter Notebook, dei loro componenti e di come usarli.
Esploreremo i notebook usando DataLab, un servizio di notebook ospitati che offre tutte le funzionalità dei Jupyter Notebook, insieme a strumenti per connettersi ai database, collaborare in tempo reale e pubblicare il tuo lavoro.
Questo tutorial presuppone che tu abbia già utilizzato un linguaggio di programmazione per la data science, come Python, SQL, R o Julia.
Panoramica dei notebook
I notebook combinano codice (come Python, SQL o R), l'output dell'esecuzione del codice e elementi di testo avanzato (formattazione, tabelle, figure, equazioni, link, ecc.) in un unico documento.
Il principale vantaggio dei notebook è la possibilità di includere commenti insieme al tuo codice. In questo modo eviti il processo soggetto a errori di copiare e incollare i risultati dell'analisi in un report separato. Invece, mescoli semplicemente l'analisi con il testo del report nel notebook.
Chi dovrebbe usare i Jupyter Notebook?
I Jupyter Notebook sono usati principalmente dai professionisti dei dati, in particolare data analyst e data scientist. Secondo i risultati del Kaggle Survey 2022, i Jupyter Notebook sono l'IDE di data science più popolare, usato da oltre l'80% dei rispondenti.
Tipi di Jupyter Notebook
Esistono due tipi principali di Jupyter Notebook: notebook ospitati e locali. DataCamp offre DataLab, un Jupyter Notebook ospitato che useremo per la maggior parte di questo tutorial. DataLab è un'ottima opzione per chi impara e per i professionisti che non vogliono configurare un ambiente locale.
Salvo dove indicato, le funzionalità descritte in questo tutorial funzioneranno anche su altre versioni di Jupyter Notebook. Se preferisci usare un ambiente locale, puoi installare Jupyter Notebook sulla tua macchina seguendo il nostro tutorial Installing Jupyter Notebook. Marcus Schanta mantiene un elenco di altre piattaforme di notebook ospitati.
Componenti di un notebook
Un Jupyter Notebook è composto da tre elementi principali: celle, un ambiente di esecuzione e un file system.
Le celle sono le unità individuali del notebook e possono contenere testo o codice:
- Le celle di testo servono per scrivere testo narrativo e includere immagini, link ed equazioni.
- Le celle di testo sono scritte in Markdown, un semplice linguaggio di markup.
- Le celle di codice servono per scrivere ed eseguire codice.
- L'output delle celle di codice verrà mostrato direttamente sotto la cella di codice.
- Le celle SQL (solo DataLab) sono usate per eseguire query SQL, così puoi recuperare facilmente dati da un database.
- Le celle Chart (solo DataLab) possono essere usate per creare visualizzazioni e visualizzare rapidamente i dataframe di Pandas.
L'ambiente di esecuzione è responsabile dell'esecuzione del codice nel notebook. Può essere configurato per supportare lingue diverse, tra cui Python, R o SQL.
Il file system ti consente di caricare, archiviare e scaricare file di dati, file di codice e output delle tue analisi.
Modalità comando e modalità modifica
I Jupyter Notebook hanno due diverse modalità di interazione: modalità comando e modalità modifica. In modalità comando, puoi navigare tra le celle, aggiungere ed eliminare celle e cambiare il tipo di cella. In modalità modifica, puoi modificare il contenuto di una cella.
Per entrare in modalità comando, puoi premere Esc oppure fare clic fuori da una cella. Per entrare in modalità modifica, puoi premere Invio o fare clic dentro una cella.
In DataLab, puoi fare clic sui pulsanti "Aggiungi testo" o "Aggiungi codice" per aggiungere una nuova cella.

Ottenere aiuto
Per Jupyter Notebook, puoi ottenere aiuto usando la documentazione o l'opzione nel menu. In DataLab, aiuto e scorciatoie da tastiera sono rapidamente accessibili premendo il pulsante di aiuto nel menu.

Scrivere testo
Le celle di testo sono scritte nel linguaggio di markup Markdown, che ti permette di scrivere e formattare facilmente il testo. In modalità modifica, puoi usare la sintassi come ** ** per il grassetto, o usare i pulsanti, per formattare il testo.
Ecco alcune opzioni:

Premere shift + invio o il pulsante "Visualizza" eseguirà la cella, producendo il seguente risultato.

- Le righe che iniziano con # sono un'intestazione di primo livello. Inizia con ## per un'intestazione di secondo livello, ### per un'intestazione di terzo livello e così via.
- Circonda il testo con ** per metterlo in grassetto, __ per metterlo in corsivo e ` per formattarlo come codice.
- Inizia righe consecutive con - per trasformarle in un elenco puntato.
- Inizia le righe con numeri seguiti da un punto per trasformarle in un elenco numerato.
- Gli hyperlink sono scritti in due parti. Il testo da mostrare è racchiuso tra parentesi quadre, poi l'URL è racchiuso tra parentesi tonde.
Scrivere ed eseguire codice
Premere "Aggiungi codice" o inserire un comando con (esc) e premere "B" aggiungerà un nuovo blocco di codice.

Scrivi il codice nella cella proprio come faresti in uno script.

Premere Esegui o CTRL/CMD+Invio esegue il codice e ne mostra l'output.

Lettura e scrittura di file
Premere "Sfoglia e carica file" nel menu a sinistra apre il file system e premere il "più" ti permette di caricare un file dalla tua macchina locale. Qui sotto abbiamo caricato un semplice file di testo chiamato hello_world.txt.


Possiamo usare il seguente codice per aprire il file, aggiungere del testo e poi salvare un nuovo file.

Ora vedrai il nuovo file nel file system, e conterrà i nostri aggiornamenti.

Lavorare con il file system
Abbiamo mostrato come caricare, aggiornare e creare un nuovo file. Per scaricare il nuovo file, premi i tre puntini nel file system e fai clic su download.

Il pulsante più, usato per creare nuovi file, può essere usato anche per creare notebook vuoti, che non avranno celle né output.

Comandare le celle
Puoi riordinare rapidamente le celle con i pulsanti sposta su e sposta giù, come mostrato nell'immagine qui sotto.

Questo riordinerà il tuo codice. (Nota che il codice può rompersi se provi a eseguirlo nell'ordine sbagliato!)
Il pulsante Nascondi codice comprime e nasconde il codice; è utile per blocchi di codice molto lunghi su cui non stai lavorando al momento. È utile anche se a chi legge la tua analisi non interessano i dettagli tecnici e vuole vedere solo i risultati.

Allo stesso modo, il pulsante Nascondi output ti consente di nascondere output lunghi.
Questi pulsanti possono anche essere usati insieme per nascondere sia il codice che l'output.
Pubblicare report (solo DataLab)
DataLab ti permette di pubblicare i tuoi notebook come pubblicazioni. È un ottimo modo per mostrare il tuo lavoro e collaborare con altri data scientist.
Puoi pubblicare il tuo notebook premendo il pulsante "Pubblica" nel menu laterale. Da lì, fai clic su pubblica per condividere il tuo notebook. È una buona idea eseguire il notebook dall'alto verso il basso prima di pubblicarlo. Questo aiuta a controllare il codice e garantisce che sia leggibile, dato che la maggior parte delle persone leggerà dall'inizio alla fine.

Una volta pubblicato il tuo notebook, altri utenti possono visualizzare la pubblicazione e commentare le singole celle. Puoi fare lo stesso anche tu con quelli degli altri. È un ottimo modo per aprire una discussione o comprendere un pezzo di codice complesso. Ecco un esempio su Workplace:

Condividere i Jupyter Notebook (solo DataLab)

Condividere i workbook è un'altra funzione utile esclusiva di DataLab. Poiché il notebook è ospitato, puoi condividere un link pubblico o privato con controllo degli accessi che il destinatario potrà eseguire in autonomia.
È un modo fantastico per collaborare. La data science è un campo profondo e vasto, quindi non ci si aspetta che una sola persona sappia tutto. I data scientist devono collaborare per ottenere i risultati migliori, che si tratti di codice efficiente, visualizzazioni efficaci o un modello accurato. DataLab consente la collaborazione in tempo reale, in cui più persone possono modificare un notebook contemporaneamente.
Per condividere il tuo notebook, premi il pulsante di condivisione in alto a destra. Qui puoi copiare il link, rendere il notebook privato/pubblico e impostare chi può accedervi (se privato).
Fai un passo in più
Inizia oggi il tuo percorso nella data science iscrivendoti gratis a DataLab. Se ti blocchi, la documentazione di DataLab è un'ottima risorsa per maggiori informazioni.

