Cursus

Jupyter-notebooks zijn documenten voor technische en data science-inhoud. Deze tutorial geeft een overzicht van Jupyter-notebooks, hun onderdelen en hoe je ze gebruikt.
We ontdekken notebooks met DataLab, een gehoste notebookservice die alle functionaliteit van Jupyter-notebooks biedt, plus mogelijkheden om verbinding te maken met databases, realtime samen te werken en je werk te publiceren.
Deze tutorial gaat ervan uit dat je eerder een programmeertaal voor data science hebt gebruikt, zoals Python, SQL, R of Julia.
Overzicht van notebooks
Notebooks combineren computercode (zoals Python, SQL of R), de output van het uitvoeren van die code en rijke tekstelementen (opmaak, tabellen, figuren, vergelijkingen, links, enz.) in één document.
Het belangrijkste voordeel van notebooks is dat je commentaar bij je code kunt voegen. Zo voorkom je het foutgevoelige proces van kopiëren en plakken van analyseresultaten in een apart rapport. In plaats daarvan combineer je je analyse met de rapporttekst in het notebook.
Wie zou Jupyter Notebooks moeten gebruiken?
Jupyter Notebooks worden voornamelijk gebruikt door dataprofessionals, met name data-analisten en data scientists. Volgens de resultaten van de Kaggle Survey 2022 zijn Jupyter Notebooks de populairste data science-IDE, gebruikt door meer dan 80% van de respondenten.
Typen Jupyter Notebook
Er zijn twee hoofdtypen Jupyter Notebook: gehoste en lokale notebooks. DataCamp biedt DataLab, een gehoste Jupyter Notebook die we voor het grootste deel van deze tutorial zullen gebruiken. DataLab is een uitstekende optie voor lerenden en professionals die geen lokale omgeving willen opzetten.
Tenzij anders vermeld, werkt de functionaliteit die in deze tutorial wordt beschreven ook op andere Jupyter-notebookversies. Als je liever een lokale omgeving gebruikt, kun je Jupyter Notebook op je machine installeren met onze tutorial Installing Jupyter Notebook. Marcus Schanta onderhoudt een lijst met andere gehoste notebookplatforms.
Onderdelen van een notebook
Een Jupyter Notebook bestaat uit drie hoofdonderdelen: cellen, een runtime-omgeving en een bestandssysteem.
Cellen zijn de individuele bouwstenen van het notebook en kunnen tekst of code bevatten:
- Tekstcellen worden gebruikt om verhalende tekst te schrijven en afbeeldingen, links en vergelijkingen op te nemen.
- Tekstcellen worden geschreven in Markdown, een eenvoudige opmaaktaal.
- Codecellen worden gebruikt om code te schrijven en uit te voeren.
- De output van codecellen wordt direct onder de codecel weergegeven.
- SQL-cellen (alleen DataLab) worden gebruikt om SQL-queries uit te voeren, zodat je eenvoudig gegevens uit een database kunt ophalen.
- Grafiekcellen (alleen DataLab) kunnen worden gebruikt om visualisaties te maken en snel Pandas-dataframes te visualiseren.
De runtime-omgeving is verantwoordelijk voor het uitvoeren van de code in het notebook. De runtime-omgeving kan worden geconfigureerd voor verschillende talen, waaronder Python, R of SQL.
Het bestandssysteem stelt je in staat om databestanden, codebestanden en outputs van je analyse te uploaden, op te slaan en te downloaden.
Command mode en edit mode
Jupyter-notebooks hebben twee verschillende interactiemodi: command mode en edit mode. In command mode kun je tussen cellen navigeren, cellen toevoegen en verwijderen en het celtype wijzigen. In edit mode kun je de inhoud van een cel bewerken.
Om command mode te openen, kun je op Escape drukken of buiten een cel klikken. Om edit mode te openen, druk je op Enter of klik je in een cel.
In DataLab kun je op de knoppen ‘Add Text’ of ‘Add Code’ klikken om een nieuwe cel toe te voegen.

Hulp krijgen
Voor Jupyter-notebooks kun je hulp krijgen via de documentatie of via de optie in het menu. In DataLab zijn hulp en sneltoetsen snel toegankelijk via de helpknop in het menu.

Tekst schrijven
Tekstcellen worden geschreven in de opmaaktaal Markdown, waarmee je eenvoudig tekst kunt schrijven en opmaken. In edit mode kun je bijvoorbeeld ** ** gebruiken voor vetgedrukte tekst, of de knoppen gebruiken om je tekst op te maken.
Hier zijn een paar opties:

Als je op shift + enter of op de knop ‘View’ drukt, wordt de cel uitgevoerd en krijg je het volgende resultaat.

- Regels die beginnen met # zijn een kop op het hoogste niveau. Gebruik ## voor een kop op het tweede niveau, ### voor het derde niveau, enzovoort.
- Zet tekst tussen ** om die vet te maken, __ om cursief te maken en ` om als code op te maken.
- Begin opeenvolgende regels met - om er een opsomming van te maken.
- Begin regels met cijfers gevolgd door een punt om er een genummerde lijst van te maken.
- Hyperlinks worden in twee delen geschreven. De zichtbare tekst staat tussen vierkante haken, gevolgd door de url tussen ronde haken.
Code schrijven en uitvoeren
Op ‘Add Code’ drukken of een commando invoeren met (escape) en op ‘B’ drukken, voegt een nieuw codeblok toe.

Schrijf code in de cel zoals je dat in een script zou doen.

Op Run of CTRL/CMD+Enter drukken voert de code uit en toont de output.

Bestanden lezen en schrijven
Als je op ‘Browse and upload files’ in het menu aan de linkerkant klikt, verschijnt het bestandssysteem, en met de ‘plus’ kun je een bestand vanaf je lokale machine uploaden. Hieronder hebben we een eenvoudig tekstbestand met de naam hello_world.txt geüpload.


We kunnen de volgende code gebruiken om het bestand te openen, tekst toe te voegen en vervolgens een nieuw bestand op te slaan.

Je ziet nu het nieuwe bestand in het bestandssysteem, met onze wijzigingen erin.

Werken met het bestandssysteem
We hebben laten zien hoe je een nieuw bestand uploadt, bijwerkt en maakt. Om het nieuwe bestand te downloaden, klik je op de drie puntjes in het bestandssysteem en kies je voor downloaden.

De plusknop die wordt gebruikt om nieuwe bestanden te maken, kan ook worden gebruikt om nieuwe notebooks te maken, zonder cellen of output.

Cellen aansturen
Je kunt cellen snel opnieuw ordenen met de knoppen omhoog en omlaag, zoals in de afbeelding hieronder.

Hiermee wordt je code in een andere volgorde gezet. (Let op: je code kan kapot gaan als je die in de verkeerde volgorde probeert uit te voeren!)
De knop Hide Code vouwt de code in en verbergt die; dit is handig voor hele lange codeblokken waar je nu niet aan werkt. Het is ook handig als de lezers van je analyse niet geïnteresseerd zijn in de technische details en alleen de resultaten willen zien.

Op dezelfde manier kun je met de knop Hide Output lange outputs verbergen.
Deze knoppen kun je ook samen gebruiken om zowel code als output te verbergen.
Rapporten publiceren (alleen DataLab)
Met DataLab kun je je notebooks publiceren als publicaties. Dit is een geweldige manier om je uitstekende werk te laten zien en samen te werken met andere data scientists.
Je kunt je notebook publiceren door op de knop ‘Publish’ in het zijmenu te drukken. Klik daarna op publish om je notebook te delen. Het is verstandig om het notebook van boven naar beneden te draaien voordat je publiceert. Dit helpt bij het controleren van je code en zorgt dat het leesbaar is, omdat de meeste mensen van boven naar beneden lezen.

Zodra je notebook is gepubliceerd, kunnen andere gebruikers de publicatie bekijken en reageren op afzonderlijke cellen. Jij kunt dat ook bij anderen doen. Dit is een geweldige manier om een discussie te starten of een complex stuk code te begrijpen. Hier is een Workplace-voorbeeld:

Jupyter-notebooks delen (alleen DataLab)

Notebooks delen is een andere handige, alleen-in-DataLab-functie. Omdat het notebook gehost wordt, kun je een openbare of privé, toegangsgecontroleerde link delen die de ontvanger zelf kan uitvoeren.
Dit is een fantastische manier om samen te werken. Data science is een breed en diep vakgebied; niemand hoeft alles te weten. Data scientists moeten samenwerken voor de beste resultaten, of het nu gaat om efficiënte code, overtuigende visualisaties of een accuraat model. DataLab maakt realtime samenwerking mogelijk, waarbij meerdere mensen tegelijk een notebook kunnen bewerken.
Om je notebook te delen, klik je rechtsboven op de deelknop. Hier kun je de link kopiëren, het notebook privé/publiek maken en instellen wie toegang heeft tot het notebook (als het privé is).
Til het naar een hoger niveau
Begin vandaag nog aan je data science-reis door je gratis aan te melden voor DataLab. Als je vastloopt, is de DataLab-documentatie een goede plek voor meer informatie.
