Cours

Les carnets Jupyter sont des documents pour le contenu technique et la science des données. Ce tutoriel présente une vue d'ensemble des carnets Jupyter, de leurs composants et de leur utilisation.
Nous explorerons les carnets en utilisant DataLab, un service de carnets hébergé qui offre toutes les fonctionnalités des carnets Jupyter, ainsi que des fonctionnalités de connexion aux bases de données, de collaboration en temps réel et de publication de votre travail.
Ce tutoriel part du principe que vous avez déjà utilisé un langage de programmation en science des données, tel que Python, SQL, R ou Julia.
Aperçu des carnets de notes
Les notebooks combinent du code informatique (tel que Python, SQL ou R), le résultat de l'exécution du code et des éléments de texte riche (formatage, tableaux, figures, équations, liens, etc.) dans un seul document.
Le principal avantage des carnets de notes est la possibilité d'inclure des commentaires dans votre code. Cela signifie que vous pouvez éviter le processus source d'erreurs consistant à copier et coller les résultats de l'analyse dans un rapport distinct. Au lieu de cela, vous mélangez simplement votre analyse avec le texte du rapport dans le carnet.
À qui s'adresse Jupyter Notebooks ?
Les blocs-notes Jupyter sont principalement utilisés par les professionnels des données, en particulier les analystes et les scientifiques des données. Selon les résultats de l'enquête Kaggle 2022, les blocs-notes Jupyter sont l'IDE de science des données le plus populaire, utilisé par plus de 80 % des personnes interrogées.
Types de Notebook Jupyter
Il existe deux types principaux de carnets Jupyter : les carnets hébergés et les carnets locaux. DataCamp fournit DataLab, un carnet de notes Jupyter hébergé que nous utiliserons pour la majeure partie de ce tutoriel. DataLab est une excellente option pour les apprenants et les professionnels qui ne souhaitent pas mettre en place un environnement local.
Sauf indication contraire, les fonctionnalités décrites dans ce tutoriel fonctionneront sur d'autres versions du carnet Jupyter. Si vous préférez utiliser un environnement local, vous pouvez installer Jupyter Notebook sur votre machine à l'aide de notre tutoriel sur l 'installation de Jupyter Notebook. Marcus Schanta tient à jour une liste d'autres plateformes d'ordinateurs portables hébergés.
Composants d'un ordinateur portable
Un carnet Jupyter se compose de trois éléments principaux : des cellules, un environnement d'exécution et un système de fichiers.
Les cellules sont les unités individuelles du carnet et peuvent contenir du texte ou du code :
- Les cellules de texte sont utilisées pour écrire un texte narratif et incluent des images, des liens et des équations.
- Les cellules de texte sont écrites en Markdown, un langage de balisage simple.
- Les cellules de code sont utilisées pour écrire et exécuter du code.
- La sortie des cellules de code s'affiche directement sous la cellule de code.
- Les cellules SQL (DataLab uniquement) sont utilisées pour exécuter des requêtes SQL, ce qui vous permet d'extraire facilement des données d'une base de données.
- Les cellules des graphiques (DataLab uniquement) peuvent être utilisées pour créer des visualisations et visualiser rapidement les dataframes Pandas.
L'environnement d'exécution est responsable de l'exécution du code dans le carnet. L'environnement d'exécution peut être configuré pour prendre en charge différents langages, notamment Python, R ou SQL.
Le système de fichiers vous permet de charger, de stocker et de télécharger des fichiers de données, des fichiers de code et des résultats de votre analyse.
Mode commande et mode édition
Les carnets Jupyter ont deux modes d'interaction différents : le mode commande et le mode édition. En mode commande, vous pouvez naviguer entre les cellules, ajouter et supprimer des cellules et modifier le type de cellule. En mode édition, vous pouvez modifier le contenu d'une cellule.
Pour passer en mode commande, vous pouvez soit appuyer sur Echap, soit cliquer en dehors d'une cellule. Pour passer en mode édition, vous pouvez appuyer sur Entrée ou cliquer à l'intérieur d'une cellule.
Dans DataLab, vous pouvez cliquer sur les boutons "Ajouter du texte" ou "Ajouter du code" pour ajouter une nouvelle cellule.

Obtenir de l'aide
Pour Jupyter notebook, vous pouvez obtenir de l'aide en utilisant la documentation ou en utilisant l'option dans le menu. Dans DataLab, vous pouvez accéder rapidement à l'aide et aux raccourcis clavier en appuyant sur le bouton d'aide dans le menu.

Texte écrit
Les cellules de texte sont écrites dans le langage de balisage Markdown, ce qui vous permet d'écrire et de mettre en forme facilement du texte. En mode édition, vous pouvez utiliser une syntaxe telle que ** ** pour gras, ou utiliser les boutons pour formater votre texte.
Voici quelques options différentes :

En appuyant sur shift + enter ou sur le bouton "View", la cellule est exécutée, ce qui donne le résultat suivant.

- Les lignes commençant par # constituent un en-tête de premier niveau. Commencez par ## pour un en-tête de deuxième niveau, ### pour un en-tête de troisième niveau, et ainsi de suite.
- Entourez le texte de ** pour le mettre en gras, de __ pour le mettre en italique et de ` pour le mettre en forme.
- Commencez les lignes consécutives par - pour les transformer en liste à puces.
- Commencez les lignes par des chiffres suivis d'un point pour les transformer en liste numérotée.
- Les hyperliens sont écrits en deux parties. Le texte à afficher est entouré de crochets, puis l'url est entourée de parenthèses.
Écrire et exécuter du code
En appuyant sur "Ajouter un code" ou en entrant une commande avec (escape) et en appuyant sur "B", vous ajoutez un nouveau bloc de code.

Écrivez du code dans la cellule comme vous le feriez dans un script.

En appuyant sur Run ou sur CTRL/CMD+Enter, vous exécutez le code et affichez sa sortie.

Lecture et écriture de fichiers
En cliquant sur "Parcourir et télécharger des fichiers" dans le menu de gauche, vous accédez au système de fichiers, et en appuyant sur le "plus", vous pouvez télécharger un fichier à partir de votre machine locale. Ci-dessous, nous avons téléchargé un simple fichier texte appelé hello_world.txt.


Nous pouvons utiliser le code suivant pour ouvrir le fichier, ajouter du texte, puis enregistrer un nouveau fichier.

Vous verrez maintenant le nouveau fichier dans le système de fichiers, et il contiendra nos mises à jour.

Travailler avec le système de fichiers
Nous avons montré comment télécharger, mettre à jour et créer un nouveau fichier. Pour télécharger le nouveau fichier, appuyez sur les trois points dans le système de fichiers et cliquez sur télécharger.

Le bouton "plus" utilisé pour créer de nouveaux fichiers peut également être utilisé pour créer de nouveaux carnets, qui n'auront ni cellules ni sortie.

Cellules de commandement
Vous pouvez rapidement réorganiser les cellules à l'aide des boutons de déplacement vers le haut et vers le bas, comme le montre l'image ci-dessous.

Cela réorganisera votre code. (Notez que votre code peut se casser si vous essayez de l'exécuter dans le mauvais ordre !)
Le bouton Cacher le code permet de réduire et de cacher le code ; cette fonction est utile pour les blocs de code très longs sur lesquels vous ne travaillez pas actuellement. Elle est également utile si les lecteurs de votre analyse ne s'intéressent pas aux détails techniques et ne veulent voir que les résultats.

De même, le bouton Masquer la sortie vous permet de masquer les sorties longues.
boutons peuvent également être utilisés ensemble pour masquer à la fois le code et la sortie.
Publication de rapports (DataLab uniquement)
DataLab vous permet de publier vos carnets de notes en tant que publications. C'est un excellent moyen de présenter votre excellent travail et de collaborer avec d'autres scientifiques des données.
Vous pouvez publier votre carnet en cliquant sur le bouton "Publier" dans le menu latéral. Ensuite, cliquez sur publier pour partager votre carnet. Il est conseillé de parcourir le carnet de haut en bas avant de le publier. Cela permet de vérifier votre code et de s'assurer qu'il est lisible, car la plupart des gens lisent de haut en bas.

Une fois que votre carnet a été publié, d'autres utilisateurs peuvent consulter la publication et commenter les cellules individuelles. Vous pouvez également faire de même avec les autres. C'est un excellent moyen d'ouvrir la discussion ou de comprendre un morceau de code complexe. Voici un exemple de lieu de travail:

Partager les notebooks Jupyter (DataLab uniquement)

Le partage des classeurs est une autre fonction utile réservée à DataLab. Comme le bloc-notes est hébergé, vous pouvez partager un lien public ou privé, à accès contrôlé, que le destinataire peut exécuter lui-même.
C'est un moyen fantastique de collaborer. La science des données est un domaine vaste et profond, ce qui signifie qu'aucune personne n'est censée tout savoir. Les scientifiques des données doivent collaborer pour obtenir les meilleurs résultats, qu'il s'agisse d'un code efficace, de visualisations convaincantes ou d'un modèle précis. DataLab permet une collaboration en temps réel, où plusieurs personnes peuvent éditer un carnet en même temps.
Pour partager votre ordinateur portable, appuyez sur le bouton de partage en haut à droite. Ici, vous pouvez copier le lien, rendre le carnet privé/public et définir qui peut accéder au carnet (s'il est privé).
Passez au niveau supérieur
Commencez dès aujourd'hui votre voyage dans la science des données en vous inscrivant gratuitement à DataLab. Si vous êtes bloqué, la documentation de DataLab est un excellent moyen d'obtenir plus d'informations.