cours
Tutoriel RStudio
RStudio est un outil indispensable pour tous ceux qui travaillent avec le langage de programmation R. Il est utilisé dans l'analyse des données pour importer, accéder, transformer, explorer, tracer et modéliser les données, et dans l'apprentissage automatique pour faire des prédictions sur les données.
Si vous commencez tout juste à apprendre R, il est grand temps pour vous de découvrir ce qu'est RStudio et comment l'installer et commencer à l'utiliser. C'est exactement là que ce tutoriel RStudio peut s'avérer utile. Alors, plongeons dans le vif du sujet.
Qu'est-ce que RStudio ?
Avant d'examiner ce qu'est RStudio et pourquoi l'utiliser, commençons par donner une définition de R.
R est un langage de programmation populaire et un logiciel libre et gratuit utilisé dans l'analyse et la science des données. Il est particulièrement puissant pour effectuer des calculs statistiques avancés et créer des graphiques convaincants. R propose plus de 18 000 packages dédiés à la science des données (en septembre 2022), à la fois polyvalents et spécialisés. Il s'agit d'une technologie qui bénéficie du soutien d'une communauté en ligne active et utile et qui est compatible avec différents systèmes d'exploitation.
Si vous souhaitez obtenir plus d'informations sur R et sur la manière de l'apprendre, consultez nos ressources :
- Qu'est-ce que R ? - La centrale de calcul statistique
- Comment débuter avec R
- Cours d'introduction à R
RStudio est un IDE (environnement de développement intégré) open-source flexible et multifonctionnel qui est largement utilisé comme interface graphique pour travailler avec R dans sa version 3.0.1 ou supérieure. En outre, il est également adapté à de nombreux autres langages de programmation, tels que Python ou SQL.
RStudio offre de nombreuses fonctionnalités utiles :
- Une interface conviviale
- La capacité d'écrire et de sauvegarder des scripts réutilisables
- Accès facile à toutes les données importées et aux objets créés (comme les variables, les fonctions, etc.)
- Aide exhaustive sur n'importe quel objet
- Autocomplétion du code
- La possibilité de créer des projets pour organiser et partager votre travail avec vos collaborateurs de manière plus efficace.
- Prévisualisation de l'intrigue
- Commutation aisée entre le terminal et la console
- Le cursus opérationnel
- De nombreux articles du support RStudio sur l'utilisation de l'IDE
Votre chemin vers la maîtrise de R
Comment installer RStudio
Pour installer et commencer à travailler avec RStudio, nous devons d'abord télécharger et installer le langage de programmation R lui-même. Pour télécharger et installer R, suivez les étapes ci-dessous :
- Ouvrez le Comprehensive R Archive Network (CRAN), qui est le site officiel de R.
- Dans la partie supérieure de l'écran, vous trouverez la section Télécharger et installer R.
- Cliquez sur le lien correspondant à votre système d'exploitation.
- Sélectionnez la dernière version.
- Ouvrez le fichier téléchargé et suivez les instructions d'installation simples en laissant les options par défaut partout.
Pour télécharger et installer RStudio, suivez les étapes suivantes :
1. Ouvrez la page de téléchargement du site officiel de RStudio.
2. Faites défiler la page jusqu'aux boutons de téléchargement de RStudio Desktop :
3. Cliquez sur TELECHARGER RSTUDIO DESKTOP.
4. Cliquez sur TELECHARGER sous RStudio Desktop:
5. Vous verrez que votre système d'exploitation est automatiquement identifié. Cliquez sur le grand bouton pour télécharger la dernière version de RStudio pour votre système d'exploitation :
6. Ouvrez le fichier téléchargé et suivez les instructions d'installation simples en optant pour les valeurs par défaut partout.
Comment utiliser RStudio
Maintenant que nous avons installé RStudio avec succès, ouvrons-le, explorons ses principales parties et essayons d'y effectuer diverses opérations.
RStudio Interface
L'ouverture de RStudio lance automatiquement le logiciel R. L'interface de la plate-forme se présente comme suit :
En gros, nous pouvons diviser la fenêtre de travail en trois zones :
- Zone de gauche: comprend les onglets Console, Terminal et Travaux en arrière-plan.
- Zone en haut à droite: comprend les onglets Environnement, Historique, Connexions et Didacticiel.
- Zone inférieure droite: comprend les onglets Files, Plots, Packages, Help, Viewer et Presentation.
Remarque: la présentation ci-dessus, y compris les noms des onglets et leur répartition, correspond à la version 2022.07.1+554 de RStudio. Elle peut varier légèrement pour d'autres versions.
Examinons de plus près les onglets essentiels.
Console
Dans cet onglet, vous trouverez d'abord des informations sur la version de R utilisée, ainsi que quelques commandes de base à essayer. À la fin de ces descriptions, nous pouvons taper notre code R, appuyer sur Entrée et obtenir le résultat sous la ligne de code (par exemple, essayez d'exécuter 2*2 et voyez ce qui se passe). Virtuellement, nous pouvons faire ici tout ce que nous ferions dans n'importe quel autre programme R, par exemple :
- Installation et chargement des paquets R
- Effectuer des opérations mathématiques simples ou complexes
- Affecter le résultat d'une opération à une variable
- Importation de données
- Créer des types courants d'objets R, tels que des vecteurs, des matrices ou des DataFrame.
- Explorer les données
- Analyse statistique
- Construire des visualisations de données
Cependant, lorsque nous exécutons notre code directement dans la console, il n'est pas sauvegardé pour être reproduit ultérieurement. Si nous avons besoin (et c'est généralement le cas) d'écrire un code reproductible pour résoudre une tâche spécifique, nous devons l'enregistrer et le sauvegarder régulièrement dans un fichier script plutôt que dans la console.
Nous verrons bientôt comment écrire des scripts. Pour l'instant, gardez à l'esprit que vous devriez surtout utiliser la console pour tester le code et installer les paquets R, car ils ne doivent être installés qu'une seule fois.
Environnement
Chaque fois que nous définissons une nouvelle variable ou que nous réaffectons une variable existante dans RStudio, elle est stockée en tant qu'objet dans l'espace de travail et s'affiche, avec sa valeur, dans l'onglet Environnement, dans la partie supérieure droite de la fenêtre RStudio. Essayez d'exécuter greeting <- "Hello, World !" dans la console et voyez ce qui se passe dans l'onglet Environnement.
Il en va de même pour les objets plus complexes tels que les DataFrame. Lorsque nous importons des données sous forme de dataFrame (ou que nous créons une dataFrame à partir de zéro), nous voyons apparaître dans l'espace de travail non seulement le nom du nouvel objet, mais aussi les valeurs et le type de données de chaque colonne. De plus, nous pouvons afficher encore plus de détails sur chaque objet, tels que sa longueur et sa taille en mémoire.
Dans l'exemple ci-dessous, nous avons créé deux variables dans la console : greeting <- "Hello, World !" et my_vector <- c(1, 2, 3, 4). Notez comment ils sont affichés dans l'onglet Environnement :
Nous pouvons changer le mode d'affichage de nos variables de Liste à Grille dans le coin supérieur droit de l'onglet, comme suit :
Notez que nous pouvons maintenant voir la longueur et la taille de chaque objet.
En mode grille, la case apparaît à gauche de chaque variable. Nous pouvons cocher l'une de ces cases et cliquer sur l'icône Balai pour supprimer les objets correspondants de l'espace de travail :
Si nous cochons la case à gauche de la colonne Nom et que nous cliquons sur l'icône Balai, ou si nous cliquons simplement sur cette icône dans le mode d'affichage précédent(Liste), nous nettoierons notre espace de travail en supprimant toutes les variables qui s'y trouvent.
Autres onglets importants
- Terminal - pour exécuter des commandes à partir du terminal
- Historique - pour suivre l'historique de toutes les opérations effectuées pendant la session RStudio en cours.
- Fichiers - pour voir la structure du dossier de travail, réinitialiser le dossier de travail, naviguer entre les dossiers, etc.
- Tracés - pour prévisualiser et exporter les visualisations de données créées
- Paquets - pour vérifier quels paquets ont été chargés et pour charger ou décharger des paquets (en activant/désactivant la case située à gauche du nom d'un paquet).
Comment écrire des scripts R dans RStudio
Comme nous l'avons mentionné précédemment, si nous voulons être en mesure de reproduire et de réutiliser notre code pour d'autres besoins, nous devrions l'écrire dans un fichier script plutôt que directement dans la console.
Pour commencer à enregistrer un script, cliquez sur Fichier - Nouveau fichier - R Script. Cela ouvrira un éditeur de texte dans le coin supérieur gauche de l'interface RStudio (au-dessus de l'onglet Console):
Dans un script, nous pouvons faire toutes les choses que nous avons énumérées dans la section sur la console (et nous pouvons en fait faire les mêmes choses dans n'importe quel autre IDE R), sauf que maintenant nos actions seront stockées dans un fichier pour une utilisation ultérieure ou un partage. Il est important de donner un nom significatif au fichier de script et de le sauvegarder régulièrement(Ctrl + S sous Windows/Linux, Cmd + S sous Mac, Fichier - Sauvegarder dans n'importe quel système d'exploitation).
Pour exécuter une seule ligne de code d'un script, placez le curseur sur cette ligne et cliquez sur l'icône Exécuter en haut à droite de l'éditeur de texte. Sinon, utilisez un raccourci clavier (Ctrl+ Entrée sous Windows/Linux, Cmd + Entrée sous Mac). Pour exécuter plusieurs lignes de code, procédez de la même manière après avoir sélectionné les lignes nécessaires. Pour exécuter toutes les lignes de code, sélectionnez-les et cliquez sur l'icône Exécuter OU utilisez un raccourci clavier(Ctrl + A + Entrée sous Windows/Linux, Cmd + A + Entrée sous Mac).
Lorsque nous écrivons un script, il est judicieux d'ajouter des commentaires de code lorsque cela est nécessaire (en utilisant le symbole # suivi d'une ligne de texte de commentaire) afin d'expliquer à un futur lecteur potentiel le pourquoi de certains morceaux de code.
Il est également conseillé d'ajouter un contexte important au début du script : l'auteur et les contributeurs du code, la date de rédaction, la date de mise à jour, le champ d'application du code, etc. Une autre pratique utile consiste à charger tous les paquets R nécessaires au début du script, juste après avoir fourni les informations initiales.
Comment effectuer diverses opérations dans RStudio
Nous verrons ensuite quelles sont les actions que nous pouvons effectuer dans RStudio à des fins d'analyse de données. Pratiquement, toutes les opérations que nous allons considérer ne sont pas strictement liées à RStudio mais plutôt à l'utilisation de R en général, quel que soit l'IDE.
Nous n'allons donc pas nous pencher sur tous les détails techniques de ces opérations. Nous verrons plutôt quelques tâches courantes, leur mise en œuvre pratique dans R (exemples de code) et des approches alternatives (le cas échéant) pour ces tâches dans RStudio.
Copiez-collez les exemples ci-dessous dans la console de RStudio et explorez les résultats. Envisagez d'essayer à la fois des approches générales et des approches alternatives (spécifiques à RStudio).
Installation des paquets R
Syntaxe :
install.packages("package_name")
Par exemple :
install.packages("tidyverse")
Dans RStudio:
- N'oubliez pas d' installer tous les paquets dans la console plutôt que dans un fichier script, car ils ne doivent être installés qu'une seule fois sur le disque dur de l'ordinateur.
- Vous pouvez installer des paquets directement à partir de l'interface RStudio : ouvrez l'onglet Paquets (en bas à gauche), cliquez sur Installer et sélectionnez les paquets nécessaires à partir du CRAN en les séparant par un espace ou une virgule, comme suit :
Chargement des paquets R
Syntaxe :
library(package_name)
Par exemple :
library(tidyverse)
Notez que si nous avons utilisé des guillemets pour l'installation des paquets, nous ne les utilisons pas pour le chargement des paquets.
Dans RStudio:
- Chargez tous les paquets nécessaires dans un fichier script plutôt que dans la console.
- Le chargement/déchargement des paquets installés ou du système peut être effectué en recherchant et en cochant/décochant ces paquets dans l'onglet Paquets. Notez que certains paquets ne peuvent pas être déchargés s'ils ont été importés par d'autres paquets.
Vérification des paquets R chargés
Exécutez dans la console (.packages()) ou search() pour obtenir une liste de tous les paquets chargés.
Dans RStudio: ouvrez l'onglet Packages, recherchez un package spécifique et vérifiez si la case à gauche de son nom est cochée.
Obtenir de l'aide sur un package R ou un objet R intégré
Pour obtenir de l'aide sur un package installé et chargé, ou sur une fonction d'un package installé et chargé, ou sur tout autre objet R intégré (tel qu'un jeu de données préchargé), utilisez l'une des syntaxes suivantes :
help(package_or_function_name)
ou
help("package_or_function_name")
ou
?package_or_function_name
Remarque: nous devons transmettre un nom de fonction à la fonction d'aide sans parenthèses.
L'onglet Aide s'ouvre avec la documentation du paquet ou de l'objet. Si nous vérifions un paquet, nous obtiendrons la liste de toutes ses fonctions et le lien vers la documentation de chacune d'entre elles.
Par exemple, exécutez la commande suivante dans la console (après vous être assuré que les paquets readr et dplyr sont installés et chargés) :
help("read.csv")
?readr
help(help)
help('CO2')
Dans RStudio: recherchez et cliquez sur le nom du paquet souhaité(même s'il n'est pas chargé) dans l'onglet Paquets et voyez le résultat dans l'onglet Aide.
Importation de données
world_population <- read.csv("world_population.csv")
(Pour exécuter le code ci-dessus, téléchargez tout d'abord le jeu de données sur la population mondiale disponible publiquement sur Kaggle et décompressez-le dans le même dossier que celui dans lequel vous stockez votre script R).
Le résultat de l'exécution du code ci-dessus sera un DataFrame R dans votre dossier de travail.
Dans RStudio:
- Fichier - Importer un jeu de données
OR
- Cliquez sur Import Dataset dans l'onglet Environment:
Sélectionnez ensuite From Text (base)..., naviguez jusqu'au bon dossier, sélectionnez le fichier à importer, remplissez ou cochez les champs Name, Heading, Separator et Decimal dans la fenêtre contextuelle, prévisualisez la structure de l'ensemble de données et cliquez sur Import :
Vous pouvez maintenant trouver et explorer le jeu de données importé dans l'onglet Environnement et dans une feuille de calcul ouverte dans un nouvel onglet :
Si vous souhaitez en savoir plus sur la manière d'importer des données avec R, explorez une piste de compétences DataCamp bien étoffée Importation et nettoyage de données avec R. Vous pouvez trouver divers ensembles de données à importer et à travailler sur DataLab, le carnet de données de DataCamp basé sur l'IA et une alternative à RStudio.
Accès aux ensembles de données R intégrés
Pour voir la liste complète des échantillons de données disponibles préchargés dans R, y compris leur nom et leur brève description, exécutez le code suivant dans la console :
data()
Vous pouvez prendre n'importe lequel des noms apparus et utiliser chacun d'entre eux comme une variable (contenant un DataFrame) pour travailler et mettre en pratique vos compétences dans R.
Si vous avez besoin de plus d'informations sur un jeu de données préchargé sélectionné, exécutez la fonction help() sur celui-ci, par exemple, help(CO2).
Traitement et analyse des données dans RStudio
Comme dans tout autre IDE R, RStudio permet d'accéder aux données, de les manipuler, de les transformer, de les analyser et de les modéliser dans R. Vous trouverez ci-dessous quelques exemples d'opérations standard effectuées sur l'ensemble de données intégré CO2 :
head(CO2)
tail(CO2)
colnames(CO2)
dim(CO2)
str(CO2)
summary(CO2)
summary(CO2$uptake)
median(CO2$uptake)
class(CO2$uptake)
unique(CO2$Treatment)
subset(CO2, conc == min(CO2$conc))
Essayez de les exécuter un par un dans RStudio et observez le résultat.
Tracer des données dans RStudio¶
Comme dans tout autre IDE R, dans RStudio, nous pouvons tracer les données. Vous trouverez ci-dessous quelques exemples de création de tracés simples pour les ensembles de données intégrés CO2 et Orange. Dans les deux cas, le tracé obtenu apparaît dans l'onglet Tracés et peut être exporté à l'aide du bouton Exporter de cet onglet :
- Création d'un histogramme:
hist(CO2$uptake)
- un diagramme de dispersion :
plot(Orange$age, Orange$circumference)
Nous pouvons ajuster quelques paramètres disponibles pour la fonction de base plot() afin d'ajouter un peu d'esthétique au dernier tracé :
plot(Orange$age, Orange$circumference,
xlab="Age", ylab="Circumference",
main="Circumference vs. Age",
col="blue", pch=16)
Nous pouvons également utiliser ggplot2 ou tout autre logiciel spécialisé dans la visualisation de données, dont R offre un vaste choix. Le parcours de compétences DataCamp Data Visualization with R peut être un bon point de départ pour maîtriser vos compétences en matière de traçage dans R.
Créer des données à partir de rien dans R
Encore une fois, dans ce cas, RStudio n'est pas différent des autres IDE R.
Pour créer un vecteur:
oceans <- c("Arctic", "Atlantic", "Indian", "Pacific", "Southern")
avg_depth <- c(1.2, 3.65, 3.74, 3.97, 3.27)
(Les données ci-dessus sont tirées de Wikipedia).
Pour créer un DataFrame:
oceans_depth <- data.frame(oceans, avg_depth)
Impression du résultat :
print(oceans_depth)
Les vecteurs et les DataFrame résultants apparaissent également dans l'onglet Environnement de RStudio :
Conclusion
Dans ce tutoriel, nous avons exploré de nombreux aspects essentiels de l'utilisation de RStudio :
- Qu'est-ce que RStudio et quels sont ses avantages ?
- Comment installer RStudio
- A quoi ressemble l'interface de RStudio et comment utiliser ses principales parties
- La différence entre l'exécution d'un code dans la console et un script
- Où trouver tous les objets utilisés dans la session RStudio en cours
- Les meilleures pratiques pour l'écriture de scripts
- Comment effectuer diverses opérations dans RStudio, telles que l'installation et le chargement de paquets R, l'importation de données, le traitement, l'analyse et la visualisation de données, la création d'objets R à partir de zéro, etc.
Maintenant que vous êtes familiarisé avec RStudio, vous pouvez commencer à l'utiliser. Par exemple, pensez à créer vos propres projets R dans RStudio. Pour plus d'inspiration, consultez l'article sur les 10 meilleures idées de projets R pour 2022.
Si vous sentez que vous avez besoin d'une formation plus poussée en R avant de commencer à créer des projets dans RStudio, pensez aux cours et aux cursus R suivants, adaptés aux débutants , sur DataCamp:
R Cours
cours
Intermédiaire R
cours