Kurs
RStudio Tutorial
RStudio ist ein unverzichtbares Werkzeug für alle, die mit der Programmiersprache R arbeiten. Es wird in der Datenanalyse verwendet, um Daten zu importieren, darauf zuzugreifen, sie umzuwandeln, zu erforschen, darzustellen und zu modellieren, und für das maschinelle Lernen, um Vorhersagen über Daten zu treffen.
Wenn du gerade erst anfängst, R zu lernen, ist es höchste Zeit, dass du herausfindest, was RStudio ist und wie du es installierst und benutzt. Genau an dieser Stelle kann dieses RStudio-Tutorial nützlich sein. Also, lass uns eintauchen.
Was ist RStudio?
Bevor wir besprechen, was RStudio ist und warum man es benutzen sollte, wollen wir zunächst eine Definition von R geben.
R ist eine beliebte Programmiersprache und freie und quelloffene Software, die in der Datenanalyse und Datenwissenschaft eingesetzt wird. Sie ist besonders leistungsfähig bei der Durchführung fortgeschrittener statistischer Berechnungen und der Erstellung aussagekräftiger Diagramme. R bietet mehr als 18.000 spezielle Pakete für die Datenwissenschaft (Stand: September 2022), sowohl Mehrzweckpakete als auch eng spezialisierte Pakete. Es ist eine Technologie, die von einer aktiven und hilfreichen Online-Community unterstützt wird und mit verschiedenen Betriebssystemen kompatibel ist.
Wenn du mehr über R wissen willst und wissen willst, wie man es lernt, schau dir unsere Ressourcen an:
- Was ist R? - Das Kraftpaket für statistische Berechnungen
- Wie man mit R anfängt
- Einführung in R Kurs
RStudio ist eine flexible und multifunktionale Open-Source-IDE (integrierte Entwicklungsumgebung), die häufig als grafisches Frontend für die Arbeit mit R ab Version 3.0.1 verwendet wird. Außerdem ist es an viele andere Programmiersprachen angepasst, z. B. an Python oder SQL.
RStudio bietet zahlreiche hilfreiche Funktionen:
- Eine benutzerfreundliche Schnittstelle
- Die Fähigkeit, wiederverwendbare Skripte zu schreiben und zu speichern
- Einfacher Zugriff auf alle importierten Daten und erstellten Objekte (wie Variablen, Funktionen usw.)
- Ausführliche Hilfe zu jedem Objekt
- Automatische Code-Vervollständigung
- Die Möglichkeit, Projekte zu erstellen, um deine Arbeit effizienter zu organisieren und mit deinen Mitstreitern zu teilen
- Plot-Vorschau
- Einfaches Umschalten zwischen Terminal und Konsole
- Lernpfad für die Betriebsgeschichte
- Zahlreiche Artikel des RStudio-Supports zur Verwendung der IDE
Dein Weg zur Beherrschung von R
So installierst du RStudio
Um RStudio zu installieren und mit der Arbeit zu beginnen, müssen wir zunächst die Programmiersprache R selbst herunterladen und installieren. Um R herunterzuladen und zu installieren, befolge die folgenden Schritte:
- Öffne das Comprehensive R Archive Network (CRAN), die offizielle Website von R.
- Im oberen Teil des Bildschirms findest du den Abschnitt R herunterladen und installieren.
- Klicke auf den Link, der zu deinem Betriebssystem passt.
- Wähle die neueste Version aus.
- Öffne die heruntergeladene Datei und folge den einfachen Installationsanweisungen, wobei du überall die Standardoptionen belässt.
Um RStudio herunterzuladen und zu installieren, befolge diese Schritte:
1. Öffne die Download-Seite der offiziellen RStudio-Website.
2. Scrolle nach unten zu den Download-Buttons für RStudio Desktop:
3. Klicke auf DOWNLOAD RSTUDIO DESKTOP.
4. Klicke unter RStudio Desktop auf DOWNLOAD:
5. Du wirst sehen, dass dein Betriebssystem automatisch erkannt wird. Drücke den großen Button, um die neueste Version von RStudio für dein Betriebssystem herunterzuladen:
6. Öffne die heruntergeladene Datei und folge den einfachen Installationsanweisungen, wobei du überall die Standardeinstellungen wählst.
Wie man RStudio benutzt
Nachdem wir RStudio nun erfolgreich installiert haben, öffnen wir es, erkunden seine Hauptbestandteile und versuchen, verschiedene Operationen damit durchzuführen.
RStudio Interface
Wenn du RStudio öffnest, wird automatisch die R-Software gestartet. Die Oberfläche der Plattform sieht wie folgt aus:
Grob können wir das Arbeitsfenster in drei Bereiche unterteilen:
- Linker Bereich: enthält die Registerkarten Konsole, Terminal und Hintergrundaufträge
- Bereich oben rechts: enthält die Registerkarten Umgebung, Verlauf, Verbindungen und Tutorial
- Bereich unten rechts: enthält die Registerkarten Dateien, Plots, Pakete, Hilfe, Viewer und Präsentation
Hinweis: Das obige Layout einschließlich der Tab-Namen und ihrer Verteilung bezieht sich auf die RStudio-Version 2022.07.1+554. Sie kann bei anderen Versionen leicht abweichen.
Schauen wir uns die wichtigsten Registerkarten genauer an.
Konsole
Auf dieser Registerkarte sehen wir zunächst Informationen über die verwendete R-Version und einige grundlegende Befehle zum Ausprobieren. Am Ende dieser Beschreibungen können wir unseren R-Code eingeben, die Eingabetaste drücken und das Ergebnis unterhalb der Codezeile ablesen (z. B. 2*2 ausprobieren und sehen, was passiert). Praktisch können wir hier alles tun, was wir auch in jedem anderen R-Programm tun würden, zum Beispiel:
- Installieren und Laden von R-Paketen
- Ausführen einfacher oder komplexer mathematischer Operationen
- Zuweisung des Ergebnisses einer Operation an eine Variable
- Daten importieren
- Gemeinsame Arten von R-Objekten wie Vektoren, Matrizen oder DataFrames erstellen
- Daten erforschen
- Statistische Analyse
- Datenvisualisierungen erstellen
Wenn wir unseren Code jedoch direkt in der Konsole ausführen, wird er nicht gespeichert, um ihn weiter zu reproduzieren. Wenn wir einen reproduzierbaren Code schreiben müssen (und das tun wir meistens), um eine bestimmte Aufgabe zu lösen, müssen wir ihn aufzeichnen und regelmäßig in einer Skriptdatei statt in der Konsole speichern.
Wir werden uns bald damit beschäftigen, wie man Skripte schreibt. Im Moment solltest du die Konsole vor allem zum Testen des Codes und zur Installation der R-Pakete verwenden, da diese nur einmal installiert werden müssen.
Umwelt
Immer wenn wir in RStudio eine neue Variable definieren oder eine bestehende Variable neu zuweisen, wird sie als Objekt im Arbeitsbereich gespeichert und zusammen mit ihrem Wert auf der Registerkarte Umgebung im rechten oberen Bereich des RStudio-Fensters angezeigt. Versuche, greeting <- "Hallo, Welt!" in der Konsole auszuführen und schaue, was auf der Registerkarte Umgebung passiert.
Das gilt auch für komplexere Objekte wie z. B. DataFrames. Wenn wir Daten als DataFrame importieren (oder einen DataFrame von Grund auf neu erstellen), sehen wir im Arbeitsbereich nicht nur den Namen des neuen Objekts, sondern auch die Werte und den Datentyp der einzelnen Spalten. Außerdem können wir noch mehr Details zu jedem Objekt anzeigen, wie zum Beispiel seine Länge und Speichergröße.
Im folgenden Beispiel haben wir zwei Variablen in der Konsole erstellt: greeting <- "Hallo, Welt!" und my_vector <- c(1, 2, 3, 4). Beachte, wie sie auf der Registerkarte Umwelt angezeigt werden:
In der oberen rechten Ecke der Registerkarte können wir die Art der Anzeige unserer Variablen von Liste auf Raster ändern, wie folgt:
Beachte, dass wir jetzt auch die Länge und Größe der einzelnen Objekte sehen können.
In der Rasterdarstellung erscheint das Feld links neben jeder Variablen. Wir können jedes dieser Kästchen ankreuzen und auf das Besen-Symbol klicken, um die entsprechenden Objekte aus dem Arbeitsbereich zu entfernen:
Wenn du das Kästchen links neben der Spalte Name anklickst und auf das Besen-Symbol klickst, oder wenn du im vorherigen Anzeigemodus(Liste) einfach auf dieses Symbol klickst, werden alle Variablen aus unserem Arbeitsbereich entfernt.
Andere wichtige Registerkarten
- Terminal - zum Ausführen von Befehlen über das Terminal
- Lernpfad - um den Verlauf aller Operationen zu verfolgen, die während der aktuellen RStudio-Sitzung durchgeführt wurden
- Dateien - um die Struktur des Arbeitsordners zu sehen, den Arbeitsordner zurückzusetzen, zwischen den Ordnern zu navigieren, etc.
- Plots - zur Vorschau und zum Export von erstellten Datenvisualisierungen
- Pakete - um zu überprüfen, welche Pakete geladen wurden, und um Pakete zu laden oder zu entladen (indem du das Kästchen links neben dem Paketnamen an- oder ausschaltest)
Wie man R-Skripte in RStudio schreibt
Wie bereits erwähnt, sollten wir unseren Code in eine Skriptdatei und nicht direkt in die Konsole schreiben, wenn wir ihn reproduzieren und für weitere Zwecke wiederverwenden wollen.
Um die Aufzeichnung eines Skripts zu starten, klicke auf Datei - Neue Datei - R-Skript. Dies öffnet einen Texteditor in der oberen linken Ecke der RStudio-Oberfläche (oberhalb der Registerkarte Konsole ):
In einem Skript können wir all die Dinge tun, die wir im Abschnitt über die Konsole aufgelistet haben (und wir können eigentlich die gleichen Dinge in jeder anderen R-IDE tun), nur dass unsere Aktionen jetzt in einer Datei gespeichert werden, um sie weiter zu verwenden oder zu teilen. Es ist wichtig, der Skriptdatei einen aussagekräftigen Namen zu geben und sie regelmäßig zu speichern(Strg + S in Windows/Linux, Cmd + S in Mac, Datei - Speichern in jedem Betriebssystem).
Um eine einzelne Codezeile eines Skripts auszuführen, setzt du den Cursor auf diese Zeile und klickst auf das Symbol Ausführen oben rechts im Texteditor. Andernfalls verwende ein Tastaturkürzel (Strg+ Enter unter Windows/Linux, Cmd + Enter unter Mac). Um mehrere Codezeilen auszuführen, wählst du die gewünschten Zeilen aus. Um alle Codezeilen auszuführen, markiere alle Zeilen und klicke auf das Ausführen-Symbol ODER verwende ein Tastaturkürzel(Strg + A + Enter in Windows/Linux, Cmd + A + Enter in Mac).
Wenn wir ein Skript schreiben, ist es sinnvoll, bei Bedarf Codekommentare hinzuzufügen (mit dem Hashtag-Symbol #, gefolgt von einer Zeile Kommentartext), um einem potenziellen zukünftigen Leser zu erklären, warum bestimmte Teile des Codes notwendig sind.
Außerdem ist es eine gute Idee, am Anfang des Skripts einige wichtige Informationen hinzuzufügen: den Autor und die Mitwirkenden des Codes, wann er geschrieben wurde, wann er aktualisiert wurde, den Umfang des Codes usw. Eine weitere hilfreiche Methode ist es, alle benötigten R-Pakete am Anfang des Skripts zu laden, gleich nachdem du die ersten Informationen eingegeben hast.
Wie man verschiedene Operationen in RStudio durchführt
Als Nächstes werden wir besprechen, welche Aktionen wir in RStudio für die Datenanalyse durchführen können. Praktisch alle Operationen, die wir betrachten werden, beziehen sich nicht unbedingt auf RStudio, sondern auf die Verwendung von R im Allgemeinen, egal in welcher IDE.
Daher werden wir uns nicht alle technischen Details dieser Vorgänge genau ansehen. Stattdessen sehen wir uns einige häufige Aufgaben, ihre praktische Umsetzung in R (Codebeispiele) und alternative Ansätze (wo anwendbar) für diese Aufgaben in RStudio an.
Kopiere die folgenden Beispiele in die Konsole von RStudio und erkunde die Ergebnisse. Erwäge, sowohl allgemeine als auch alternative (RStudio-spezifische) Ansätze auszuprobieren.
Installieren von R-Paketen
Syntax:
install.packages("package_name")
Zum Beispiel:
install.packages("tidyverse")
In RStudio:
- Denke daran, alle Pakete in der Konsole und nicht in einer Skriptdatei zu installieren, da sie nur einmal auf der Festplatte eines Computers installiert werden müssen.
- Du kannst Pakete direkt von der RStudio-Oberfläche aus installieren: Öffne die Registerkarte Pakete (unten links), klicke auf Installieren und wähle die benötigten Pakete von CRAN aus, getrennt durch ein Leerzeichen oder Komma, wie folgt:
R-Pakete laden
Syntax:
library(package_name)
Zum Beispiel:
library(tidyverse)
Beachte, dass wir beim Installieren von Paketen Anführungszeichen verwenden, beim Laden von Paketen aber nicht.
In RStudio:
- Lade alle notwendigen Pakete in einer Skriptdatei und nicht in der Konsole.
- Du kannst installierte oder Systempakete laden/entladen, indem du diese Pakete auf der Registerkarte Pakete suchst und anklickst/entfernst. Beachte, dass einige Pakete nicht entladen werden können, wenn sie von anderen Paketen importiert wurden.
Geladene R-Pakete prüfen
Führe in der Konsole (.packages()) oder search() aus, um eine Liste aller geladenen Pakete zu erhalten.
In RStudio: Öffne die Registerkarte " Pakete", suche nach einem bestimmten Paket und überprüfe, ob das Kästchen links neben dem Namen des Pakets angekreuzt ist.
Hilfe für ein R-Paket oder ein integriertes R-Objekt erhalten
Um Hilfe zu einem installierten und geladenen Paket, einer Funktion eines installierten und geladenen Pakets oder einem anderen eingebauten R-Objekt (z. B. einem vorgeladenen Datensatz) zu erhalten, verwende eine der folgenden Syntaxen:
help(package_or_function_name)
oder
help("package_or_function_name")
oder
?package_or_function_name
Hinweis: Wir müssen einen Funktionsnamen ohne Klammern an die Hilfefunktion übergeben.
Die Registerkarte Hilfe wird mit der Paket- oder Objektdokumentation geöffnet. Wenn wir ein Paket überprüfen, erhalten wir die Liste aller Funktionen und den Link zur Dokumentation für jede Funktion.
Führe zum Beispiel den folgenden Befehl in der Konsole aus (nachdem du sichergestellt hast, dass die Pakete readr und dplyr installiert und geladen sind):
help("read.csv")
?readr
help(help)
help('CO2')
In RStudio: Suche und klicke den gewünschten Paketnamen(auch wenn er nicht geladen ist) auf der Registerkarte Pakete und sieh dir das Ergebnis auf der Registerkarte Hilfe an.
Daten importieren
world_population <- read.csv("world_population.csv")
(Um den obigen Code auszuführen, lade zuerst den öffentlich zugänglichen Weltbevölkerungsdatensatz von Kaggle herunter und entpacke ihn in denselben Ordner, in dem du dein R-Skript speicherst).
Das Ergebnis der Ausführung des obigen Codes ist ein R DataFrame in deinem Arbeitsordner.
In RStudio:
- Datei - Datensatz importieren
OR
- Klicke auf der Registerkarte Umgebung auf Datensatz importieren:
Dann wählst du Aus Text (Basis)..., navigierst zum richtigen Ordner, wählst die zu importierende Datei aus, füllst die Felder Name, Überschrift, Trennzeichen und Dezimalzahl im Pop-up-Fenster aus oder überprüfst sie, siehst die Struktur des Datensatzes in der Vorschau und klickst auf Importieren:
Du kannst den importierten Datensatz jetzt auf der Registerkarte "Umwelt" und in einer in einer neuen Registerkarte geöffneten Tabelle finden und untersuchen:
Wenn du mehr über den Datenimport/-bereinigung mit R erfahren möchtest, kannst du einen umfassenden Lernpfad im DataCamp besuchen . Im DataLab, dem KI-fähigen Daten-Notizbuch von DataCamp und einer Alternative zu RStudio, kannst du verschiedene Datensätze importieren und damit arbeiten.
Zugriff auf integrierte R-Datensätze
Um die vollständige Liste der in R vorgeladenen Beispieldatensätze einschließlich ihrer Namen und Kurzbeschreibungen zu sehen, führe den folgenden Code in der Konsole aus:
data()
Du kannst jeden der angezeigten Namen als Variable (mit einem DataFrame) verwenden, um damit zu arbeiten und deine Kenntnisse in R zu üben.
Wenn du mehr Informationen über einen ausgewählten vorgeladenen Datensatz benötigst, rufe die Funktion help() auf, z. B. help(CO2).
Verarbeitung und Analyse von Daten in RStudio
Wie in jeder anderen R IDE können wir auch in RStudio auf die Daten in R zugreifen, sie manipulieren, umwandeln, analysieren und modellieren. Im Folgenden findest du einige Beispiele für Standardoperationen, die mit dem eingebauten CO2-Datensatz durchgeführt werden:
head(CO2)
tail(CO2)
colnames(CO2)
dim(CO2)
str(CO2)
summary(CO2)
summary(CO2$uptake)
median(CO2$uptake)
class(CO2$uptake)
unique(CO2$Treatment)
subset(CO2, conc == min(CO2$conc))
Versuche, sie nacheinander in RStudio auszuführen und beobachte die Ausgabe.
Plotten von Daten in RStudio¶
Wie in jeder anderen R IDE können wir auch in RStudio die Daten grafisch darstellen. Im Folgenden findest du einige Beispiele für die Erstellung einfacher Diagramme für die eingebauten CO2- und Orange-Datensätze. In beiden Fällen wird das Ergebnis auf der Registerkarte Plots angezeigt und kann über die Schaltfläche Export auf dieser Registerkarte exportiert werden:
- Erstellen eines Histogramms:
hist(CO2$uptake)
eines Streudiagramms:
plot(Orange$age, Orange$circumference)
Wir können ein paar Parameter für die grundlegende plot()-Funktion anpassen, um den letzten Plot etwas ästhetischer zu gestalten:
plot(Orange$age, Orange$circumference,
xlab="Age", ylab="Circumference",
main="Circumference vs. Age",
col="blue", pch=16)
Oder wir können ggplot2 oder ein anderes spezialisiertes Datenvisualisierungspaket verwenden, von denen R eine große Auswahl bietet. Der DataCamp Lernpfad Datenvisualisierung mit R ist ein guter Ausgangspunkt, um deine Plot-Kenntnisse in R zu verbessern.
Daten von Grund auf in R erstellen
Auch in diesem Fall unterscheidet sich RStudio nicht von einer anderen R-IDE.
Um einen Vektor zu erstellen:
oceans <- c("Arctic", "Atlantic", "Indian", "Pacific", "Southern")
avg_depth <- c(1.2, 3.65, 3.74, 3.97, 3.27)
(Die obigen Daten stammen aus Wikipedia).
So erstellst du einen DataFrame:
oceans_depth <- data.frame(oceans, avg_depth)
Drucke das Ergebnis aus:
print(oceans_depth)
Die resultierenden Vektoren und der DataFrame werden auch auf der Registerkarte Umgebung von RStudio angezeigt:
Fazit
In diesem Tutorium haben wir viele wichtige Aspekte der Verwendung von RStudio kennengelernt:
- Was RStudio ist und welche Vorteile es hat
- So installierst du RStudio
- Wie die RStudio-Benutzeroberfläche aussieht und wie man ihre wichtigsten Teile benutzt
- Der Unterschied zwischen der Ausführung von Code in der Konsole und einem Skript
- Wo du alle Objekte findest, die in der aktuellen RStudio-Sitzung verwendet werden
- Die besten Methoden zum Schreiben von Skripten
- Wie du verschiedene Vorgänge in RStudio durchführst, z. B. R-Pakete installieren und laden, Daten importieren, Daten verarbeiten, analysieren und visualisieren, R-Objekte von Grund auf erstellen usw.
Jetzt, wo du mit RStudio vertraut bist, kannst du es benutzen. Denke zum Beispiel daran, deine eigenen R-Projekte in RStudio zu erstellen. Weitere Inspirationen findest du im Artikel Die 10 besten R-Projektideen für 2022.
Wenn du das Gefühl hast, dass du mehr Training in R brauchst, bevor du mit der Erstellung von Projekten in RStudio beginnst, solltest du dir die folgenden anfängerfreundlichen R-Kurse und Lernpfade auf DataCamp ansehen:
R Kurse
Kurs
Zwischenstufe R
Kurs