Direkt zum Inhalt
HeimAnleitungenR Programmierung

Subsetting in R Tutorial

Finde heraus, wie du mit Subsetting auf die Daten deines Datenrahmens zugreifen kannst. Folge unserem Tutorial und lerne noch heute, wie du die subset()-Funktion von R nutzen kannst!
Aktualisierte 11. Sept. 2024  · 4 Min. lesen

Das Subsetting in R ist eine nützliche Indizierungsfunktion für den Zugriff auf Objektelemente. Sie kann verwendet werden, um Variablen und Beobachtungen auszuwählen und zu filtern. Du kannst Klammern verwenden, um Zeilen und Spalten aus deinem Datenrahmen auszuwählen.

Zeilen auswählen

debt[3:6, ]
      name  payment
3      Dan      150
4      Rob       50
5      Rob       75
6      Rob      100

Hier haben wir die Zeilen 3 bis 6 der Schulden ausgewählt. Eine Sache, die du dir ansehen solltest, ist die Vereinfachung, die passiert, wenn du eine einzelne Spalte auswählst.

Dein Weg zur Beherrschung von R

Beginne bei Null und baue dir grundlegende R-Kenntnisse für Data Science auf.
Kostenloses Lernen Beginnen

Auswählen von Zeilen aus einer bestimmten Spalte

Wenn du nur die ersten drei Zeilen der Zahlungsspalte auswählst, wird das Ergebnis zu einem Vektor vereinfacht.

debt[1:3, 2]
100 200 150

Datenrahmen Formatierung

Um sie als Datenrahmen zu behalten, füge einfach drop=False wie unten gezeigt hinzu: 

debt[1:3, 2, drop = FALSE]
    payment
1       100
2       200
3       150

Auswählen einer bestimmten Spalte [Shortcut]

Um eine bestimmte Spalte auszuwählen, kannst du auch den Namen des Datenrahmens eintippen, gefolgt von einem $ und dann den Namen der Spalte, die du auswählen möchtest. In diesem Beispiel werden wir die Spalte payment des Datenrahmens auswählen. Wenn du dieses Skript ausführst, vereinfacht R das Ergebnis als Vektor.

debt$payment
100 200 150 50 75 100

Mit subset() für mehr Leistung

Wenn du komplexere Teilmengen oder eine Teilmenge auf der Grundlage einer Bedingung erstellen willst, ist der nächste Schritt die Verwendung der Funktion subset(). Was wäre zum Beispiel, wenn du dir die Schulden von jemandem namens Dan ansehen möchtest? Du könntest einfach die Klammern verwenden, um die Schulden auszuwählen und zusammenzurechnen, aber das ist keine sehr robuste Methode, vor allem, wenn sich der Datensatz ändern könnte.

# This works, but is not informative nor robust
debt[1:3, ]

subset() Funktion

Ein besserer Weg ist es, die Funktion subset() zu verwenden, um die Zeilen auszuwählen, in denen die Spalte Name gleich Dan ist. Beachte, dass es sich um ein doppeltes Gleichheitszeichen handeln muss, einen so genannten Vergleichsoperator.

# This works, but is not informative nor robust
debt[1:3, ]

# Much more informative!
subset(debt, name == "Dan")
      name     payment
1      Dan         100
2      Dan         200
3      Dan         150

Mit einer subset() Funktion für eine numerische Spalte

Wir können auch auf numerische Spalten unterteilen. Wenn wir Zeilen sehen wollen, in denen Zahlungen in Höhe von $100 erfolgen, musst du Folgendes tun:

subset(debt, payment == 100)
      name  payment
1      Dan      100
6      Rob      100

Zugriff auf und Unterteilung von Dataframes

Was wäre, wenn du dich nur für die Cashflows von Unternehmen A interessierst?

subset(cash, company == "A")
      company  cash_flow  year
1           A       1000     1
2           A       4000     3
3           A        550     4

Erinnere dich:

  • Das erste Argument, das du an subset() übergibst, ist der Name deines Datenrahmens, cash.
  • Beachte, dass du company nicht in Anführungszeichen setzen solltest!
  • Die == ist der Gleichheitsoperator. Sie prüft, wo zwei Dinge gleich sind und gibt einen logischen Vektor zurück.

Interaktives Beispiel für die subset() Methode

Im folgenden Beispiel wählst du mit der Methode subset() nur die Zeilen von cash aus, die dem Unternehmen B entsprechen. Dann wählst du subset() Zeilen aus, deren Zahlungsströme in einem Jahr fällig werden.

# Rows about company B
subset(cash, company == "B")

# Rows with cash flows due in 1 year
subset(cash, year == 1)

Wenn du den obigen Code ausführst, erhältst du das folgende Ergebnis:

  company cash_flow year
4       B      1500    1
5       B      1100    2
6       B       750    4
7       B      6000    5
  company cash_flow year
1       A      1000    1
4       B      1500    1

Probiere es selbst aus.

Wenn du mehr über den Zugriff auf und die Unterteilung von Datenrahmen in R erfahren möchtest, schau dir dieses Video aus unserem Kurs Einführung in R für Finanzen an.

Dieser Inhalt stammt aus dem DataCamp-Kurs Introduction to R for Finance von Lore Dirick.

Themen

R Kurse

Zertifizierung verfügbar

Course

Einführung in R

4 hr
2.7M
Beherrsche die Grundlagen der Datenanalyse in R, einschließlich Vektoren, Listen und Datenrahmen, und übe R mit echten Datensätzen.
See DetailsRight Arrow
Start Course
Mehr anzeigenRight Arrow