Lernpfad
DataFrames sind ein weit verbreiteter Datentyp in Python-Skripten. Die Größe eines DataFrames in Python zu kennen, ist in vielerlei Hinsicht wichtig, z. B. um festzustellen, wie viel Speicherplatz bei der Verwendung des DataFrames benötigt wird, und um sicherzustellen, dass dein Skript nicht versucht, ein Element außerhalb der Grenzen des DataFrames aufzurufen. Glücklicherweise gibt es in Python mehrere Möglichkeiten, die Größe eines DataFrames zu ermitteln, so dass ein Python-Programmierer verschiedene Methoden verwenden kann, um unterschiedlichen Codierungsstilen und Situationen gerecht zu werden.
Im Folgenden wird erläutert, wie du die Größe eines DataFrames in Python ermitteln kannst.
DataFrames in Python verstehen
DataFrames sind eine Möglichkeit, Informationen in Python zu organisieren, die in der Datenwissenschaft sehr verbreitet ist. Es gibt ein paar Schlüsselkomponenten, die DataFrames in Datenprojekten besonders nützlich machen.
Erstens sind die Informationen in DataFrames wie eine Tabelle organisiert, die leicht zu lesen und zu verstehen ist. Zweitens sind die Informationen veränderbar, d.h. die Elemente im DataFrame können nach der Erstellung geändert werden. Du kannst ganz einfach neue Elemente hinzufügen oder bestehende Elemente in einem DataFrame aktualisieren oder entfernen.
DataFrames sind auch wegen ihrer Ordnung nützlich. Die Elemente bleiben im DataFrame in der Reihenfolge erhalten, in der sie hinzugefügt wurden, es sei denn, sie werden ausdrücklich geändert, z. B. durch Sortieren.
Schließlich enthalten DataFrames einen Index, der bei 0 beginnt und mit dem du ein einzelnes Element anhand seiner Position innerhalb des DataFrames auswählen kannst.
Mehr über DataFrames erfährst du im DataCamp-Kurs zur Datenbearbeitung mit Pandas oder in diesem Python-Pandas-Tutorial.
Python DataFrame Größe: Verwendung von df.shape in Pandas für allgemeine Zwecke
Python pandas ist eine Bibliothek, die es Analysten ermöglicht, einfach mit DataFrames zu arbeiten. Diese Bibliothek verfügt über eine einfache Shape-Methode, um die Größe eines DataFrames zu ermitteln.
import pandas as pd
# Creating a sample DataFrame
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 22],
'City': ['New York', 'San Francisco', 'Los Angeles']})
# Using shape to get the size
rows, columns = df.shape
print(f"Number of rows: {rows}, Number of columns: {columns}")
Output: Number of rows: 3, Number of columns: 3
Die Methode df.shape gibt schnell und einfach Auskunft über die Anzahl der Zeilen und Spalten in einem DataFrame.
Wichtigste Erkenntnis: df.shape ist die beste Funktion, um die Größe eines DataFrames zu ermitteln.
len() nur für Zeilennummern verwenden
Eine der einfachsten und am häufigsten verwendeten Methoden, um die Länge einer Liste zu ermitteln, ist die eingebaute Funktion len(). Sie kann auch verwendet werden, um die Anzahl der Zeilen in einem DataFrame zu bestimmen. Diese Methode ist übersichtlich und effizient. Im Vergleich zur Funktion df.shape liefert sie jedoch nur begrenzte Informationen.
import pandas as pd
# Creating a sample DataFrame
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 22],
'City': ['New York', 'San Francisco', 'Los Angeles']})
# Using len to get the number of rows
num_rows = len(df)
print(f"Number of rows: {num_rows}")
Output: Number of rows: 3
Wenn es darum geht, die Länge einer Liste in Python zu überprüfen, wird len() im Vergleich zu df.shape selten verwendet. Es kann jedoch eine schnelle Möglichkeit sein, die Anzahl der Zeilen in einem DataFrame ohne die Pandas-Bibliothek zu untersuchen.
Wichtigste Erkenntnis: len() ist eine eingebaute Funktion, die als Alternative zu Pandas verwendet werden kann.
df.info() für ausführlichere Informationen
Für Situationen, in denen ein detaillierteres Maß für die Größe erforderlich ist, kannst du die Methode df.info() von Pandas ausprobieren. Auf diese Weise erhältst du die Anzahl der Zeilen und Spalten im DataFrame sowie Informationen über den Datentyp in jeder Spalte und die Anzahl der Nullwerte.
import pandas as pd
# Creating a sample DataFrame
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 22],
'City': ['New York', 'San Francisco', 'Los Angeles']})
# Using info to get information about the DataFrame
df.info()
Output:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Name 3 non-null object
1 Age 3 non-null int64
2 City 3 non-null object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes
Bei dieser Methode wird die Anzahl der Zeilen unter RangeIndex aufgeführt. Im obigen Beispiel zeigt es, dass es drei Zeilen (hier Einträge genannt) gibt und dass der Index bei 0 beginnt und bei 2 endet. Die Anzahl der Spalten ist darunter angegeben. Danach wird der Name jeder Spalte zusammen mit der Anzahl der Nicht-Null-Einträge in jeder Spalte und ihrem Datentyp aufgeführt.
Wichtigste Erkenntnis: df.info() kann detailliertere Informationen über einen DataFrame liefern.
Python DataFrame Größe Best Practices und Tipps
Wenn du die Größe eines DataFrames in Python ermitteln willst, solltest du ein paar bewährte Methoden beachten.
- Wähle die Methode, die für deinen DataFrame am besten geeignet ist. Denk daran, dass
df.shapeschnell die Anzahl der Zeilen und Spalten angibt, währenddf.infozusätzliche Informationen liefert, die du für deinen Zweck brauchen kannst oder auch nicht. - Stelle sicher, dass du alle benötigten Bibliotheken installiert und importiert hast. Die Pandas-Bibliothek ist bei der Arbeit mit DataFrames unentbehrlich.
- Dokumentiere deine Arbeit gut. Achte darauf, dass du beschreibende Kommentare verwendest, damit zukünftige Codierer entziffern können, was du getan hast und warum.
Fazit
Es gibt mehrere Möglichkeiten, die Größe eines DataFrames in Python zu ermitteln, je nach deinen Vorlieben und Codeanforderungen. Egal, ob du einen einfachen oder einen detaillierten Einblick brauchst, es gibt einen Ansatz, der deinen Bedürfnissen entspricht.
Berücksichtige immer die Art deiner Daten und die Erkenntnisse, die du gewinnen willst, wenn du entscheidest, welchen Ansatz du wählst. Wenn du mehr über die Verwendung von Python DataFrames erfahren möchtest, schau dir den DataCamp-Kurs "Einführung in Python " oder den Kurs "Intermediate Python for Finance" an. Oder probiere den DataCamp Lernpfad für Data Scientists in Python aus.
Du kannst dir auch polars ansehen, einen neueren Konkurrenten von pandas für leistungsstarke DataFrame-Analysen. Du kannst mehr über den Unterschied zwischen Pandas und Polaren lesen oder eine Einführung in die Verwendung von Polaren entdecken.

Ich bin promoviert und habe 13 Jahre Erfahrung in der Arbeit mit Daten in der biologischen Forschung. Ich entwickle Software in verschiedenen Programmiersprachen, darunter Python, MATLAB und R. Meine Leidenschaft ist es, meine Liebe zum Lernen mit der Welt zu teilen.
