Random-Forest-Regression: Der umfassende Guide

Wie Random-Forest-Regression funktioniert, wo sie an Grenzen stößt und wie du sie bewertest, optimierst und interpretierst. Inklusive Python-Implementierung und Rahmen für Modellvergleiche.

Aktualisiert 17. Juni 2026 · 12 Min. lesen

Random-Forest-Regression ist eine der zuverlässigsten Methoden, um nichtlineare Tabellendaten mit minimalem Setup zu modellieren. Du erhältst schnell ein einsatzbereites Modell – selbst wenn die Daten verrauscht sind oder Zusammenhänge nicht klar definiert sind.

Dieser Guide führt dich durch den kompletten Workflow der Random-Forest-Regression. Du verstehst, wie der Algorithmus arbeitet, und setzt ihn in Python um. Außerdem besprechen wir Evaluationsverfahren und Feintuning für bessere Performance.

Werde ein ML-Wissenschaftler

Bilde dich in Python weiter, um ein/e Wissenschaftler/in für maschinelles Lernen zu werden.

Kostenloses Lernen beginnen

Was ist Random-Forest-Regression?

Random Forest Regression ist eine Ensemble-Technik, die mehrere zufällig variierte Entscheidungsbäume trainiert und deren Ausgaben zu einer kontinuierlichen Vorhersage kombiniert. Anstatt sich auf ein einzelnes Modell zu verlassen, aggregiert sie die Vorhersagen vieler Bäume, typischerweise als Durchschnitt ihrer Ausgaben.

Warum mehrere Bäume? Ein einzelner Entscheidungsbaum neigt zum Overfitting. Er fängt neben den Signalen auch Rauschen ein – besonders bei unordentlichen, realen Daten.

Bootstrap-Aggregation und zufällige Merkmalswahl

Die Stärke des Random-Forest-Regression-Modells entsteht dadurch, dass es auf jeder Stufe Zufälligkeit einführt und die Ergebnisse anschließend aggregiert, um die Varianz zu reduzieren. Schauen wir uns diesen Mechanismus an.

Bootstrap-Aggregation, auch Bagging genannt, trainiert jeden Baum auf einem anderen, zufällig gezogenen Teil des Datensatzes. Das erzeugt Variation zwischen den Bäumen und verringert das Risiko von Overfitting.

Zufällige Merkmalswahl sorgt für zusätzliche Diversität, indem an jedem Split nur ein zufälliger Teil der Features betrachtet wird. Zusammen stabilisieren diese Techniken die Vorhersagen und verbessern die Generalisierung.

Bootstrap-Sampling und zufällige Merkmalswahl

Random Forest startet mit Bootstrap-Sampling, also Bagging. Jeder Baum wird auf einem zufällig gezogenen Teil des ursprünglichen Datensatzes trainiert. So lernen die Bäume unterschiedliche Muster, statt immer dieselbe Struktur zu wiederholen.

Außerdem wird eine zufällige Merkmalswahl eingeführt. An jedem Split berücksichtigt das Modell nur eine zufällige Auswahl an Features statt aller verfügbaren. So verhindern wir, dass wenige dominante Features jeden Baum steuern.

Gemeinsam erzeugen Bagging und zufällige Merkmalswahl eine Menge unkorrelierter Bäume, die unterschiedliche Fehler machen. Kombiniert heben sich Rauschen und Ausreißer eher auf, und die Gesamttreffgenauigkeit steigt.

Bäume wachsen lassen und Vorhersagen aggregieren

Jeder Baum im Wald wächst tief, oft ohne Pruning. So kann das Modell komplexe Muster, Interaktionen und nichtlineare Zusammenhänge in den Daten erfassen.

Einzelne Bäume mögen überanpassen, aber dieser Effekt wird reduziert, wenn Random Forest ihre Ausgaben für das Endergebnis mittelt.

Bias-Variance-Trade-off

Random Forest balanciert zwei zentrale Faktoren: die Stärke der einzelnen Bäume und die Diversität des Waldes.

Tiefe Bäume haben wenig Bias, weil sie die Trainingsdaten sehr genau abbilden können. Gleichzeitig reduziert die Zufälligkeit bei Datenauswahl und Merkmalswahl die Korrelation zwischen den Bäumen. Durch das Mitteln vieler Bäume mit geringem Bias und niedriger Korrelation senkt das Modell die Gesamtvarianz, ohne den Bias zu erhöhen.

Datenvorbereitung und Implementierungs-Workflow

Als Nächstes setzen wir die Konzepte in die Praxis um und schauen uns an, wie du Rohdaten in ein funktionierendes Random-Forest-Modell verwandelst.

Datenbereinigung und Feature Engineering

Die Datenaufbereitung für Random-Forest-Modelle beginnt meist mit der Behandlung kategorialer Variablen.

Bei wenigen Ausprägungen funktioniert One-Hot-Encoding gut und zuverlässig
Bei Features mit sehr vielen Ausprägungen ist Target Encoding oft effizienter, weil es Signals auf Kategorieebene erfasst, ohne die Dimensionalität stark zu erhöhen

Als Nächstes kommt der Umgang mit fehlenden Werten. Der Ansatz hängt von der verwendeten Bibliothek ab. Manche Implementierungen können fehlende Werte direkt beim Splitten verarbeiten, andere erwarten ein vorheriges Auffüllen. In den meisten Fällen genügen einfache Imputationen per Median oder Modus. Da Random Forest nicht auf strikte Verteilungsannahmen angewiesen ist, funktionieren diese pragmatischen Methoden in der Praxis gut.

Den größten Hebel bietet jedoch Feature Engineering. Beispielsweise führen Lag-Variablen zeitliche Abhängigkeiten ein, gleitende Aggregate erfassen lokale Trends, und gruppierte Statistiken kodieren Muster auf höherer Ebene. Solche konstruierten Features repräsentieren Informationen besser und steigern die Vorhersageleistung.

Für einen tieferen Einblick empfehle ich, meinen Feature-Engineering in Machine Learning-Tutorial zu lesen.

Baselines und Split-Strategien festlegen

Bevor du irgendetwas tunst, trenne zuerst die Daten korrekt.

Bei klassischen Tabellendaten bedeutet das in der Regel, den Datensatz in Train-, Validierungs- und Test-Set aufzuteilen, sodass das Modell auf einem Teil trainiert, auf einem anderen getunt und auf einem final unangetasteten Teil evaluiert wird.

Diese Trennung ist wichtig, weil sie dir ein realistisches Bild davon gibt, wie sich das Modell auf neuen Daten verhält.

Bei Zeitreihen ändert sich die Split-Strategie. Zufällige Splits können Zukunftsinformationen in die Vergangenheit leaken lassen – die Leistung wirkt dann besser, als sie ist.

Walk-Forward-Validation verhindert das, indem zunächst auf einem Zeitfenster trainiert, auf dem nächsten validiert und dann Schritt für Schritt nach vorne gerückt wird. So bleibt die Evaluation nah an der realen Nutzung in der Produktion.

Die End-to-End-Python-Implementierung schreiben

Die Implementierung folgt einem einfachen scikit-learn-Flow:

Modell importieren
Daten aufteilen
Estimator fitten
Vorhersagen erzeugen
Ergebnisse evaluieren

In der Praxis sieht ein typisches Setup so aus:

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, root_mean_squared_error
import matplotlib.pyplot as plt

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
rmse = root_mean_squared_error(y_test, y_pred)

Sobald das Modell trainiert und evaluiert ist, solltest du die vorhergesagten mit den tatsächlichen Werten visualisieren.

Ein Scatterplot macht systematische Verzerrungen sichtbar, etwa wenn Vorhersagen den Zielwert durchgehend über- oder unterschätzen. Er hilft auch, Heteroskedastizität zu erkennen, wenn Fehler mit steigenden Zielwerten größer werden.

Hyperparameter-Tuning und Evaluation

Nach dem Training folgt das Tuning wichtiger Parameter und die Leistungsbewertung. Hier sind gängige Techniken:

Regressionsmetriken auswählen und interpretieren

Root Mean Squared Error (RMSE), Mean Absolute Error (MAE) und R² messen Performance jeweils unterschiedlich.

RMSE bestraft große Fehler stärker, da die Residuen quadriert werden. Nützlich, wenn große Ausreißer teuer sind und minimiert werden müssen
MAE behandelt alle Fehler gleich, liefert damit ein stabileres Bild bei Ausreißern oder wenn ein konsistenter durchschnittlicher Fehler wichtiger ist als gelegentliche Spitzen
R² misst, wie viel Varianz im Ziel das Modell erklärt. Das hilft beim Vergleich der Gesamtgüte, spiegelt aber den Vorhersagefehler nicht direkt wider

Über aggregierte Metriken hinaus liefert Fehleranalyse tiefere Einsichten. Residuen – die Differenz zwischen tatsächlichen und vorhergesagten Werten – sollten über verschiedene Datenslices betrachtet werden.

Das Plotten von Residuen gegen Vorhersagen oder Zielwerte hilft, Muster zu erkennen. Wenn Fehler mit steigenden Zielwerten zunehmen, deutet das auf Heteroskedastizität hin. Liegen die Vorhersagen systematisch über oder unter der Diagonalen, spricht das für einen Bias.

Das Aufschlüsseln von Fehlern nach Feature-Gruppen oder Zielbereichen hilft, Schwachstellen zu finden. Häufig funktionieren Modelle im Mittelbereich gut, kämpfen aber an den Extremen – oder sie verhalten sich in Segmenten der Daten unterschiedlich.

Out-of-Bag-(OOB)-Evaluation nutzen

Random Forest bietet mit Out-of-Bag-Sampling einen eingebauten Validierungsmechanismus. Da jeder Baum auf einem Bootstrap-Sample trainiert wird, bleiben Teile der Daten ungenutzt und sind im Training ungesehen. Diese OOB-Stichproben können zur Bewertung genutzt werden, ohne ein separates Validierungsset zu erstellen. Genau das erfasst der OOB-Score.

OOB-Evaluation reicht jedoch nicht immer aus. Für die finale Modellvalidierung – insbesondere bei hohem Risiko oder Sorge um Daten-Leakage – ist ein striktes Hold-out-Testset erforderlich.

Wichtige Hyperparameter priorisieren

Bei Random Forest beeinflussen die Parameter max_features und n_estimators die Performance meist am stärksten.

max_features steuert, wie viele Features pro Split maximal berücksichtigt werden. Niedrigere Werte erhöhen die Zufälligkeit und senken die Korrelation zwischen Bäumen, was die Generalisierung verbessern kann. Höhere Werte machen einzelne Bäume stärker, aber ähnlicher – potenziell steigt die Varianz.
n_estimators legt die Anzahl der Bäume fest. Mehr Bäume stabilisieren in der Regel die Vorhersagen und verbessern die Leistung, erhöhen aber die Rechenzeit. Ab einem Punkt werden die Zugewinne marginal – finde dieses Plateau.

Diese Parameter solltest du per Cross-Validation tunen, um Modellkomplexität, Trainingszeit und Vorhersageleistung auszubalancieren.

Feature-Importance und Interpretierbarkeit

Random-Forest-Modelle gelten oft als Black Box, bieten aber mehrere Wege, den Einfluss von Features auf Vorhersagen zu verstehen. Hier sind einige wichtige Ansätze.

Impurity-basierte Importance

Random Forest berechnet Feature-Importance über die Mean Decrease in Impurity (MDI). Jedes Mal, wenn ein Feature einen Knoten splittet, misst das Modell, wie stark dadurch die Impurität reduziert wird – in Regressionsaufgaben z. B. die Varianz. Diese Reduktionen werden über alle Bäume aufsummiert und ergeben einen Score, der zeigt, wie sehr ein Feature die Vorhersagen verbessert.

Diese Methode ist schnell und im Modell integriert, hat aber Grenzen. MDI bevorzugt kontinuierliche Features oder kategoriale mit vielen einzigartigen Ausprägungen. Sie bieten mehr potenzielle Splitpunkte und können dadurch überbewertet werden – auch wenn sie nicht wirklich aussagekräftiger sind.

Permutation Importance

Permutation Importance misst, wie sich die Performance verändert, wenn die Werte eines Features in einem Hold-out-Datensatz zufällig durchmischt werden. Verschlechtert sich die Leistung deutlich, ist das Feature wichtig. Ist der Effekt klein, hat das Feature wohl geringe Vorhersagekraft.

Dieser Ansatz spiegelt das reale Modellverhalten wider und ist daher besonders vertrauenswürdig für Analysen.

Korrelationen zwischen Features erschweren jedoch die Interpretation. Tragen zwei Features ähnliche Informationen, kann das Durchmischen eines Features die Leistung kaum beeinträchtigen, weil das andere das Signal weiterhin liefert. Die Importance verteilt sich dann auf korrelierte Features – das erfordert eine vorsichtige Deutung.

SHAP-Werte

SHAP-Werte (Shapley Additive Explanations) zeigen, wie stark jedes Feature zu einer individuellen Vorhersage beiträgt. Jedem Feature wird ein Wert zugewiesen, der ausdrückt, um wie viel es die Vorhersage über oder unter eine Basislinie gedrückt hat.

Diese Methode wird oft genutzt, um Modellentscheidungen zu erklären und Vertrauen aufzubauen. Für einen genaueren Einblick lies unser Tutorial SHAP Values in Machine Learning.

Einschränkungen und typische Fehlerfälle

Random-Forest-Regression ist in vielen Szenarien zuverlässig, hat aber klare Grenzen. Wer sie kennt, entscheidet besser, wann sich der Einsatz lohnt – und wann ein anderer Ansatz sinnvoller ist.

Extrapolationsgrenzen und Randfälle

Random Forest kann nicht über den Bereich der Trainingsdaten hinaus extrapolieren.

Jeder Baum trifft Vorhersagen basierend auf im Training beobachteten Splits, daher liegen die Endwerte stets zwischen dem minimalen und maximalen Zielwert im Datensatz. Wenn das Modell nur Zielwerte zwischen 10 und 100 gesehen hat, kann es nicht 120 vorhersagen – egal wie stark das Eingangssignal ist. Problematisch ist das z. B. bei Wachstumsprognosen oder trendgetriebenen Systemen.

Das Modell hat außerdem Schwierigkeiten mit extrem hochdimensionalen, dünn besetzten Daten – etwa Textrepräsentationen oder One-Hot-codierten Vektoren mit Tausenden Spalten. In solchen Fällen werden Bäume ineffizient und finden keine sinnvollen Splits. Praktische Workarounds sind

Dimensionalitätsreduktion
Feature Selection
Modelle für spärliche Eingaben, z. B. Ridge Regression

Interpretierbarkeits-Trade-offs

Ein einzelner Baum bietet einen klaren Pfad von Input zu Prediction und ist leicht erklärbar. Ein Wald aggregiert hingegen Hunderte Bäume, wodurch einzelne Entscheidungen schwerer nachzuvollziehen sind.

In stark regulierten Umgebungen ist dieser Trade-off relevant. Wenn Erklärungen einfach und direkt nachvollziehbar sein müssen, ist ein einzelner Entscheidungsbaum oder ein lineares Modell oft geeigneter. Steht Performance im Vordergrund und können Erklärungen über Feature-Importance oder SHAP gestützt werden, bleibt Random Forest eine starke Option.

Compute-, Speicher- und Latenzgrenzen

Random Forest skaliert linear mit der Anzahl der Bäume und der Datengröße. Mit wachsenden Datensätzen steigen Trainingszeit und Speicherbedarf, da jeder Baum gebaut und gehalten werden muss. Große Wälder können auch die Inferenz verlangsamen, weil Vorhersagen die Aggregation vieler Baum-Ausgaben erfordern.

In Produktionssystemen mit strengen Latenz- oder Kostenvorgaben kann das zum Engpass werden. Weniger Bäume, begrenzte Baumtiefe oder eine Beschränkung der pro Split betrachteten Features helfen, Ressourcen zu sparen. Diese Anpassungen tauschen etwas Genauigkeit gegen schnelleres Training und schnellere Vorhersagen.

Random-Forest-Regression vs. Alternativen: So triffst du die Wahl

Fragst du dich, ob Random-Forest-Regression für deinen Use Case passt – oder welche Alternative sinnvoll ist?

Ein Framework für Modellvergleiche aufsetzen

Use Cases unterscheiden sich, aber eines hilft immer: Vergleiche die Performance verschiedener Modelle (z. B. Lineare Regression, Support Vector Regression, Gradient Boosting usw.) auf demselben Datensatz parallel zum Random-Forest-Regressor.

Heißt: Nutze für alle Modelle exakt dieselben Train-, Validierungs- und Test-Splits und bewerte sie nach denselben Fehlermetriken und Business-Annahmen.

Random-Forest-Regression vs. Lineare Regression und Support Vector Regression

Random Forest und Lineare Regression lösen sehr unterschiedliche Probleme. Lineare Regression ist ideal, wenn die Beziehung zwischen Inputs und Ziel überwiegend linear ist und die Koeffizienten leicht erklärbar sein sollen. Außerdem ist sie die bessere Wahl, wenn strikte Extrapolation wichtig ist, da sie über den beobachteten Zielbereich hinausgehen kann.

Random Forest ist dagegen stark bei nichtlinearen Mustern, Feature-Interaktionen und unregelmäßigen Grenzen. Das macht ihn zu einem leistungsfähigen Werkzeug für komplexe reale Systeme – aber weniger geeignet für trendgetriebene Forecasts.

Support Vector Regression (SVR) spielt in einer anderen Liga. Sie kann auf kleineren Datensätzen gut funktionieren, reagiert aber deutlich sensibler auf Feature-Skalierung und braucht meist sorgfältigeres Tuning. Random Forest ist nicht auf standardisierte Inputs angewiesen und damit im typischen Tabellensetting einfacher handhabbar.

SVR kann eine starke Option sein, wenn der Datensatz kompakt und der Feature-Raum begrenzt ist. Mit wachsender Datenmenge, steigender Komplexität oder operativem Druck wird sie jedoch schwerer wartbar.

Random-Forest-Regression vs. Gradient Boosting und einzelner Entscheidungsbaum

Random Forest baut Bäume unabhängig auf und mittelt deren Ausgaben. Gradient Boosting baut Bäume sequentiell, wobei jeder neue Baum die Fehler der vorherigen korrigiert.

Gradient-Boosting-Methoden wie XGBoost erreichen meist höhere Genauigkeitsgrenzen – vor allem auf strukturierten Tabellendaten. Allerdings erfordern sie mehr Tuning und reagieren sensibler auf Hyperparameter. Das Training ist durch die Sequenzialität oft langsamer. Random Forest ist leichter zu trainieren, out of the box stabiler und weniger empfindlich gegenüber der Konfiguration.

Verglichen mit einem einzelnen Entscheidungsbaum ist Random Forest deutlich stabiler und genauer. Ein einzelner Baum ist dank nachvollziehbarer Entscheidungswege gut interpretierbar, reagiert aber sehr empfindlich auf kleine Datenänderungen. Random Forest reduziert diese Instabilität durch Mitteln vieler Bäume, verliert dafür an direkter Interpretierbarkeit.

Zusammenfassung Modellvergleich

Modell	Bewältigt Nichtlinearität	Extrapolation	Interpretierbarkeit	Tuning-Komplexität	Trainingsaufwand
Random-Forest-Regression	Stark	Schwach	Mittel	Mittel	Mittel
Lineare Regression	Schwach bis Mittel	Stark	Hoch	Niedrig	Niedrig
Support Vector Regression	Stark	Schwach bis Mittel	Niedrig	Hoch	Hoch (bei großen Daten)
Gradient Boosting (XGBoost)	Sehr stark	Schwach	Niedrig bis Mittel	Hoch	Hoch
Einzelner Entscheidungsbaum	Mittel	Schwach	Hoch	Niedrig	Niedrig

Fazit

Random-Forest-Regression eignet sich hervorragend als Standardmodell, wenn Daten unordentlich sind, Beziehungen nichtlinear verlaufen und du ohne aufwendige Vorverarbeitung eine starke Basis brauchst. Sie kommt mit gemischten Feature-Typen zurecht, erfasst Interaktionen und liefert mit wenig Setup stabile Ergebnisse.

Der typische Workflow folgt einer klaren Linie: Starte mit minimaler Vorverarbeitung und achte zuerst auf die saubere Datenstruktur. Baue eine Baseline mit dem Standard-Random-Forest und bewerte sie mit konsistenten Metriken. Danach tunst du die wichtigsten Hyperparameter wie die Anzahl der Bäume und die Merkmalsstichprobe, um die Performance zu heben.

Sobald das Modell stabil ist, gehst du tiefer in die Evaluation: Residuen analysieren, Fehler segmentieren und bei Bedarf mit SHAP Vorhersagen erklären.

Als nächster Schritt: Für tiefes Verständnis und praktische Übung schau dir den Kurs Machine Learning with Tree-Based Models in Python an.

Was sind die Einschränkungen des Random-Forest-Modells?

Woran erkenne ich, ob mein Random-Forest-Modell überfitet?

Ist XGBoost oder Random Forest besser?

Kann Random Forest Zeitreihendaten verarbeiten?

Author

Srujana Maddula

Themen

Maschinelles Lernen

Top-Machine-Learning-Kurse

Lernpfad

Wissenschaftler für maschinelles Lernen in Python

85 Std.

Lerne maschinelles Lernen mit Python kennen und arbeite daran, ein Experte für maschinelles Lernen zu werden. Entdecke überwachtes, unüberwachtes und tiefes Lernen.

Details anzeigen

Kurs starten

Kurs