Regresia Random Forest: un ghid complet

Cum funcționează regresia random forest, unde eșuează și cum să o evaluezi, ajustezi și interpretezi. Include o implementare în Python și un cadru de comparare a modelelor.

Actualizat 17 iun. 2026 · 12 min. citire

Ce este regresia Random Forest?

Random forest regression este o tehnică de ansamblu care construiește multiple arbori de decizie randomizați și le combină ieșirile pentru a produce o predicție continuă. În loc să se bazeze pe un singur model, agregă predicțiile din mulți arbori, de obicei prin mediarea ieșirilor lor.

De ce mai mulți arbori? Un singur arbore de decizie tinde să supraînvețe. El captează zgomotul împreună cu semnalele, mai ales când lucrezi cu date dezordonate, din lumea reală.

Bootstrap aggregating și aleatorizarea caracteristicilor

Punctul forte al modelului de regresie Random Forest constă în modul în care introduce aleatorizare la fiecare pas și apoi agregă rezultatele pentru a reduce varianța. Să discutăm acest mecanism intern.

Bootstrap aggregating, sau bagging, antrenează fiecare arbore pe un subset aleator din date. Asta introduce variație între arbori și reduce riscul de supraînvățare (overfitting).

Aleatorizarea caracteristicilor adaugă un alt strat de diversitate prin selectarea unui subset aleator de caracteristici la fiecare împărțire. Împreună, aceste tehnici stabilizează predicțiile și îmbunătățesc generalizarea.

Eșantionare bootstrap și aleatorizarea caracteristicilor

Random Forest pornește cu eșantionarea bootstrap, cunoscută și ca bagging. Fiecare arbore este antrenat pe un subset eșantionat aleator din setul de date original. Drept urmare, arborii învață tipare diferite, în loc să repete aceeași structură.

Introduce și aleatorizarea caracteristicilor. La fiecare împărțire, modelul ia în considerare doar un subset aleator de caracteristici, în loc de toate disponibile. Asta împiedică câteva caracteristici dominante să controleze fiecare arbore.

Împreună, bagging-ul și aleatorizarea caracteristicilor creează un set de arbori necorelați care fac erori diferite, astfel încât, combinate, predicțiile lor anulează zgomotul și îmbunătățesc acuratețea generală.

Creșterea arborilor și agregarea predicțiilor

Fiecare arbore din pădure crește adânc, adesea fără tăiere (pruning). Asta permite modelului să capteze tipare complexe, interacțiuni și relații neliniare din date.

Acești arbori individuali pot supraînvăța, dar acest efect este redus când Random Forest le agregă ieșirile pentru rezultatul final.

Compromisul bias-varianță

Random Forest echilibrează doi factori-cheie: forța arborilor individuali și diversitatea pădurii.

Arborii adânci au bias scăzut pentru că pot potrivi îndeaproape datele de antrenament. În același timp, aleatorizarea în eșantionarea datelor și selecția caracteristicilor reduc corelația dintre arbori. Prin media a multor arbori cu bias scăzut și slab corelați, modelul reduce varianța generală fără a crește biasul.

Preprocesarea datelor și fluxul de implementare

În continuare, vom pune conceptele în practică și vom analiza tehnici pentru a transforma date brute într-un model Random Forest funcțional.

Curățarea datelor și feature engineering

Pregătirea datelor pentru modelele Random Forest începe de obicei cu gestionarea variabilelor categoriale.

Pentru categorii mici, one-hot encoding funcționează bine și este fiabil
Pentru caracteristici cu cardinalitate mare, target encoding este adesea mai eficient, deoarece surprinde semnale la nivel de categorie fără a crește semnificativ dimensionalitatea

Urmează datele lipsă. Abordarea depinde de biblioteca pe care o folosești. Unele implementări pot gestiona valori lipsă direct în timpul împărțirilor, în timp ce altele se așteaptă să le completezi. În majoritatea cazurilor, imputarea simplă folosind mediana sau moda este suficientă. Deoarece Random Forest nu se bazează pe distribuții stricte, aceste metode directe funcționează bine în practică.

Până la urmă, impactul mai mare vine din feature engineering. De exemplu, variabilele lag introduc dependențe temporale, agregatele rulante surprind tendințele locale, iar statisticile grupate codifică tipare de nivel superior. Aceste caracteristici construite permit modelului să reprezinte mai bine informația și să îmbunătățească performanța predictivă.

Pentru o analiză mai aprofundată, îți recomand să citești tutorialul meu Feature Engineering în Machine Learning.

Stabilirea reperelor și strategii de împărțire

Înainte de orice reglaj, primul pas este să împarți corect datele.

Pentru probleme tabelare standard, asta înseamnă de obicei separarea setului de date în seturi de antrenament, validare și test, astfel încât modelul este antrenat pe o porțiune, ajustat pe alta și evaluat pe o porțiune finală neatinsă.

Acea separare contează pentru că îți oferă o estimare realistă a modului în care se va comporta modelul pe date noi.

Pentru serii temporale, strategia de împărțire se schimbă. Împărțirile aleatoare pot scurge informație din viitor în trecut, ceea ce face ca performanța să pară mai bună decât este în realitate.

Walk-forward validation evită această problemă prin antrenarea pe o fereastră inițială de timp, validarea pe următoarea, apoi deplasarea înainte pas cu pas. Astfel, evaluarea rămâne aliniată cu modul în care modelul ar fi folosit efectiv în producție.

Scrierea implementării cap-coadă în Python

Implementarea urmează un flux simplu scikit-learn:

Importă modelul
Împarte datele
Potrivește estimatorul
Generează predicții
Evaluează rezultatul

În practică, o configurare tipică arată astfel:

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, root_mean_squared_error
import matplotlib.pyplot as plt

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
rmse = root_mean_squared_error(y_test, y_pred)

După ce modelul este antrenat și evaluat, următorul pas este să vizualizezi valorile prezise față de valorile reale.

Un scatter plot face ușor de observat biasul sistematic, cum ar fi predicții care depășesc constant sau subestimează ținta. De asemenea, ajută la evidențierea eteroscedasticității, în care erorile de predicție se lărgesc pe măsură ce valorile țintă cresc.

Ajustarea hiperparametrilor și evaluare

După antrenarea modelului, următorul pas este reglarea parametrilor-cheie și evaluarea performanței. Iată tehnicile populare:

Alegerea și interpretarea metricilor de regresie

Root mean squared error (RMSE), mean average error (MAE) și R² măsoară performanța în moduri diferite.

RMSE penalizează mai puternic erorile mari deoarece pătratează reziduurile. Este util când greșelile mari sunt costisitoare și trebuie minimizate
MAE tratează toate erorile în mod egal, oferind o vedere mai stabilă când datele conțin valori extreme sau când contează mai mult o eroare medie constantă decât vârfurile ocazionale
R² măsoară câtă varianță din țintă explică modelul, ceea ce ajută la compararea potrivirii generale, dar nu reflectă direct eroarea de predicție

Dincolo de metricile agregate, analiza erorilor oferă o perspectivă mai profundă. Reziduurile, definite ca diferența dintre valorile reale și cele prezise, ar trebui examinate pe diverse felii de date.

Plotarea reziduurilor față de valorile prezise sau țintele reale ajută la evidențierea tiparelor. De exemplu, dacă erorile cresc pe măsură ce valoarea țintă crește, indică eteroscedasticitate. Dacă predicțiile cad constant deasupra sau sub diagonala de referință, indică bias sistematic.

Felii de erori pe grupuri de caracteristici sau intervale ale țintei ajută, de asemenea, la identificarea modurilor de eșec. Modelul poate performa bine pe valori medii, dar să aibă dificultăți la extreme, sau se poate comporta diferit pe segmente ale datelor.

Folosirea evaluării out-of-bag (OOB)

Random Forest oferă un mecanism de validare încorporat prin eșantionarea out-of-bag. Deoarece fiecare arbore este antrenat pe un eșantion bootstrap, o parte din date rămâne pe dinafară și nu este văzută în antrenare. Aceste eșantioane out-of-bag pot fi folosite pentru a evalua modelul fără a crea un set de validare separat. Asta surprinde scorul OOB.

Totuși, evaluarea OOB nu este întotdeauna suficientă. Pentru validarea finală a modelului, mai ales în scenarii critice sau când există risc de scurgere de date, este necesar un set de test strict separat.

Prioritizarea hiperparametrilor-cheie pentru reglaj

În Random Forest, parametrii max_features și n_estimators generează de obicei cele mai vizibile schimbări de performanță.

max_features controlează numărul maxim de caracteristici luate în considerare la fiecare împărțire. Valorile mai mici cresc aleatorizarea și reduc corelația dintre arbori, ceea ce poate îmbunătăți generalizarea. Valorile mai mari fac arborii mai puternici, dar mai similari, ceea ce poate crește varianța.
n_estimators controlează numărul de arbori din pădure. Creșterea lui îmbunătățește de obicei performanța prin stabilizarea predicțiilor, dar mărește și timpul de calcul. Dincolo de un anumit punct, câștigurile devin marginale, așa că e important să identifici platoul.

Acești parametri ar trebui reglați folosind cross-validation pentru a echilibra complexitatea modelului, timpul de antrenare și performanța predictivă.

Importanța caracteristicilor și interpretabilitate

Modelele Random Forest sunt adesea tratate ca niște cutii negre, dar oferă multiple modalități de a înțelege cum influențează caracteristicile predicțiile. Să vedem câteva importante.

Importanță bazată pe impuritate

Random Forest calculează importanța caracteristicilor folosind Mean Decrease in Impurity (MDI). De fiecare dată când o caracteristică este folosită pentru a împărți un nod, modelul măsoară cât reduce acea împărțire impuritatea, cum ar fi varianța în sarcini de regresie. Aceste reduceri sunt cumulate pe toți arborii, oferind un scor care reflectă cât contribuie o caracteristică la îmbunătățirea predicțiilor.

Deși această metodă este rapidă și integrată în model, are limitări cunoscute. MDI tinde să favorizeze caracteristicile continue sau pe cele categoriale cu multe valori unice. Aceste caracteristici creează mai multe puncte potențiale de împărțire, ceea ce poate umfla scorurile de importanță chiar dacă nu sunt cu adevărat mai predictive.

Importanță prin permutare

Importanța prin permutare măsoară cum se schimbă performanța când valorile unei caracteristici sunt amestecate aleator într-un set de date hold-out. Dacă amestecarea unei caracteristici degradează semnificativ performanța, acea caracteristică este importantă. Dacă impactul este mic, probabil are valoare predictivă limitată.

Această abordare reflectă comportamentul real al modelului, ceea ce o face mai de încredere pentru analiză.

Totuși, caracteristicile corelate introduc complexitate. Când două caracteristici poartă informație similară, amestecarea uneia poate să nu impacteze semnificativ performanța deoarece cealaltă încă oferă semnal. Rezultatul este că importanța poate fi împărțită între caracteristici corelate, necesitând interpretare atentă.

Valori SHAP

Valorile SHAP (Shapley Additive Explanations) explică cât contribuie fiecare caracteristică la o predicție individuală. Ele atribuie fiecărei caracteristici o valoare care reprezintă cât a împins predicția peste sau sub un reper.

Această metodă este folosită des pentru a explica deciziile modelului și a construi încredere. Pentru o privire mai apropiată, citește tutorialul nostru Valorile SHAP în Machine Learning.

Limitări și cazuri comune de eșec

Regresia Random Forest este fiabilă în multe scenarii, dar are limitări clare. Înțelegerea lor te ajută să decizi când să o folosești și când să treci la o altă abordare.

Limite de extrapolare și cazuri de margine

Random Forest nu poate extrapola dincolo de intervalul datelor de antrenament.

Fiecare arbore face predicții pe baza împărțirilor observate în antrenare, astfel încât rezultatul final este întotdeauna limitat de valorile minime și maxime ale țintei văzute în setul de date. Dacă modelul a văzut doar ținte între 10 și 100, nu poate prezice 120, oricât de puternic ar fi semnalul de intrare. Asta devine o problemă în scenarii precum prognoza de creștere sau sisteme bazate pe tendințe.

Modelul are, de asemenea, dificultăți cu date sparse extrem de înalt-dimensionale, cum ar fi reprezentări de text sau vectori one-hot cu mii de coloane. În aceste cazuri, arborii devin ineficienți și nu reușesc să capteze împărțiri relevante. Soluții practice includ

Reducerea dimensionalității
Selecția caracteristicilor
Folosirea unor modele concepute pentru intrări sparse, cum ar fi Ridge Regression

Compromisuri de interpretabilitate

Un singur arbore oferă o cale clară de la intrare la predicție, ceea ce îl face ușor de explicat. O pădure, pe de altă parte, agregă sute de arbori, făcând mai greu de urmărit deciziile individuale.

În medii puternic reglementate, acest compromis contează. Dacă explicațiile trebuie să fie simple și direct trasabile, un singur arbore de decizie sau un model liniar poate fi mai potrivit. Dacă prioritatea este performanța și explicațiile pot fi susținute prin metode precum importanța caracteristicilor sau SHAP, Random Forest rămâne o opțiune solidă.

Constrângeri de calcul, memorie și latență

Random Forest scalează liniar cu numărul de arbori și dimensiunea datelor. Pe măsură ce seturile de date cresc, timpul de antrenare și utilizarea memoriei cresc deoarece fiecare arbore trebuie construit și stocat. Pădurile mari pot încetini și inferența, deoarece predicțiile necesită agregarea ieșirilor tuturor arborilor.

În sistemele de producție cu constrângeri stricte de latență sau cost, asta poate deveni un blocaj. Reducerea numărului de arbori, limitarea adâncimii arborilor sau restrângerea numărului de caracteristici luate în considerare la fiecare împărțire pot ajuta la controlul resurselor. Aceste ajustări schimbă o parte din acuratețe pentru timpi mai rapizi de antrenare și predicție.

Regresia Random Forest vs. alternative: cum să alegi

Te-ai putea întreba dacă regresia Random Forest este algoritmul potrivit pentru cazul tău de utilizare sau ce alternativă ar trebui să iei în considerare.

Crearea unui cadru de comparare a modelelor

Cazurile de utilizare diferă, dar un demers ajută întotdeauna: Compară performanța diferitelor modele (cum ar fi regresia liniară, regresia cu vectori de suport, gradient boosting etc.) pe același set de date, alături de Random Forest Regressor.

Asta înseamnă să folosești exact aceleași partiții de antrenament, validare și test pentru fiecare model, apoi să le evaluezi după aceleași criterii de eroare și aceleași presupuneri de business.

Regresia random forest vs. regresia liniară și regresia cu vectori de suport

Random Forest și regresia liniară rezolvă probleme foarte diferite. Regresia liniară funcționează cel mai bine când relația dintre intrări și țintă este în mare parte liniară, iar coeficienții trebuie să fie ușor de explicat. Este, de asemenea, alegerea mai bună când extrapolarea strictă contează, deoarece poate extinde dincolo de intervalul țintei observate.

Prin contrast, Random Forest se descurcă mai bine cu tipare neliniare, interacțiuni între caracteristici și frontiere neregulate. Asta îl face un instrument mai puternic pentru modelarea sistemelor complexe din lumea reală, dar o opțiune mai slabă pentru prognoze puternic dependente de tendințe.

Regresia cu vectori de suport (SVR) stă într-un colț diferit al camerei. Poate performa bine pe seturi de date mai mici, dar este mult mai sensibilă la scalarea caracteristicilor și, de obicei, necesită reglaje mai atente. Random Forest nu depinde de intrări standardizate, ceea ce îl face mai ușor de folosit în fluxurile tipice pe date tabelare.

SVR poate fi o opțiune puternică atunci când setul de date este compact și spațiul de caracteristici este limitat, dar devine mai greu de întreținut pe măsură ce volumul de date, complexitatea caracteristicilor sau presiunea operațională cresc.

Regresia random forest vs. gradient boosting și arbori de decizie unici

Random Forest construiește arborii independent și le mediează ieșirile. Gradient boosting construiește arborii secvențial, fiecare nou arbore corectând erorile celor anteriori.

Metodele de gradient boosting, precum XGBoost, ating de obicei plafoane de acuratețe mai ridicate, mai ales pe date tabelare structurate. Totuși, necesită mai mult reglaj și sunt mai sensibile la hiperparametri. Antrenarea poate fi și mai lentă din cauza naturii secvențiale a boosting-ului. Random Forest este mai ușor de antrenat, mai stabil din start și mai puțin sensibil la configurare.

Comparativ cu un singur arbore de decizie, Random Forest este mult mai stabil și mai precis. Un singur arbore este ușor de interpretat pentru că poți urmări fiecare cale decizională, dar este foarte sensibil la schimbări mici în date. Random Forest reduce această instabilitate prin mediarea pe mulți arbori, dar pierde interpretabilitatea directă.

Rezumatul comparației între modele

Model	Gestionează neliniaritatea	Extrapolare	Interpretabilitate	Complexitatea reglajului	Costul antrenării
Regresie Random Forest	Puternică	Slabă	Medie	Moderată	Moderată
Regresie liniară	Slabă spre medie	Puternică	Ridicată	Scăzută	Scăzut
Regresie cu vectori de suport	Puternică	Slabă spre medie	Scăzută	Ridicată	Ridicat (pe date mari)
Gradient Boosting (XGBoost)	Foarte puternică	Slabă	Scăzută spre medie	Ridicată	Ridicat
Arbore de decizie unic	Medie	Slabă	Ridicată	Scăzută	Scăzut

Gânduri finale

Regresia Random Forest funcționează cel mai bine ca model implicit când datele sunt dezordonate, relațiile sunt neliniare și ai nevoie de un baseline solid fără preprocesare grea. Gestionează tipuri mixte de caracteristici, captează interacțiuni și oferă performanță stabilă cu setare minimă.

Fluxul de lucru tipic urmează o progresie clară. Începe cu preprocesare minimă și concentrează-te pe structurarea corectă a datelor. Construiește un baseline folosind un model Random Forest implicit și evaluează-l cu metrici consecvente. De acolo, reglează hiperparametri-cheie precum numărul de arbori și strategia de eșantionare a caracteristicilor pentru a îmbunătăți performanța.

După ce modelul se stabilizează, treci la o evaluare mai profundă analizând reziduurile, felii de erori și folosind SHAP pentru a explica predicțiile acolo unde este nevoie.

Ca pas următor, pentru o înțelegere aprofundată și exercițiu practic, aruncă o privire la cursul Machine Learning cu modele bazate pe arbori în Python.

Care sunt limitările modelului Random Forest?

Cum știu dacă modelul meu Random Forest supraînvață?

Este XGBoost sau Random Forest mai bun?

Poate Random Forest să gestioneze date de tip serie temporală?

Subiecte

Machine Learning

Cele mai bune cursuri de machine learning

track

Cercetător în învățarea automată în Python

85 oră

Descoperă învățarea automată cu Python și lucrează pentru a deveni un om de știință în învățarea automată. Explorează învățarea supravegheată, nesupravegheată și profundă.

Vezi detalii

Începeți cursul

course