Hồi quy Rừng Ngẫu nhiên: Hướng dẫn Toàn diện

Cách hoạt động của hồi quy rừng ngẫu nhiên, nơi nó thất bại, và cách đánh giá, tinh chỉnh, cũng như diễn giải. Bao gồm triển khai Python và khung so sánh mô hình.

Đã cập nhật 17 thg 6, 2026 · 12 phút đọc

Hồi quy Rừng Ngẫu nhiên là một trong những cách đáng tin cậy nhất để mô hình hóa dữ liệu dạng bảng phi tuyến chỉ với thiết lập tối thiểu. Nó giúp bạn có một mô hình chạy được nhanh chóng, ngay cả khi dữ liệu nhiễu hoặc mối quan hệ không rõ ràng.

Hướng dẫn này đưa bạn qua toàn bộ quy trình làm việc của Hồi quy Rừng Ngẫu nhiên. Bạn sẽ hiểu thuật toán hoạt động ra sao và triển khai nó bằng Python. Chúng tôi cũng sẽ thảo luận về kỹ thuật đánh giá và tinh chỉnh để có hiệu suất tốt hơn.

Hồi quy Rừng Ngẫu nhiên là gì?

Hồi quy rừng ngẫu nhiên là một kỹ thuật ensemble xây dựng nhiều cây quyết định ngẫu nhiên và kết hợp đầu ra của chúng để đưa ra dự đoán liên tục. Thay vì dựa vào một mô hình duy nhất, nó tổng hợp dự đoán từ nhiều cây, thường bằng cách lấy trung bình đầu ra của chúng.

Vì sao cần nhiều cây? Một cây quyết định đơn lẻ có xu hướng quá khớp. Nó bắt cả nhiễu lẫn tín hiệu, đặc biệt khi làm việc với dữ liệu thực tế lộn xộn.

Gộp bootstrap và ngẫu nhiên hóa đặc trưng

Sức mạnh của mô hình Hồi quy Rừng Ngẫu nhiên đến từ cách nó đưa ngẫu nhiên vào mỗi bước rồi tổng hợp kết quả để giảm phương sai. Hãy cùng bàn về cơ chế bên trong này.

Gộp bootstrap, hay bagging, huấn luyện mỗi cây trên một tập con ngẫu nhiên của dữ liệu. Điều này tạo ra sự biến thiên giữa các cây và giảm rủi ro quá khớp.

Ngẫu nhiên hóa đặc trưng bổ sung thêm một lớp đa dạng bằng cách chọn ngẫu nhiên một tập con các đặc trưng tại mỗi điểm tách. Kết hợp lại, các kỹ thuật này giúp ổn định dự đoán và cải thiện khả năng tổng quát hóa.

Lấy mẫu bootstrap và ngẫu nhiên hóa đặc trưng

Random Forest bắt đầu với lấy mẫu bootstrap, còn gọi là bagging. Mỗi cây được huấn luyện trên một tập con được lấy mẫu ngẫu nhiên từ bộ dữ liệu gốc. Do đó, các cây học những mẫu khác nhau thay vì lặp lại cùng một cấu trúc.

Nó cũng đưa vào ngẫu nhiên hóa đặc trưng. Ở mỗi điểm tách, mô hình chỉ xem xét một tập con ngẫu nhiên các đặc trưng thay vì tất cả đặc trưng hiện có. Điều này ngăn một vài đặc trưng trội chi phối mọi cây.

Cùng nhau, bagging và ngẫu nhiên hóa đặc trưng tạo ra một tập các cây không tương quan, mắc các lỗi khác nhau, nên khi kết hợp, dự đoán của chúng triệt tiêu nhiễu và cải thiện độ chính xác tổng thể.

Phát triển cây và tổng hợp dự đoán

Mỗi cây trong rừng thường phát triển sâu, thường không cắt tỉa. Điều này cho phép mô hình nắm bắt các mẫu phức tạp, tương tác và quan hệ phi tuyến trong dữ liệu.

Các cây riêng lẻ có thể bị quá khớp, nhưng hiệu ứng đó giảm đi khi Random Forest tổng hợp đầu ra của chúng cho kết quả cuối cùng.

Đánh đổi thiên lệch - phương sai

Random Forest cân bằng hai yếu tố then chốt: độ mạnh của từng cây và tính đa dạng của cả rừng.

Các cây sâu có thiên lệch thấp vì có thể khớp sát dữ liệu huấn luyện. Đồng thời, sự ngẫu nhiên trong lấy mẫu dữ liệu và chọn đặc trưng làm giảm tương quan giữa các cây. Bằng cách lấy trung bình nhiều cây có thiên lệch thấp và tương quan yếu, mô hình giảm phương sai tổng thể mà không tăng thiên lệch.

Tiền xử lý dữ liệu và quy trình triển khai

Tiếp theo, chúng ta sẽ áp dụng các khái niệm vào thực tế và xem các kỹ thuật để biến dữ liệu thô thành một mô hình Random Forest vận hành được.

Làm sạch dữ liệu và kỹ thuật đặc trưng

Chuẩn bị dữ liệu cho các mô hình Random Forest thường bắt đầu với xử lý biến phân loại.

Với các nhóm nhỏ, mã hóa one-hot hoạt động tốt và đáng tin cậy
Với đặc trưng có độ phong phú hạng mục cao, mã hóa theo mục tiêu (target encoding) thường hiệu quả hơn, vì nó nắm bắt tín hiệu ở cấp độ hạng mục mà không làm tăng đáng kể số chiều

Tiếp theo là dữ liệu khuyết. Cách tiếp cận phụ thuộc vào thư viện bạn dùng. Một số triển khai có thể xử lý giá trị thiếu trực tiếp trong quá trình tách, trong khi số khác yêu cầu bạn điền trước. Trong đa số trường hợp, nội suy đơn giản bằng trung vị hoặc mode là đủ. Vì Random Forest không dựa vào các phân phối nghiêm ngặt, những phương pháp đơn giản này hoạt động tốt trong thực tế.

Sau cùng, tác động lớn hơn đến từ kỹ thuật đặc trưng. Ví dụ, biến trễ (lag) đưa vào phụ thuộc theo thời gian, các tổng hợp cuộn (rolling) nắm bắt xu hướng cục bộ, và thống kê theo nhóm mã hóa các mẫu ở cấp độ cao hơn. Những đặc trưng được thiết kế này giúp mô hình biểu diễn thông tin tốt hơn và cải thiện dự báo.

Để tìm hiểu sâu hơn, tôi khuyên đọc hướng dẫn Kỹ thuật Đặc trưng trong Machine Learning của tôi.

Thiết lập đường cơ sở và chiến lược chia tách

Trước khi tinh chỉnh bất kỳ thứ gì, bước đầu tiên là chia dữ liệu đúng cách.

Với các bài toán bảng tiêu chuẩn, điều đó thường có nghĩa là tách bộ dữ liệu thành tập huấn luyện, kiểm định và kiểm tra để mô hình được huấn luyện trên một phần, tinh chỉnh trên phần khác và đánh giá trên phần cuối cùng chưa đụng tới.

Sự tách biệt đó quan trọng vì nó cho bạn cái nhìn thực tế về cách mô hình sẽ hành xử trên dữ liệu mới.

Với chuỗi thời gian, chiến lược chia tách thay đổi. Chia ngẫu nhiên có thể rò rỉ thông tin tương lai vào quá khứ, khiến hiệu suất trông tốt hơn thực tế.

Walk-forward validation tránh vấn đề đó bằng cách huấn luyện trên một cửa sổ thời gian ban đầu, kiểm định trên cửa sổ tiếp theo, rồi tiến lên từng bước. Cách này giữ cho đánh giá phù hợp với cách mô hình sẽ thực sự được dùng trong sản xuất.

Viết triển khai Python đầu-cuối

Triển khai theo luồng đơn giản của scikit-learn:

Nhập mô hình
Chia dữ liệu
Fit bộ ước lượng
Tạo dự đoán
Đánh giá đầu ra

Thiết lập điển hình trông như sau trong thực tế:

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, root_mean_squared_error
import matplotlib.pyplot as plt

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
rmse = root_mean_squared_error(y_test, y_pred)

Khi mô hình đã được huấn luyện và đánh giá, bước tiếp theo là trực quan hóa giá trị dự đoán so với giá trị thực.

Biểu đồ phân tán giúp dễ phát hiện thiên lệch có hệ thống, chẳng hạn dự đoán liên tục vượt quá hoặc thấp hơn mục tiêu. Nó cũng giúp lộ ra phương sai thay đổi (heteroscedasticity), nơi sai số dự đoán mở rộng khi giá trị mục tiêu tăng.

Tinh chỉnh siêu tham số và đánh giá

Sau khi mô hình được huấn luyện, bước tiếp theo là tinh chỉnh các tham số chính và đánh giá hiệu suất. Dưới đây là các kỹ thuật phổ biến:

Chọn và diễn giải các thước đo hồi quy

Sai số bình phương trung bình căn (RMSE), sai số tuyệt đối trung bình (MAE) và R² mỗi loại đo lường hiệu suất theo cách khác nhau.

RMSE phạt nặng các lỗi lớn hơn vì bình phương phần dư. Điều này hữu ích khi sai sót lớn gây tốn kém và cần được giảm tối đa
MAE đối xử mọi lỗi như nhau, nên cung cấp cái nhìn ổn định hơn khi dữ liệu có ngoại lệ hoặc khi sai số trung bình nhất quán quan trọng hơn những đột biến thỉnh thoảng
R² đo lường mô hình giải thích bao nhiêu phương sai của biến mục tiêu, giúp so sánh mức độ phù hợp tổng thể nhưng không phản ánh trực tiếp sai số dự đoán

Vượt ra ngoài các thước đo tổng hợp, phân tích sai số mang lại hiểu sâu hơn. Phần dư, được định nghĩa là chênh lệch giữa giá trị thực và dự đoán, nên được xem xét trên các lát cắt dữ liệu khác nhau.

Vẽ phần dư theo giá trị dự đoán hoặc mục tiêu thực giúp lộ ra các mẫu. Ví dụ, nếu lỗi tăng khi giá trị mục tiêu tăng, đó là dấu hiệu của phương sai thay đổi. Nếu dự đoán liên tục nằm trên hoặc dưới đường chéo, đó là thiên lệch có hệ thống.

Chia nhỏ lỗi theo nhóm đặc trưng hoặc theo khoảng mục tiêu cũng giúp xác định các chế độ lỗi. Bởi vì mô hình có thể hoạt động tốt ở vùng giá trị trung bình nhưng gặp khó ở cực trị, hoặc có hành vi khác nhau giữa các phân khúc dữ liệu.

Sử dụng đánh giá out-of-bag (OOB)

Random Forest cung cấp cơ chế kiểm định tích hợp thông qua lấy mẫu out-of-bag. Vì mỗi cây được huấn luyện trên một mẫu bootstrap, một phần dữ liệu bị bỏ ra và không được thấy trong huấn luyện. Các mẫu out-of-bag này có thể dùng để đánh giá mô hình mà không cần tạo tập kiểm định riêng. Đó là điều điểm OOB phản ánh.

Tuy nhiên, đánh giá OOB không phải lúc nào cũng đủ. Với kiểm định mô hình cuối cùng, đặc biệt trong các kịch bản rủi ro cao hoặc khi lo ngại rò rỉ dữ liệu, cần có một tập kiểm tra giữ lại nghiêm ngặt.

Ưu tiên các siêu tham số chính để tinh chỉnh

Trong Random Forest, các tham số max_features và n_estimators thường tạo ra thay đổi đáng chú ý nhất về hiệu suất.

max_features kiểm soát số lượng đặc trưng tối đa được xem xét ở mỗi lần tách. Giá trị thấp tăng độ ngẫu nhiên và giảm tương quan giữa các cây, có thể cải thiện tổng quát hóa. Giá trị cao làm cây mạnh hơn nhưng giống nhau hơn, có thể tăng phương sai.
n_estimators kiểm soát số lượng cây trong rừng. Tăng số này thường cải thiện hiệu suất bằng cách ổn định dự đoán, nhưng cũng làm tăng thời gian tính toán. Vượt quá một ngưỡng, lợi ích trở nên nhỏ, vì vậy cần xác định điểm bão hòa đó.

Các tham số này nên được tinh chỉnh bằng cross-validation để cân bằng độ phức tạp mô hình, thời gian huấn luyện và hiệu suất dự đoán.

Tầm quan trọng của đặc trưng và khả năng diễn giải

Các mô hình Random Forest thường bị coi là hộp đen, nhưng chúng cung cấp nhiều cách để hiểu đặc trưng ảnh hưởng đến dự đoán như thế nào. Hãy xem một số cách quan trọng.

Tầm quan trọng dựa trên độ thuần khiết

Random Forest tính tầm quan trọng đặc trưng bằng Mức giảm độ không thuần khiết trung bình (MDI). Mỗi lần một đặc trưng được dùng để tách một nút, mô hình đo mức giảm độ không thuần khiết do lần tách đó gây ra, chẳng hạn giảm phương sai trong bài toán hồi quy. Các mức giảm này được cộng dồn trên tất cả cây, tạo ra một điểm số phản ánh mức độ đóng góp của đặc trưng vào việc cải thiện dự đoán.

Dù phương pháp này nhanh và tích hợp sẵn trong mô hình, nó có hạn chế đã biết. MDI có xu hướng ưu ái đặc trưng liên tục hoặc đặc trưng phân loại với nhiều giá trị duy nhất. Các đặc trưng này tạo nhiều điểm tách tiềm năng hơn, có thể làm đội điểm quan trọng của chúng ngay cả khi chúng không thực sự dự báo tốt hơn.

Tầm quan trọng hoán vị

Tầm quan trọng hoán vị đo lường sự thay đổi hiệu suất khi giá trị của một đặc trưng bị xáo trộn ngẫu nhiên trong tập dữ liệu giữ lại. Nếu xáo trộn một đặc trưng làm suy giảm hiệu suất đáng kể, đặc trưng đó quan trọng. Nếu tác động nhỏ, đặc trưng đó có lẽ ít giá trị dự báo.

Cách tiếp cận này phản ánh hành vi thực tế của mô hình, khiến nó đáng tin cậy hơn cho phân tích.

Tuy nhiên, các đặc trưng tương quan tạo ra độ phức tạp. Khi hai đặc trưng mang thông tin tương tự, xáo trộn một cái có thể không ảnh hưởng đáng kể đến hiệu suất vì cái còn lại vẫn cung cấp tín hiệu. Do đó, tầm quan trọng có thể bị chia đều giữa các đặc trưng tương quan, cần diễn giải cẩn trọng.

Giá trị SHAP

Giá trị SHAP (Shapley Additive Explanations) giải thích mỗi đặc trưng đóng góp bao nhiêu cho một dự đoán riêng lẻ. Nó gán cho mỗi đặc trưng một giá trị đại diện cho mức độ nó đẩy dự đoán lên trên hoặc xuống dưới một đường cơ sở.

Phương pháp này thường được dùng để giải thích quyết định của mô hình và xây dựng niềm tin. Để xem kỹ hơn, hãy đọc hướng dẫn Giá trị SHAP trong Machine Learning của chúng tôi.

Hạn chế và các trường hợp thất bại thường gặp

Hồi quy Rừng Ngẫu nhiên đáng tin cậy trong nhiều kịch bản, nhưng có những hạn chế rõ ràng. Hiểu điều này giúp bạn quyết định khi nào nên dùng và khi nào nên chuyển sang cách khác.

Giới hạn ngoại suy và các trường hợp biên

Random Forest không thể ngoại suy vượt ra ngoài khoảng giá trị của dữ liệu huấn luyện.

Mỗi cây đưa ra dự đoán dựa trên các điểm tách quan sát trong huấn luyện, nên đầu ra cuối cùng luôn bị chặn bởi giá trị mục tiêu nhỏ nhất và lớn nhất trong bộ dữ liệu. Nếu mô hình chỉ thấy mục tiêu trong khoảng 10 đến 100, nó không thể dự đoán 120, dù tín hiệu đầu vào mạnh đến đâu. Điều này trở thành vấn đề trong các kịch bản như dự báo tăng trưởng hoặc hệ thống theo xu hướng.

Mô hình cũng gặp khó với dữ liệu thưa có số chiều cực cao, như biểu diễn văn bản hoặc vector one-hot với hàng nghìn cột. Trong các trường hợp này, cây trở nên kém hiệu quả và không nắm bắt được các điểm tách có ý nghĩa. Các cách thực tiễn gồm

Giảm số chiều
Lựa chọn đặc trưng
Sử dụng các mô hình thiết kế cho đầu vào thưa, như Hồi quy Ridge

Đánh đổi về khả năng diễn giải

Một cây đơn lẻ cung cấp đường đi rõ ràng từ đầu vào đến dự đoán, dễ giải thích. Ngược lại, một khu rừng tổng hợp hàng trăm cây, khiến quyết định riêng lẻ khó truy vết.

Trong môi trường bị quản lý chặt, đánh đổi này quan trọng. Nếu lời giải thích phải đơn giản và có thể truy vết trực tiếp, một cây quyết định đơn lẻ hoặc mô hình tuyến tính có thể phù hợp hơn. Nếu hiệu suất là ưu tiên và lời giải thích có thể được hỗ trợ bằng các phương pháp như tầm quan trọng đặc trưng hoặc SHAP, Random Forest vẫn là lựa chọn mạnh.

Ràng buộc tính toán, bộ nhớ và độ trễ

Random Forest mở rộng tuyến tính theo số cây và kích thước dữ liệu. Khi bộ dữ liệu lớn dần, thời gian huấn luyện và sử dụng bộ nhớ tăng vì mỗi cây phải được xây dựng và lưu trữ. Các khu rừng lớn cũng có thể làm chậm suy luận, vì dự đoán cần tổng hợp đầu ra từ tất cả cây.

Trong hệ thống sản xuất có ràng buộc nghiêm về độ trễ hoặc chi phí, đây có thể là nút thắt cổ chai. Giảm số lượng cây, giới hạn độ sâu cây hoặc giới hạn số đặc trưng xét ở mỗi lần tách có thể giúp kiểm soát tài nguyên. Những điều chỉnh này đánh đổi một phần độ chính xác để có thời gian huấn luyện và dự đoán nhanh hơn.

Hồi quy Rừng Ngẫu nhiên so với các lựa chọn khác: Cách chọn

Bạn có thể tự hỏi liệu Hồi quy Rừng Ngẫu nhiên có phù hợp cho trường hợp sử dụng của bạn không, hoặc nên cân nhắc phương án thay thế nào.

Tạo khung so sánh mô hình

Các trường hợp sử dụng khác nhau, nhưng một cách tiếp cận luôn hữu ích: So sánh hiệu suất của các mô hình khác nhau (như hồi quy tuyến tính, hồi quy vector hỗ trợ, gradient boosting, v.v.) trên cùng một bộ dữ liệu song song với Random Forest Regressor.

Điều đó có nghĩa là dùng chính xác cùng các phần huấn luyện, kiểm định và kiểm tra cho mọi mô hình, rồi đánh giá chúng theo cùng tiêu chí lỗi và giả định kinh doanh.

Hồi quy rừng ngẫu nhiên so với hồi quy tuyến tính và hồi quy vector hỗ trợ

Random Forest và hồi quy tuyến tính giải quyết những bài toán rất khác nhau. Hồi quy tuyến tính hoạt động tốt nhất khi mối quan hệ giữa đầu vào và mục tiêu chủ yếu là tuyến tính, và các hệ số cần dễ giải thích. Nó cũng là lựa chọn tốt hơn khi ngoại suy nghiêm ngặt quan trọng, vì có thể mở rộng vượt ngoài khoảng mục tiêu quan sát được.

Ngược lại, Random Forest giỏi hơn với các mẫu phi tuyến, tương tác đặc trưng và ranh giới bất quy tắc. Điều đó khiến nó mạnh hơn cho các hệ thống thực tế phức tạp, nhưng yếu hơn cho dự báo thiên về xu hướng.

Hồi quy vector hỗ trợ (SVR) thì ở một góc khác. Nó có thể hoạt động tốt trên bộ dữ liệu nhỏ hơn, nhưng nhạy cảm hơn nhiều với việc chuẩn hóa đặc trưng và thường cần tinh chỉnh cẩn thận hơn. Random Forest không phụ thuộc vào đầu vào được chuẩn hóa, giúp dễ dùng hơn trong các quy trình bảng điển hình.

SVR có thể là lựa chọn mạnh khi bộ dữ liệu gọn và không gian đặc trưng hạn chế, nhưng trở nên khó duy trì khi khối lượng dữ liệu, độ phức tạp đặc trưng hoặc áp lực vận hành tăng.

Hồi quy rừng ngẫu nhiên so với gradient boosting và cây quyết định đơn

Random Forest xây dựng các cây độc lập và lấy trung bình đầu ra của chúng. Gradient boosting xây dựng các cây tuần tự, trong đó mỗi cây mới sửa lỗi của cây trước.

Các phương pháp gradient boosting, như XGBoost, thường đạt trần độ chính xác cao hơn, đặc biệt trên dữ liệu bảng có cấu trúc. Tuy nhiên, chúng cần nhiều tinh chỉnh hơn và nhạy cảm hơn với siêu tham số. Quá trình huấn luyện cũng có thể chậm hơn do tính tuần tự của boosting. Random Forest dễ huấn luyện hơn, ổn định hơn ngay từ mặc định và ít nhạy với cấu hình.

So với một cây quyết định đơn, Random Forest ổn định và chính xác hơn nhiều. Một cây đơn dễ diễn giải vì bạn có thể truy vết mọi đường quyết định, nhưng nó rất nhạy với thay đổi nhỏ trong dữ liệu. Random Forest giảm sự bất ổn này bằng cách lấy trung bình qua nhiều cây, nhưng đánh mất tính diễn giải trực tiếp.

Tóm tắt so sánh mô hình

Mô hình	Xử lý phi tuyến	Ngoại suy	Khả năng diễn giải	Độ phức tạp tinh chỉnh	Chi phí huấn luyện
Hồi quy Rừng Ngẫu nhiên	Mạnh	Yếu	Trung bình	Vừa phải	Vừa phải
Hồi quy Tuyến tính	Yếu đến Trung bình	Mạnh	Cao	Thấp	Thấp
Hồi quy Vector Hỗ trợ	Mạnh	Yếu đến Trung bình	Thấp	Cao	Cao (trên dữ liệu lớn)
Gradient Boosting (XGBoost)	Rất mạnh	Yếu	Thấp đến Trung bình	Cao	Cao
Cây Quyết định đơn	Trung bình	Yếu	Cao	Thấp	Thấp

Kết luận

Hồi quy Rừng Ngẫu nhiên phát huy tốt nhất vai trò mô hình mặc định khi dữ liệu lộn xộn, mối quan hệ phi tuyến và bạn cần một đường cơ sở mạnh mà không cần tiền xử lý nặng. Nó xử lý tốt kiểu đặc trưng hỗn hợp, nắm bắt tương tác và cho hiệu suất ổn định với thiết lập tối thiểu.

Quy trình điển hình theo một lộ trình rõ ràng. Bắt đầu với tiền xử lý tối thiểu và tập trung cấu trúc dữ liệu đúng. Xây dựng đường cơ sở bằng mô hình Random Forest mặc định và đánh giá bằng các thước đo nhất quán. Từ đó, tinh chỉnh các siêu tham số chính như số lượng cây và chiến lược lấy mẫu đặc trưng để cải thiện hiệu suất.

Khi mô hình ổn định, chuyển sang đánh giá sâu hơn bằng cách phân tích phần dư, chia nhỏ lỗi và dùng SHAP để giải thích dự đoán khi cần.

Bước tiếp theo, để hiểu sâu và thực hành, hãy xem khóa học về Machine Learning với các mô hình dựa trên cây trong Python.