Courses
Hồi quy OLS (ordinary least squares – bình phương tối thiểu thông thường) rất đáng để học vì nó là một phần quan trọng trong thống kê và học máy. Nó được dùng để dự đoán kết quả hoặc phân tích mối quan hệ giữa các biến, và hai ứng dụng đó bao trùm mọi thứ từ kiểm định giả thuyết đến dự báo.
Trong bài viết này, tôi sẽ giúp bạn hiểu các nền tảng của hồi quy OLS, ứng dụng, giả định và cách triển khai trong Excel, R và Python. Có nhiều nội dung để học, nên sau khi hoàn thành, hãy tham gia các khóa hồi quy của chúng tôi như Giới thiệu về Hồi quy trong Python và Giới thiệu về Hồi quy trong R, và đọc các hướng dẫn như Hồi quy tuyến tính trong Excel.
Hồi quy OLS là gì?
Hồi quy OLS ước lượng mối quan hệ giữa một hoặc nhiều biến độc lập (biến dự báo) và một biến phụ thuộc (biến đáp ứng). Nó thực hiện điều này bằng cách khớp một phương trình tuyến tính với dữ liệu quan sát. Phương trình đó trông như sau:

Trong đó:
- y là biến phụ thuộc.
- x1, x2, … là các biến độc lập.
- β0 là hệ số chặn (intercept).
- β1, β2, … là các hệ số (coefficient).
- ϵ là sai số (error term).
Trong phương trình trên, tôi hiển thị nhiều hạng β như β1 và β2. Nhưng để rõ ràng, phương trình hồi quy có thể chỉ chứa một hạng β ngoài β0, khi đó chúng ta gọi là hồi quy tuyến tính đơn. Với hai hoặc nhiều biến dự báo, như β1 và β2, chúng ta gọi là hồi quy tuyến tính bội. Cả hai đều được coi là hồi quy OLS nếu dùng bộ ước lượng bình phương tối thiểu thông thường.
Bài toán tối thiểu hóa của OLS là gì?
Cốt lõi của hồi quy OLS là một bài toán tối ưu: tìm đường thẳng (hoặc siêu phẳng trong không gian nhiều chiều) khớp dữ liệu tốt nhất. Nhưng “khớp tốt nhất” nghĩa là gì? Ở đây “khớp tốt nhất” nghĩa là tối thiểu hóa tổng bình phương phần dư.
Hãy để tôi giải thích bài toán tối thiểu hóa đồng thời làm rõ khái niệm phần dư.
- Phần dư là gì: Phần dư là chênh lệch giữa giá trị quan sát thực tế và giá trị mô hình hồi quy dự đoán. Với mỗi điểm dữ liệu, phần dư cho biết dự đoán của chúng ta lệch bao nhiêu.
- Vì sao bình phương phần dư? Khi bình phương từng phần dư, chúng ta đảm bảo chênh lệch dương và âm không triệt tiêu lẫn nhau. Việc bình phương cũng làm tăng trọng số cho các sai số lớn hơn, nghĩa là mô hình ưu tiên giảm những sai lệch lớn.
Bằng cách tối thiểu hóa tổng bình phương phần dư, đường hồi quy trở thành một biểu diễn chính xác của mối quan hệ giữa biến độc lập và biến phụ thuộc. Trên thực tế, khi tối thiểu hóa tổng bình phương phần dư, mô hình của chúng ta có tổng sai số dự đoán nhỏ nhất có thể. Để tìm hiểu thêm về phần dư và phân rã hồi quy, hãy đọc hướng dẫn Hiểu Tổng bình phương: Hướng dẫn về SST, SSR và SSE.
Bộ ước lượng bình phương tối thiểu thông thường là gì?
Trong bối cảnh hồi quy, các bộ ước lượng được dùng để tính các hệ số mô tả mối quan hệ giữa các biến độc lập và biến phụ thuộc. Bộ ước lượng bình phương tối thiểu thông thường (OLS) là một phương pháp như vậy. Nó tìm các giá trị hệ số sao cho tổng bình phương chênh lệch giữa giá trị quan sát và giá trị mô hình dự đoán là nhỏ nhất.
Tôi nêu điều này để làm rõ thuật ngữ. Hồi quy có thể được thực hiện với các bộ ước lượng khác, mỗi loại mang lại ưu điểm khác nhau tùy dữ liệu và mục tiêu phân tích. Chẳng hạn, một số bộ ước lượng bền vững hơn với ngoại lệ, trong khi số khác giúp ngăn quá khớp bằng cách chuẩn hóa tham số mô hình.
Tham số hồi quy OLS được ước lượng như thế nào?
Để xác định các hệ số khớp mô hình hồi quy tốt nhất, bộ ước lượng OLS dùng các kỹ thuật toán học nhằm tối thiểu hóa tổng bình phương phần dư. Một phương pháp có thể dùng là phương trình chuẩn, cung cấp lời giải trực tiếp bằng cách thiết lập một hệ phương trình dựa trên dữ liệu và giải ra các hệ số giúp tổng bình phương sai khác giữa giá trị quan sát và dự đoán là nhỏ nhất.
Tuy nhiên, giải phương trình chuẩn có thể đòi hỏi tính toán lớn, đặc biệt với các tập dữ liệu khổng lồ. Để khắc phục, một kỹ thuật khác gọi là phân rã QR thường được dùng. Phân rã QR tách ma trận biến độc lập thành hai ma trận đơn giản hơn: ma trận trực giao (Q) và ma trận tam giác trên (R). Sự đơn giản hóa này giúp tính toán hiệu quả hơn và cải thiện ổn định số.
Khi nào nên dùng hồi quy OLS
Làm sao để quyết định dùng hồi quy OLS? Khi đưa ra quyết định, chúng ta phải vừa đánh giá đặc điểm của tập dữ liệu, vừa xác định rõ vấn đề cụ thể cần giải quyết.
Các giả định của hồi quy OLS
Trước khi áp dụng hồi quy OLS, chúng ta nên đảm bảo dữ liệu đáp ứng các giả định sau để kết quả đáng tin cậy:
- Tính tuyến tính: Mối quan hệ giữa biến độc lập và biến phụ thuộc phải là tuyến tính.
- Tính độc lập của sai số: Các phần dư không được tương quan với nhau.
- Phương sai đồng nhất (homoscedasticity): Phần dư nên có phương sai không đổi ở mọi mức của biến độc lập.
- Phân phối chuẩn của sai số: Phần dư nên tuân theo phân phối chuẩn.
Vi phạm nghiêm trọng các giả định này có thể dẫn đến ước lượng sai lệch hoặc dự đoán không đáng tin cậy. Vì vậy, chúng ta thực sự phải đánh giá và xử lý mọi vấn đề tiềm ẩn trước khi đi tiếp.
Ứng dụng của hồi quy OLS
Khi đã thỏa mãn các giả định, hồi quy OLS có thể dùng cho nhiều mục đích:
- Mô hình dự báo: Dự báo các kết quả như doanh số, doanh thu, hoặc xu hướng.
- Phân tích mối quan hệ: Hiểu ảnh hưởng của các biến độc lập lên biến phụ thuộc.
- Kiểm định giả thuyết: Đánh giá liệu các biến dự báo cụ thể có tác động đáng kể lên biến kết quả hay không.
Hồi quy OLS trong R, Python và Excel
Giờ hãy xem cách thực hiện hồi quy OLS trong R, Python và Excel.
Hồi quy OLS trong R
R cung cấp hàm lm() cho hồi quy OLS. Ví dụ như sau:
# Let's create sample data
predictor_variable <- c(1, 2, 3, 4, 5)
response_variable <- c(2, 4, 5, 4, 5)
# We now fit the OLS regression model using the lm() function from base R
ols_regression_model <- lm(response_variable ~ predictor_variable)
# OLS regression model summary
summary(ols_regression_model)
Lưu ý rằng chúng ta không cần nhập thêm gói nào để thực hiện hồi quy OLS trong R.
Hồi quy OLS trong Python
Python cung cấp các thư viện như statsmodels và scikit-learn cho hồi quy OLS. Hãy thử ví dụ với statsmodels:
import statsmodels.api as sm
# We can create some sample data
ols_regression_predictor = [1, 2, 3, 4, 5]
ols_regression_response = [2, 4, 5, 4, 5]
# Adding a constant for the intercept
ols_regression_predictor = sm.add_constant(ols_regression_predictor)
# We now fit our OLS regression model
ols_regression_model = sm.OLS(ols_regression_response, ols_regression_predictor).fit()
# Summary of our OLS regression
print(ols_regression_model.summary())
Hồi quy OLS trong Excel
Excel cũng cung cấp cách thực hiện hồi quy OLS qua các công cụ tích hợp. Hãy làm theo các bước sau:
Chuẩn bị dữ liệu
Sắp xếp dữ liệu thành hai cột: một cho biến độc lập và một cho biến phụ thuộc. Đảm bảo không có ô trống trong tập dữ liệu.
Bật Data Analysis ToolPak
Vào File > Options > Add-Ins. Trong hộp Manage, chọn Excel Add-ins, sau đó bấm Go. Đánh dấu chọn Analysis ToolPak và bấm OK.
Chạy phân tích hồi quy
Đi tới Data > Data Analysis và chọn Regression từ danh sách. Bấm OK.
Trong hộp thoại Regression:
- Đặt Input Y Range cho cột biến phụ thuộc.
- Đặt Input X Range cho biến (các biến) độc lập.
- Chọn Labels nếu phạm vi đầu vào có tiêu đề cột.
- Chọn vùng đầu ra hoặc một trang tính mới cho kết quả.
Cách đánh giá mô hình hồi quy OLS
Chúng ta đã tạo một mô hình hồi quy OLS. Bước tiếp theo là xem nó có hiệu quả không bằng cách xem chẩn đoán mô hình và thống kê mô hình.
Biểu đồ chẩn đoán
Chúng ta có thể đánh giá mô hình OLS bằng các công cụ trực quan để kiểm tra giả định và chất lượng khớp. Một số lựa chọn gồm biểu đồ phần dư so với giá trị khớp nhằm kiểm tra các mẫu có thể chỉ ra phi tuyến tính hoặc phương sai thay đổi (heteroscedasticity), hoặc biểu đồ Q-Q, đánh giá liệu phần dư có tuân theo một phân phối như phân phối chuẩn hay không.
Thống kê mô hình
Chúng ta cũng có thể đánh giá mô hình bằng các chỉ số thống kê cung cấp cái nhìn về hiệu suất mô hình và ý nghĩa của biến dự báo. Các thống kê phổ biến gồm R-squared và R-squared hiệu chỉnh, đo lường tỷ lệ phương sai được mô hình giải thích. Chúng ta cũng có thể xem F-statistic và p-value, dùng để kiểm định ý nghĩa tổng thể của mô hình và từng biến dự báo.
Quy trình train/test
Cuối cùng, cần nói rằng các nhà phân tích dữ liệu thường theo một quy trình có cấu trúc để kiểm chứng năng lực dự báo của mô hình. Quy trình này gồm chia dữ liệu thành tập huấn luyện và kiểm tra, huấn luyện để khớp mô hình, sau đó kiểm tra để đánh giá hiệu suất trên dữ liệu chưa thấy. Quy trình này cũng có thể bao gồm các bước đánh giá chéo như k-fold cross-validation.
Những hiểu biết sâu hơn về hồi quy OLS
Bây giờ chúng ta đã khám phá những điều cơ bản về hồi quy OLS, hãy xem một số khái niệm nâng cao hơn.
Hồi quy OLS và ước lượng hợp lý tối đa
Ước lượng hợp lý tối đa (MLE) là một khái niệm khác thường được bàn cùng với OLS, và có lý do. Tới giờ chúng ta đã nói về việc OLS tối thiểu hóa tổng bình phương phần dư để ước lượng hệ số. Giờ hãy lùi lại một bước để nói về MLE.
MLE tối đa hóa xác suất quan sát được dữ liệu đã cho dưới mô hình của chúng ta. Nó hoạt động bằng cách giả định một phân phối xác suất cụ thể cho sai số. Phân phối này thường là chuẩn (Gaussian). Dựa trên phân phối, chúng ta tìm các giá trị tham số khiến dữ liệu quan sát có xác suất xảy ra lớn nhất.
Lý do tôi đề cập đến ước lượng hợp lý tối đa lúc này là vì, trong bối cảnh hồi quy OLS, tiếp cận MLE cho ra ước lượng hệ số trùng với việc tối thiểu hóa tổng bình phương sai số, với điều kiện sai số có phân phối chuẩn.
Diễn giải OLS như một trung bình có trọng số
Một góc nhìn thú vị khác về OLS là diễn giải nó như một trung bình có trọng số. Giáo sư Andrew Gelman bàn về ý tưởng rằng các hệ số trong hồi quy OLS có thể được coi là trung bình có trọng số của các điểm dữ liệu quan sát, trong đó trọng số được xác định bởi phương sai của biến dự báo và cấu trúc của mô hình.
Cách nhìn này giúp hiểu quy trình hồi quy vận hành ra sao và vì sao nó có hành vi như vậy, bởi vì OLS thực chất đang cho trọng số lớn hơn cho các quan sát có phương sai nhỏ hơn hoặc gần với dự đoán của mô hình. Bạn cũng có thể nghe tập podcast DataFramed Dự báo bầu cử và thăm dò để nghe Giáo sư Gelman nói về việc dùng hồi quy trong thăm dò bầu cử.
Hồi quy OLS so với các phương pháp hồi quy tương tự
Một số phương pháp hồi quy khác có tên nghe tương tự nhưng phục vụ mục đích khác hoặc hoạt động dưới các giả định khác. Hãy xem qua vài phương pháp “nghe giống” nhé:
OLS so với weighted least squares (WLS)
WLS là phần mở rộng của OLS, gán các trọng số khác nhau cho từng điểm dữ liệu dựa trên phương sai của quan sát. WLS đặc biệt hữu ích khi giả định phương sai không đổi của phần dư bị vi phạm. Bằng cách gán trọng số tỉ lệ nghịch với phương sai, WLS cho ước lượng đáng tin cậy hơn khi xử lý dữ liệu có phương sai thay đổi.
OLS so với partial least squares (PLS) regression
PLS kết hợp các đặc điểm của phân tích thành phần chính và hồi quy tuyến tính bội bằng cách trích xuất các biến ẩn nắm bắt đồng phương sai tối đa giữa biến dự báo và biến đáp ứng. PLS có lợi trong các tình huống có đa cộng tuyến hoặc khi số biến dự báo vượt quá số quan sát. Nó giảm chiều dữ liệu đồng thời tối đa hóa khả năng dự báo, điều mà OLS không xử lý một cách tự thân.
OLS so với generalized least squares (GLS)
Tương tự WLS, GLS khái quát hóa OLS bằng cách cho phép phần dư có tương quan và/hoặc phương sai không hằng. GLS điều chỉnh quá trình ước lượng để tính đến việc vi phạm các giả định của OLS về phần dư, cung cấp ước lượng hiệu quả và không chệch hơn trong các kịch bản như vậy.
OLS so với total least squares (TLS)
Còn gọi là hồi quy trực giao, TLS tối thiểu hóa khoảng cách vuông góc từ các điểm dữ liệu đến đường hồi quy, thay vì khoảng cách thẳng đứng mà OLS tối thiểu hóa. TLS hữu ích khi có sai số ở cả biến độc lập và biến phụ thuộc, trong khi OLS giả định chỉ biến phụ thuộc có sai số đo lường.
Các lựa chọn thay thế cho hồi quy OLS
Khi mối quan hệ giữa các biến phức tạp hoặc phi tuyến, các phương pháp hồi quy phi tham số là lựa chọn linh hoạt thay thế OLS bằng cách cho phép dữ liệu quyết định dạng của hàm hồi quy. Tất cả ví dụ trước (những phương pháp “nghe giống”) thuộc nhóm mô hình tham số. Nhưng các mô hình phi tham số cũng có thể dùng khi bạn muốn mô hình hóa các mẫu mà không bị ràng buộc bởi giả định tham số.
| Phương pháp | Mô tả | Ưu điểm | Tình huống sử dụng phổ biến |
|---|---|---|---|
| Hồi quy Kernel | Dùng trung bình có trọng số với kernel để làm mượt dữ liệu. | Nắm bắt quan hệ phi tuyến Làm mượt linh hoạt |
Phân tích thăm dò Quan hệ biến chưa biết |
| Hồi quy cục bộ | Khớp các đa thức cục bộ cho các tập con dữ liệu để tạo đường cong mượt. | Xử lý mẫu phức tạp Độ mượt thích nghi |
Hiển thị xu hướng Làm mượt biểu đồ phân tán |
| Cây hồi quy | Chia dữ liệu thành các nhánh để khớp các mô hình đơn giản trong từng phân đoạn. | Dễ diễn giải Xử lý tương tác |
Phân đoạn dữ liệu Nhận diện các chế độ dữ liệu khác biệt |
| Hồi quy spline | Dùng các đa thức từng khúc với tính liên tục tại các nút để mô hình hóa dữ liệu. | Mô hình hóa xu hướng phi tuyến mượt Khớp linh hoạt |
Chuỗi thời gian Đường cong tăng trưởng |
Kết luận
Hồi quy OLS là công cụ nền tảng để hiểu mối quan hệ dữ liệu và đưa ra dự đoán. Bằng cách thành thạo OLS, bạn sẽ xây dựng nền tảng vững chắc để khám phá các mô hình và kỹ thuật nâng cao. Khám phá các khóa học về hồi quy trong R và Python của DataCamp để mở rộng kỹ năng: Introduction to Regression with statsmodels in Python và Introduction to Regression in R). Ngoài ra, hãy cân nhắc lộ trình nghề nghiệp rất phổ biến Machine Learning Scientist in Python.

Tôi là một cây bút và biên tập viên về khoa học dữ liệu, đã có bài đóng góp cho các nghiên cứu đăng trên tạp chí khoa học. Tôi đặc biệt quan tâm đến đại số tuyến tính, thống kê, R và các chủ đề tương tự. Tôi cũng chơi cờ vua khá thường xuyên!
Câu hỏi thường gặp về Hồi quy OLS
Hồi quy OLS là gì?
Hồi quy Bình phương Tối thiểu Thông thường (Ordinary Least Squares – OLS) là một phương pháp thống kê dùng để ước lượng mối quan hệ giữa một hoặc nhiều biến độc lập và một biến phụ thuộc. Phương pháp này khớp một phương trình tuyến tính sao cho tổng bình phương chênh lệch giữa giá trị quan sát và dự đoán là nhỏ nhất, khiến nó trở thành công cụ nền tảng trong thống kê và học máy cho mục đích dự đoán và phân tích.
Hạn chế của hồi quy OLS là gì?
Hồi quy OLS giả định mối quan hệ tuyến tính, có thể không nắm bắt được các mẫu phức tạp trong dữ liệu. Nó nhạy cảm với ngoại lệ, có thể làm lệch kết quả, và gặp khó với đa cộng tuyến, khi các biến độc lập tương quan mạnh với nhau. Ngoài ra, OLS yêu cầu tất cả giả định (tuyến tính, độc lập, phương sai đồng nhất, phân phối chuẩn) được đáp ứng; vi phạm có thể dẫn đến ước lượng sai lệch hoặc kém hiệu quả.
Hồi quy OLS có thể dùng cho suy luận nhân quả không?
Mặc dù hồi quy OLS có thể xác định liên hệ giữa các biến, việc thiết lập quan hệ nhân quả đòi hỏi phải xem xét cẩn thận thiết kế nghiên cứu và các biến gây nhiễu tiềm ẩn. OLS tự thân không chứng minh được quan hệ nhân quả. Để suy luận nhân quả, thường cần các phương pháp bổ sung như thử nghiệm đối chứng ngẫu nhiên, biến công cụ hoặc ghép điểm xu hướng bên cạnh hồi quy OLS.