Courses
Mọi câu chuyện đều có điểm khởi đầu, và với nhà phân tích dữ liệu hay nhà khoa học dữ liệu, khởi đầu ấy thường là hồi quy tuyến tính đơn. Thực vậy, hồi quy tuyến tính đơn có lẽ là mô hình nền tảng nhất. Vì thế, nếu bạn nghiêm túc muốn trở thành nhà phân tích dữ liệu hoặc nhà khoa học dữ liệu, hồi quy tuyến tính đơn (và hồi quy nói chung) là kiến thức bắt buộc phải biết.
Lý do đáng để học hồi quy không chỉ vì đây là kỹ thuật vô giá để trả lời các câu hỏi cấp bách trong hầu như mọi lĩnh vực, mà còn vì nó mở cánh cửa giúp bạn hiểu sâu hơn vô số chủ đề khác, như kiểm định giả thuyết, suy luận nhân quả, và dự báo. Hãy tham gia khóa Introduction to Regression in R và khóa Introduction to Regression with statsmodels in Python của chúng tôi ngay hôm nay.
Hồi quy tuyến tính đơn là gì?
Hồi quy tuyến tính đơn là hồi quy tuyến tính với một biến độc lập, còn gọi là biến giải thích, và một biến phụ thuộc, còn gọi là biến phản hồi. Trong hồi quy tuyến tính đơn, biến phụ thuộc là biến liên tục.
Ước lượng bình phương tối thiểu thông thường
Cách phổ biến nhất để thực hiện hồi quy tuyến tính đơn là thông qua ước lượng bình phương tối thiểu thông thường (OLS). Bởi vì OLS là phương pháp phổ biến nhất, phần “ordinary least squares” thường được ngầm hiểu khi ta nói về hồi quy tuyến tính đơn.
OLS hoạt động bằng cách cực tiểu hóa tổng bình phương của độ lệch giữa các giá trị quan sát (các điểm dữ liệu thực tế) và các giá trị dự đoán từ đường hồi quy. Những độ lệch này gọi là phần dư, và việc bình phương chúng đảm bảo cả phần dư dương và âm đều được xử lý như nhau.
Hồi quy tuyến tính đơn được dùng như thế nào
Hồi quy tuyến tính đơn giúp dự đoán và hiểu các mối quan hệ giữa một biến độc lập và một biến phụ thuộc. Ví dụ, bạn có thể muốn biết chiều cao của cây (biến độc lập) ảnh hưởng thế nào đến số lượng lá của nó (biến phụ thuộc). Bằng cách thu thập dữ liệu và khớp một mô hình hồi quy tuyến tính đơn, bạn có thể dự đoán số lá dựa trên chiều cao cây. Đây là phần “dự đoán”. Nhưng cách tiếp cận này cũng cho thấy trung bình số lá thay đổi bao nhiêu khi cây cao thêm, đó là cách hồi quy tuyến tính đơn cũng được dùng để hiểu các mối quan hệ.
Phương trình hồi quy tuyến tính đơn
Hãy cùng xem phương trình hồi quy tuyến tính đơn. Ta có thể bắt đầu bằng dạng hệ số góc - tung độ gốc của một đường thẳng với ký hiệu thường gặp trong sách hình học hoặc đại số. Tức là, chúng ta sẽ bắt đầu từ đầu.

Trong đó
- m là hệ số góc của đường thẳng
- b là tung độ gốc
Trong bối cảnh khoa học dữ liệu, bạn sẽ thường thấy phương trình sau hơn:

Trong đó
- b0 là tung độ gốc (y-intercept)
- b1 là hệ số góc
Cách ký hiệu với b0 và b1 giúp ta hiểu rằng ta đang dự đoán y, vì vậy ta gọi là ŷ, hay y-hat, vì ta không kỳ vọng đường hồi quy sẽ đi qua toàn bộ các điểm.
Hình minh họa sau cho thấy khác biệt khái niệm giữa dạng hệ số góc - tung độ gốc ở bên trái và phương trình hồi quy ở bên phải. Theo ngôn ngữ đại số tuyến tính, ta sẽ nói rằng hệ phương trình tuyến tính này là thừa điều kiện (overdetermined), tức là có nhiều phương trình (khoảng ba mươi) hơn số ẩn (hai), nên ta không kỳ vọng tìm được nghiệm chính xác.
Dạng hệ số góc - tung độ gốc so với phương trình hồi quy tuyến tính đơn. Ảnh: Tác giả
Các hệ số của mô hình hồi quy tuyến tính đơn
Nếu chỉ dùng phương trình hệ số góc - tung độ gốc, ta sẽ tìm giá trị của m (hệ số góc) và b (tung độ gốc) bằng cách trước hết tính hệ số góc theo “độ dốc” (rise over run), nghĩa là đo độ thay đổi của y so với độ thay đổi của x giữa hai điểm trên đường thẳng. Sau đó, khi đã có hệ số góc, ta sẽ tìm tung độ gốc b bằng cách thay tọa độ của một điểm trên đường vào phương trình và giải b. Bước cuối này cho ta điểm mà đường thẳng cắt trục tung.
Điều này không áp dụng trong hồi quy vì không có đường nào đi qua tất cả các điểm, đó là lý do ta thay vào đó tìm đường phù hợp nhất. May mắn là có các công thức gọn gàng, dạng đóng để tìm hệ số góc và tung độ gốc.
Hệ số góc có thể được tính bằng cách nhân hệ số tương quan r với thương số giữa độ lệch chuẩn của y và độ lệch chuẩn của x. Điều này hợp lý trực giác vì về cơ bản ta đang chuyển hệ số tương quan về đơn vị của các biến gốc. Trong phương trình dưới đây, a chỉ hệ số góc và sy và sx lần lượt chỉ độ lệch chuẩn của y và của x.

Tung độ gốc của đường phù hợp nhất trong hồi quy tuyến tính đơn có thể tính sau khi ta tính được hệ số góc. Ta làm điều này bằng cách lấy trung bình của y trừ đi tích của hệ số góc và trung bình của x. Trong phương trình dưới đây, i chỉ tung độ gốc và dấu gạch ngang trên các giá trị x và y là cách ký hiệu trung bình của x và y tương ứng; ta gọi các hạng này là x-bar và y-bar.

Để đầy đủ, ta có thể khảo sát các cách viết thay thế cho những phương trình này. Hãy nhớ rằng độ lệch chuẩn là căn bậc hai của phương sai, nên thay vì nói đến độ lệch chuẩn của y và độ lệch chuẩn của x, ta cũng có thể nói đến căn bậc hai của phương sai của y và căn bậc hai của phương sai của x. Bản thân phương sai, ta nhớ, là trung bình của tổng bình phương sai số.
Trong phương trình trên cho hệ số góc, a, ta cũng có thể viết sy và sx theo độ lệch chuẩn, và ta cũng có thể viết dạng đầy đủ của hệ số tương quan r. Sau đó có thể quy đồng và giản lược phương trình bằng cách khử các hạng chung và thu được bộ phương trình sau cho hệ số góc và tung độ gốc. Mục đích ở đây không phải để cho thấy cách biến đổi giữa các phương trình, mà là nhấn mạnh rằng hai cách viết là tương đương vì bạn có thể gặp cách này hoặc cách kia.
Một hệ quả thú vị khác là đường hồi quy tuyến tính đơn sẽ đi qua điểm trung tâm, tức là trung bình của x và trung bình của y. Nói cách khác, hồi quy tuyến tính đơn cắt nhau tại giá trị trung bình của cả biến độc lập và biến phụ thuộc, bất kể phân bố của các điểm dữ liệu, điều này góp phần tạo cho hồi quy tuyến tính đơn một dạng “tính cân bằng”.
Các cách bổ sung để tìm hệ số mô hình hồi quy tuyến tính đơn
Ta đã thấy cách tìm các hệ số mô hình hồi quy tuyến tính đơn bằng những công thức gọn. Ở đây, ta sẽ xem chi tiết hơn một số phương pháp khác liên quan đến đại số tuyến tính và giải tích. Đặc biệt, các môi trường lập trình giải bằng các kỹ thuật nâng cao vì chúng nhanh và chính xác hơn (việc bình phương để tìm phương sai có thể làm giảm độ chính xác).
- Đại số tuyến tính: Có một số kỹ thuật từ đại số tuyến tính để tìm các hệ số của hồi quy tuyến tính đơn. Ta có thể tìm các hệ số trong mô hình hồi quy tuyến tính đơn bằng cách giải cái gọi là phương trình chuẩn (normal equation). Phương trình chuẩn thú vị nhưng hơi không khuyến khích với các bộ dữ liệu lớn vì liên quan đến nghịch đảo ma trận, vốn đắt đỏ. Một kỹ thuật đại số tuyến tính khác là giải thông qua phân rã QR, không cần nghịch đảo ma trận và cũng được biết là ổn định số học.
- Giải tích: Ta có thể tìm hệ số góc và tung độ gốc của mô hình hồi quy tuyến tính đơn bằng cách lấy đạo hàm riêng của tổng bình phương sai số (SSE) theo hệ số góc và tung độ gốc rồi đặt bằng 0 để giải các hệ số. Đó là một lựa chọn. Một lựa chọn khác có liên hệ với giải tích là gradient descent, một kỹ thuật tối ưu lặp có thể dùng để cực tiểu SSE và tìm hệ số góc cùng tung độ gốc. Gradient descent gắn chặt với giải tích vì nó dựa vào gradient, tức vectơ các đạo hàm riêng.
Các giả định của mô hình hồi quy tuyến tính đơn
Giờ hãy xem các giả định chính của mô hình hồi quy tuyến tính đơn. Nếu vi phạm các giả định này, ta có thể cần cân nhắc cách tiếp cận khác. Ba giả định đầu tiên đặc biệt là những giả định mạnh và không nên bỏ qua.
- Tính tuyến tính: Mối quan hệ giữa biến độc lập và biến phụ thuộc phải là tuyến tính. Nếu mối quan hệ là phi tuyến, mô hình sẽ không nắm bắt tốt.
- Tính độc lập của sai số: Phần dư cần độc lập với nhau. Điều này nghĩa là không được có mẫu hình hay tương quan giữa các phần dư. Đây là điều cần theo dõi kỹ trong dữ liệu có thứ tự thời gian.
- Phương sai đồng nhất (Homoscedasticity): Phần dư nên có phương sai không đổi trên mọi giá trị của biến độc lập. Nếu phương sai thay đổi (heteroscedasticity), dự đoán ở một số khoảng giá trị của x có thể kém chính xác.
- Tính chuẩn của phần dư: Phần dư lý tưởng nên tuân theo phân phối chuẩn, hay Gaussian. Điều này quan trọng cho kiểm định thống kê và khẳng định mức độ tin cậy trong ước lượng. Nó ít quan trọng hơn khi mục tiêu là dự đoán.
Đánh giá mô hình hồi quy tuyến tính đơn
Giả sử ta đã tạo một mô hình hồi quy tuyến tính đơn. Làm sao biết nó phù hợp tốt? Để trả lời, ta có thể xem các biểu đồ chẩn đoán và thống kê mô hình.
Biểu đồ chẩn đoán hồi quy tuyến tính đơn
Các biểu đồ chẩn đoán giúp ta thấy mô hình hồi quy tuyến tính đơn có phù hợp tốt và không vi phạm giả định hay không. Bất kỳ mẫu hình hay độ lệch nào trong các biểu đồ này gợi ý vấn đề mô hình cần xử lý hoặc thông tin chưa được nắm bắt. Một biểu đồ chẩn đoán đặc thù cho hồi quy tuyến tính đơn là biểu đồ giá trị x so với phần dư, như bạn thấy bên dưới. Các biểu đồ bổ sung gồm Q-Q plot, biểu đồ scale-location, số thứ tự quan sát so với khoảng cách cook, và các biểu đồ khác.
Biểu đồ chẩn đoán giá trị x so với phần dư. Ảnh: Tác giả
Thống kê mô hình hồi quy tuyến tính đơn
Các thống kê mô hình như R-squared và Adjusted R-squared định lượng mức độ biến độc lập giải thích phương sai của biến phụ thuộc. Thống kê F kiểm định ý nghĩa tổng thể của mô hình, và p-value cho các hệ số cho ta biết tác động của từng biến dự báo riêng lẻ.
Cách diễn giải một mô hình hồi quy tuyến tính đơn
Khi diễn giải kết quả hồi quy tuyến tính đơn, ta cần cẩn trọng và chính xác trong cách nói về mối quan hệ giữa biến độc lập và biến phụ thuộc.
Cách diễn giải hệ số góc và tung độ gốc
Đặc biệt, ta cần cẩn trọng khi nói về hai thành phần then chốt: hệ số góc và tung độ gốc.
- Tung độ gốc cho biết nơi đường hồi quy cắt trục tung. Về thực tiễn, nó biểu diễn giá trị của biến phụ thuộc khi biến độc lập bằng không. Cần lưu ý rằng tung độ gốc không phải lúc nào cũng có thể diễn giải. Trong ví dụ trước về cây, mô hình có thể dự đoán một số lá nào đó cho cây có chiều cao bằng không. Việc cố diễn giải tung độ gốc trong bối cảnh đó là vô nghĩa.
- Hệ số góc cho biết biến phụ thuộc kỳ vọng thay đổi bao nhiêu khi biến độc lập tăng thêm một đơn vị. Hệ số góc dương gợi ý mối quan hệ dương, khi biến phụ thuộc tăng cùng với biến độc lập. Hệ số góc âm chỉ điều ngược lại.
Một điều quan trọng cần lưu ý là tương quan không đồng nghĩa với nhân quả. Ngay cả các nhà phân tích quen thuộc với khái niệm này đôi khi vẫn mắc lỗi khi diễn giải hồi quy tuyến tính đơn vì chưa quen với cách dùng từ. Bạn sẽ không nói rằng chiều cao cây gây ra nhiều lá hơn, mà nên nói rằng tăng một đơn vị chiều cao cây có liên quan đến việc tăng một số lượng lá nhất định.
Một cân nhắc quan trọng khác là ngoại suy vượt ra ngoài phạm vi dữ liệu có thể không cho dự đoán tin cậy. Mô hình hồi quy tuyến tính đơn dự đoán số lá từ chiều cao cây có thể không chính xác với cây quá thấp hoặc quá cao, nhất là nếu các cây thấp hay cao không được xem xét khi tạo mô hình của ta.
Cách suy nghĩ về các phép biến đổi
Các mô hình tuyến tính được gọi là tuyến tính vì chúng tuyến tính trong dạng hàm. Cụ thể, trong hồi quy tuyến tính đơn, mối quan hệ giữa biến phản hồi y và biến dự báo x được mô hình hóa như một tổ hợp tuyến tính của biến dự báo và một hằng số. Dù vậy, bạn có thể sẽ ngạc nhiên về những gì có thể làm với hồi quy tuyến tính đơn. Dù mô hình giả định mối quan hệ đường thẳng giữa các biến, bạn có thể đưa vào các phép biến đổi để nắm bắt các mối quan hệ phi tuyến.
Ví dụ, hãy xét mối quan hệ phi tuyến thể hiện sự tăng trưởng của tổ tiên theo thế hệ, nơi số lượng tổ tiên dường như tăng theo hàm mũ qua mỗi thế hệ: hai cha mẹ, bốn ông bà, tám cụ, v.v. Bạn sẽ không kỳ vọng một mô hình tuyến tính nắm bắt được tăng trưởng hàm mũ, nhưng bằng cách dự đoán log(y) thay vì y, bạn tuyến tính hóa mối quan hệ.
Suy nghĩ thêm, bạn nhận ra rằng không có tăng trưởng hàm mũ của tổ tiên do hiện tượng gọi là sụp đổ phả hệ (pedigree collapse), khi tốc độ tăng trưởng chậm lại đáng kể theo thời gian vì các tổ tiên xa xuất hiện nhiều lần trong cây gia đình. Vì lý do này, lấy log(y) có thể đã khuếch đại quá mức mô hình. Giờ, để làm mềm điều này, ta có thể tạo một biến mới là biến đổi căn bậc hai trên x và dùng nó làm biến dự báo. Ở đây, tôi không nói mô hình này là đúng, hay cố gắng diễn giải đầy đủ nó, mà tôi muốn cho thấy rằng log(y) và căn bậc hai của x là các phép biến đổi phi tuyến nhưng đi vào phương trình một cách tuyến tính theo các hệ số, vì vậy ta vẫn có một hồi quy tuyến tính đơn.
Hồi quy tuyến tính đơn trong R và Python
Hãy xét hồi quy tuyến tính đơn trong R và Python.
Lập trình R
R là một lựa chọn tuyệt vời cho hồi quy tuyến tính đơn.
Tự tính hệ số góc và tung độ gốc
Ta có thể tự tìm các hệ số bằng cách tính trung bình và độ lệch chuẩn của các biến.
# Manually calculate the slope and intercept in R
# Sample data
X <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 5, 4, 5)
# Calculate means
mean_X <- mean(X)
mean_y <- mean(y)
# Calculate standard deviations
sd_X <- sd(X)
sd_y <- sd(y)
# Calculate correlation
correlation <- cor(X, y)
# Calculate slope (b1) using the formula: b1 = (correlation * sd_y) / sd_X
slope <- (correlation * sd_y) / sd_X
# Calculate intercept (b0) using the formula: b0 = mean_y - slope * mean_X
intercept <- mean_y - slope * mean_X
# Print the slope and intercept
cat("Slope (b1):", slope, "\n")
cat("Intercept (b0):", intercept, "\n")
# Use the manually calculated coefficients to predict y values
y_pred <- intercept + slope * X
cat("Predicted values:", y_pred, "\n")
Dùng hàm lm()
Trong R, ta có thể tạo hồi quy bằng hàm lm(), có thể dùng ngay mà không cần thư viện nào.
# Fit the model
model <- lm(y ~ X)
# Print the summary of the regression
summary(model)
Python
Python cũng là một lựa chọn tuyệt vời cho hồi quy tuyến tính đơn.
Tự tính hệ số góc và tung độ gốc
Ở đây ta tìm trung bình và độ lệch chuẩn cho mỗi biến.
import numpy as np
# Sample data
X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])
# Calculate means
mean_X = np.mean(X)
mean_y = np.mean(y)
# Calculate standard deviations
sd_X = np.std(X, ddof=1)
sd_y = np.std(y, ddof=1)
# Calculate correlation
correlation = np.corrcoef(X, y)[0, 1]
# Calculate slope (b1) using the formula: b1 = (correlation * sd_y) / sd_X
slope = (correlation * sd_y) / sd_X
# Calculate intercept (b0) using the formula: b0 = mean_y - slope * mean_X
intercept = mean_y - slope * mean_X
# Print the slope and intercept
print(f"Slope (b1): {slope}")
print(f"Intercept (b0): {intercept}")
# Use the manually calculated coefficients to predict y values
y_pred = intercept + slope * X
print(f"Predicted values: {y_pred}")
Dùng statsmodels
statsmodels là một lựa chọn cho hồi quy tuyến tính đơn.
import statsmodels.api as sm
# Adding a constant for the intercept
X = sm.add_constant(X)
# Fit the model
model = sm.OLS(y, X)
results = model.fit()
# Print the summary of the regression
print(results.summary())
Hồi quy tuyến tính đơn, kiểm định t và ANOVA
Hồi quy tuyến tính đơn được dùng trong kiểm định giả thuyết và đóng vai trò trung tâm trong kiểm định t và phân tích phương sai (ANOVA).
Hồi quy tuyến tính đơn và kiểm định t
Một kiểm định t thường được dùng để xác định xem hệ số góc của đường hồi quy có khác không so với 0 một cách có ý nghĩa thống kê hay không. Bài kiểm định này giúp ta hiểu liệu biến độc lập có tác động có ý nghĩa thống kê hay không. Về cơ bản, ta xây dựng giả thuyết không cho rằng hệ số góc bằng 0, nghĩa là không có mối quan hệ tuyến tính, và kiểm định t sẽ đánh giá điều này. Hồi quy tuyến tính đơn liên quan ở đây vì hồi quy tuyến tính đơn với biến độc lập nhị phân tương đương với khác biệt về trung bình như trong kiểm định t.
Hồi quy tuyến tính đơn và ANOVA
Phân tích phương sai (ANOVA) là phương pháp thống kê dùng để đánh giá mức độ phù hợp tổng thể của mô hình và xác định xem biến độc lập có giải thích phần đáng kể của phương sai trong biến phụ thuộc hay không. Cách làm là phân tách tổng phương sai của biến phụ thuộc thành hai thành phần: phương sai được mô hình hồi quy giải thích (giữa nhóm) và phương sai do phần dư hay lỗi (trong nhóm). Kiểm định F trong ANOVA về bản chất kiểm tra xem mô hình hồi quy, xét tổng thể, có phù hợp dữ liệu tốt hơn một mô hình không có biến dự báo hay không. Ví dụ, trong bài toán chiều cao cây và số lá, ANOVA sẽ giúp xác định liệu đưa chiều cao cây vào có cải thiện đáng kể khả năng dự đoán số lá hay không.
Các lựa chọn thay thế OLS trong hồi quy tuyến tính đơn
Chúng ta đã nói rằng OLS là ước lượng phổ biến nhất trong hồi quy tuyến tính đơn, và bài viết này tập trung vào OLS. Tuy nhiên, cần cân nhắc rằng ước lượng OLS nhạy cảm, hay không vững, trước ngoại lệ. Do đó, thêm một điểm dữ liệu có ảnh hưởng mạnh hoặc có đòn bẩy cao có thể làm thay đổi đáng kể hệ số góc và tung độ gốc của đường.
Vì lý do này, tồn tại các lựa chọn phi tham số. Hình minh họa sau cho thấy OLS cùng ba lựa chọn phi tham số: độ lệch tuyệt đối trung vị (MAD), bình phương trung vị nhỏ nhất (LMS), và Theil-Sen. Hãy chú ý rằng hệ số góc và tung độ gốc khác nhau với mỗi ước lượng. Nếu ta thêm một điểm có ảnh hưởng mạnh tại, ví dụ, tọa độ x = 7 và y = 70, thì đường hồi quy OLS sẽ thay đổi nhiều nhất.
Bốn lựa chọn hồi quy tuyến tính đơn. Ảnh: Tác giả
Kết luận
Hồi quy tuyến tính đơn là điểm khởi đầu để hiểu các mối quan hệ phức tạp hơn trong dữ liệu. Để hỗ trợ, DataCamp có các hướng dẫn để bạn tiếp tục luyện tập, bao gồm bài hướng dẫn Essentials of Linear Regression in Python, How to Do Linear Regression in R, và Linear Regression in Excel: A Comprehensive Guide For Beginners.
Những tài nguyên này sẽ hướng dẫn bạn sử dụng các công cụ khác nhau để thực hiện hồi quy tuyến tính và hiểu các ứng dụng của nó. Cuối cùng, nếu bạn sẵn sàng mở rộng kỹ năng, hãy xem Multiple Linear Regression in R: Tutorial With Examples, đề cập đến các mô hình phức tạp hơn với nhiều biến dự báo. Bạn cũng có thể xem video YouTube Regression in Excel Made Easy của chúng tôi để có hướng dẫn thân thiện cho người mới bắt đầu, chuyên về Excel.

Tôi là một cây bút và biên tập viên về khoa học dữ liệu, đã có bài đóng góp cho các nghiên cứu đăng trên tạp chí khoa học. Tôi đặc biệt quan tâm đến đại số tuyến tính, thống kê, R và các chủ đề tương tự. Tôi cũng chơi cờ vua khá thường xuyên!
Câu hỏi thường gặp về hồi quy tuyến tính đơn
Hồi quy tuyến tính đơn là gì?
Hồi quy tuyến tính đơn là một dạng hồi quy bao gồm một biến độc lập (biến giải thích) và một biến phụ thuộc (biến phản hồi). Nó được dùng để dự đoán một kết quả liên tục dựa trên mối quan hệ tuyến tính giữa hai biến này.
Hệ số góc của hồi quy tuyến tính đơn được tính như thế nào?
Hệ số góc có thể tính bằng cách nhân hệ số tương quan (r) với thương số giữa độ lệch chuẩn của biến phụ thuộc (sy) và độ lệch chuẩn của biến độc lập (sx). Điều này cho thấy biến phụ thuộc kỳ vọng thay đổi bao nhiêu cho một đơn vị thay đổi của biến độc lập.
Có những phương pháp nào để tìm các hệ số của mô hình hồi quy?
Các hệ số trong hồi quy tuyến tính đơn có thể tìm bằng các phương pháp như ước lượng bình phương tối thiểu thông thường, giải phương trình chuẩn (dùng đại số tuyến tính), phân rã QR, hoặc gradient descent (dùng giải tích).
Những giả định nào cần thỏa mãn cho hồi quy tuyến tính đơn?
Hồi quy tuyến tính đơn dựa vào một số giả định. Thứ nhất, mối quan hệ giữa các biến phải tuyến tính. Thứ hai, phần dư cần độc lập. Thứ ba, phần dư cần có phương sai không đổi (phương sai đồng nhất). Thứ tư, phần dư lý tưởng nên phân phối chuẩn.
Bạn đánh giá một mô hình hồi quy tuyến tính đơn như thế nào?
Bạn có thể đánh giá mô hình hồi quy tuyến tính đơn bằng các biểu đồ chẩn đoán (như phần dư so với giá trị x và Q-Q plot) và các thống kê mô hình như R-squared, Adjusted R-squared, và thống kê F. Những công cụ này giúp đánh giá mức độ phù hợp của mô hình và độ tin cậy của dự đoán.
