Chuyển đến nội dung chính

Hiệp phương sai và Tương quan: Khác nhau thế nào?

Hiệp phương sai ghi nhận biến thiên thô trong khi tương quan chuẩn hóa nó. Tìm hiểu nên dùng cái nào và khi nào.
Đã cập nhật 4 thg 5, 2026  · 13 phút đọc

Trong phân tích dữ liệu, chúng ta luôn cố gắng hiểu các biến liên hệ với nhau như thế nào. Có lẽ bạn đã gặp hai thước đo thống kê thường dùng cho mục đích này: hiệp phương sai và tương quan. Hai thước đo này nghe có vẻ giống nhau và thường bị nhầm lẫn. Vậy chúng khác nhau ở điểm nào, và nên sử dụng ra sao?

Cả hai đều mô tả cách các biến cùng chuyển động. Tuy vậy, dù tương đồng, hiệp phương sai và tương quan trả lời những câu hỏi hơi khác nhau, do đó đóng vai trò khác nhau trong quy trình dữ liệu. Hiệp phương sai ghi nhận độ biến thiên kết hợp thô giữa các đặc trưng, còn tương quan chuẩn hóa mối quan hệ đó để dễ so sánh hơn.

Hãy cùng xem sự khác biệt tinh tế này ảnh hưởng thế nào đến việc lựa chọn thước đo trong các hoàn cảnh khác nhau.

Hiệp phương sai là gì?

Hiệp phương sai đo cách hai biến cùng biến động. Nó cho biết liệu khi một biến tăng thì biến kia có xu hướng tăng hay giảm. Có ba loại hiệp phương sai:

  • Hiệp phương sai dương: Khi một biến tăng cùng lúc biến còn lại cũng tăng.
  • Hiệp phương sai âm: Khi một biến tăng còn biến kia giảm.
  • Hiệp phương sai xấp xỉ 0: Khi không có mối quan hệ có hướng nhất quán.

Điều này khiến hiệp phương sai hữu ích để phát hiện cách các biến chuyển động tương hỗ.

Tuy nhiên, dù hướng của mối quan hệ rất hữu ích, việc diễn giải độ lớn của hiệp phương sai lại không đơn giản. Độ lớn phụ thuộc vào đơn vị đo lường cũng như thang đo của các biến. Việc chuyển đổi đơn vị, ví dụ từ xen-ti-mét sang mét, có thể làm thay đổi đáng kể độ lớn hiệp phương sai mà không ảnh hưởng đến mối quan hệ cơ bản.

Vì lý do này, hiệp phương sai thường được dùng như một thành phần tính toán nội bộ hơn là một thống kê tóm tắt độc lập.

Tương quan là gì?

Tương quan đo cả độ mạnh lẫn hướng của mối quan hệ giữa hai biến. Nó xây dựng dựa trên hiệp phương sai bằng cách chuẩn hóa độ lớn để đơn vị không còn ảnh hưởng.

Giá trị tương quan nằm trong một khoảng cố định từ +1 (mối quan hệ dương hoàn hảo) đến -1 (mối quan hệ âm hoàn hảo). Giá trị tương quan bằng 0 cho biết không có mối quan hệ tuyến tính.

Thang đo chuẩn hóa này khiến tương quan dễ diễn giải hơn hiệp phương sai. Nếu thấy giá trị 0,8, ta có thể ngay lập tức biết rằng tồn tại mối quan hệ mạnh giữa các biến, bất kể đơn vị đo ban đầu là gì.

Chuẩn hóa cũng cho phép so sánh có ý nghĩa giữa các tập dữ liệu, đặc trưng và miền. Đây là lý do tương quan thường được dùng trong phân tích dữ liệu thăm dò và khảo sát đặc trưng.

Hiệp phương sai và Tương quan: Khác biệt then chốt

Hiệp phương sai và tương quan mô tả các thuộc tính liên quan của mối quan hệ giữa biến, nhưng phục vụ mục đích phân tích khác nhau.

Trong thực tế, hiệp phương sai phản ánh độ đồng biến thô, còn tương quan phản ánh mối quan hệ đó ở dạng đã chuẩn hóa. Hiểu rõ khác biệt này giúp xác định thước đo phù hợp hơn cho từng tác vụ phân tích.

 

Hiệp phương sai

Tương quan

Đo lường

Quan hệ tuyến tính (chưa chuẩn hóa)

Quan hệ tuyến tính (đã chuẩn hóa)

Nhạy cảm với thang đo

Thang đo phụ thuộc vào đơn vị

Khoảng cố định (−1 đến +1)

Đơn vị

Có đơn vị

Không có đơn vị

Dễ diễn giải

Độ lớn khó diễn giải

Hướng và độ lớn dễ diễn giải

Khả năng so sánh

Hạn chế khi so sánh giữa các tập dữ liệu

So sánh trực tiếp giữa các tập dữ liệu

Trường hợp dùng phổ biến

Mô hình hóa và xây ma trận

Khám phá và truyền đạt

Ưu điểm

Giữ nguyên thang đo gốc

Chuẩn hóa để so sánh

Ví dụ: Hiệp phương sai và Tương quan

Giả sử chúng ta thu thập dữ liệu về hai biến: chiều cao và cân nặng. Ta kỳ vọng chúng có liên quan, vì nhìn chung người cao hơn có xu hướng nặng hơn. Khi vẽ chiều cao theo xen-ti-mét so với cân nặng theo ki-lô-gam, ta thấy xu hướng tăng rõ rệt. Khi chiều cao tăng, cân nặng cũng có xu hướng tăng.

Khi tính hiệp phương sai, ta được một giá trị dương: 48,08. Việc nó dương cho biết hai biến cùng biến động theo một hướng. Khi chiều cao cao hơn mức trung bình, cân nặng thường cũng cao hơn mức trung bình.

Giờ đây điều thú vị xuất hiện. Hãy lấy đúng bộ dữ liệu đó và đổi đơn vị. Ta sẽ đổi chiều cao từ xen-ti-mét sang mét, và cân nặng từ ki-lô-gam sang pound. Con người không thay đổi. Mối quan hệ không thay đổi. Mẫu hình trên biểu đồ phân tán trông vẫn giống nhau. Nhưng khi tính lại hiệp phương sai, con số đã khác: 1,06. Nó vẫn dương, nhưng độ lớn rất khác. Và điều duy nhất ta thay đổi là đơn vị.

Điều này cho thấy một thuộc tính quan trọng của hiệp phương sai: nó ghi nhận hướng, nhưng độ lớn phụ thuộc vào thang đo. Nếu ta kéo giãn hoặc thu nhỏ một biến bằng cách đổi đơn vị, hiệp phương sai cũng giãn hoặc co theo.

Bây giờ, hãy xem tương quan với cùng dữ liệu trước và sau khi đổi đơn vị. Tương quan khi dùng xen-ti-mét và ki-lô-gam là 0,76. Sau khi đổi sang mét và pound, nó vẫn là 0,76.

Khác với hiệp phương sai, tương quan điều chỉnh theo độ biến thiên của từng biến trước khi đo mối quan hệ giữa chúng. Nhờ điều chỉnh đó, giá trị không đổi khi ta chuyển đổi đơn vị. Nó chỉ tập trung vào mức độ các điểm bám theo một mẫu tuyến tính và độ dốc của mẫu đó đi lên hay đi xuống.

Ví dụ đơn giản này làm nổi bật khác biệt chính giữa hai chỉ số: hiệp phương sai phản ánh cả hướng và thang đo, trong khi tương quan phản ánh độ mạnh của mối quan hệ độc lập với thang đo. Trên thực tế, điều này có nghĩa là tương quan đáng tin cậy hơn để so sánh các mối quan hệ giữa những biến được đo trên thang đo khác nhau, còn hiệp phương sai phù hợp hơn trong bối cảnh mà độ lớn biến thiên có ý nghĩa, như khi mô hình hóa.

Hiệp phương sai có thể khó diễn giải

Như đã bàn, hiệp phương sai cho biết hai biến có chuyển động cùng chiều hay không, nhưng độ lớn của nó khó diễn giải.

Vấn đề chính là hiệp phương sai phụ thuộc vào thang đo của các biến, không chỉ vào mối quan hệ giữa chúng. Nếu giá trị của một hoặc cả hai biến lớn hơn hoặc phân tán rộng hơn, hiệp phương sai cũng có xu hướng lớn hơn.

Độ nhạy này đến từ hai nguồn. Thứ nhất là đơn vị dữ liệu. Thay đổi đơn vị làm thay đổi hiệp phương sai. Đo thu nhập bằng đô-la so với hàng nghìn đô-la tạo ra các giá trị hiệp phương sai rất khác nhau, dù mối quan hệ là giống hệt.

Nguồn thứ hai là mức độ biến thiên của biến. Ngay cả khi đơn vị giữ nguyên, một tập dữ liệu có phạm vi rộng hoặc độ phân tán lớn thường sẽ tạo ra hiệp phương sai lớn hơn so với tập dữ liệu chặt hơn với cùng mối quan hệ cơ bản. Hiệp phương sai lớn không nhất thiết cho thấy mối quan hệ mạnh. Nó có thể chỉ phản ánh thang đo lớn hoặc độ biến thiên cao trong dữ liệu.

Do nhạy cảm với thang đo, hiệp phương sai thường được dùng nội bộ, như để khớp mô hình, thay vì được báo cáo trực tiếp.

Vì sao tương quan được dùng thường xuyên hơn

Tương quan khắc phục nhiều thách thức diễn giải của hiệp phương sai bằng cách chuẩn hóa mối quan hệ giữa các biến. Vì giá trị tương quan luôn nằm trong khoảng −1 đến +1, độ lớn trở nên có ý nghĩa ngay: các giá trị gần 1 hoặc −1 cho thấy mối quan hệ tuyến tính mạnh, còn các giá trị gần 0 cho thấy mối quan hệ tuyến tính yếu hoặc không có. Chuẩn hóa cũng cho phép so sánh trực tiếp giữa các biến hoặc tập dữ liệu, làm cho tương quan dễ truyền đạt và diễn giải hơn.

Những thuộc tính này khiến tương quan đặc biệt hữu ích cho phân tích dữ liệu thăm dò, kiểm tra mối quan hệ giữa các đặc trưng, phát hiện dư thừa hoặc đa cộng tuyến, và báo cáo kết quả. Ma trận tương quan và heatmap cũng hữu ích như các công cụ rà soát ban đầu khi xem xét tập dữ liệu.

Tuy vậy, tương quan không thể thay thế hoàn toàn hiệp phương sai. Vì tương quan loại bỏ ảnh hưởng của thang đo, nó chỉ phản ánh độ mạnh của mối quan hệ, không phải biến thiên thô. Trong bối cảnh mô hình hóa, như phân tích thành phần chính hoặc các mô hình thống kê đa biến, thang đo gốc do hiệp phương sai nắm bắt có thể quan trọng để hiểu cấu trúc phương sai và định hướng hành vi thuật toán.

Góc nhìn Đại số tuyến tính

Đến đây, ta đã xem hiệp phương sai giữa các biến theo từng cặp. Đại số tuyến tính cho thấy cách mở rộng ý tưởng đó cho toàn bộ tập dữ liệu cùng lúc. Ta có thể làm điều này bằng cách sắp xếp dữ liệu thành ma trận.

Trong một ma trận dữ liệu cơ bản, mỗi hàng là một quan sát, mỗi cột là một biến. Để hiểu mối quan hệ giữa các biến, trước hết ta có thể trung tâm hóa dữ liệu bằng cách trừ đi giá trị trung bình của cột khỏi từng giá trị. Bước này đảm bảo ta tập trung vào độ lệch so với giá trị điển hình thay vì giá trị tuyệt đối.

Nhân ma trận dữ liệu đã trung tâm hóa với chuyển vị của nó tạo ra một cấu trúc ghi nhận cách các biến cùng biến động. Tích này, sau khi chia tỷ lệ, chính là ma trận hiệp phương sai. Dưới góc độ đại số tuyến tính, ma trận hiệp phương sai tóm tắt cách phương sai được phân bố trên các chiều của tập dữ liệu.

Nghĩ về hiệp phương sai theo cách này giúp giải thích vì sao nó xuất hiện thường xuyên trong khoa học dữ liệu. Nhiều thuật toán, bao gồm phân tích thành phần chính (PCA) và các kỹ thuật giảm chiều khác, dựa vào biểu diễn ma trận này để hiểu các mẫu và cấu trúc trong dữ liệu. Về mặt khái niệm, ma trận hiệp phương sai cung cấp một bản đồ về cách các chiều khác nhau của tập dữ liệu tương tác.

Ba ma trận đặt cạnh nhau. Từ trái sang phải: một ma trận dữ liệu đơn giản, một phiên bản đã trung tâm hóa của ma trận trước, và một ma trận hiệp phương sai của cùng dữ liệu.

Ở đây ta thấy dữ liệu cho bốn biến được sắp xếp trong một ma trận dữ liệu. Sau đó nó được trung tâm hóa và dùng để tạo một ma trận hiệp phương sai.

Nếu bạn muốn tìm hiểu sâu hơn về đại số tuyến tính cho khoa học dữ liệu, hãy xem khóa học Linear Algebra for Data Science in R, khóa này bao quát các nền tảng bạn cần để hiểu những phương pháp dựa trên ma trận như hiệp phương sai.

Ma trận hiệp phương sai và tương quan

Ma trận hiệp phương sai tóm tắt cách các biến cùng biến động trên toàn bộ tập dữ liệu. Trong thực tế, chúng ta thường xem xét các mối quan hệ này bằng ma trận hiệp phương sai hoặc ma trận tương quan, tùy vào việc ta muốn giữ nguyên thang đo gốc hay chuẩn hóa kết quả.

Ma trận hiệp phương sai chứa hiệp phương sai giữa mọi cặp biến. Các số trên đường chéo thể hiện phương sai trong từng biến, còn các số ngoài đường chéo phản ánh cách các biến thay đổi cùng nhau. Vì hiệp phương sai giữ nguyên thang đo và đơn vị của dữ liệu, ma trận này ghi nhận cấu trúc biến thiên thô. Điều này khiến ma trận hiệp phương sai đặc biệt hữu ích trong quy trình mô hình hóa và phân tích đa biến.

Ngược lại, ma trận tương quan chuẩn hóa các mối quan hệ đó. Mỗi phần tử trên đường chéo bằng 1, vì mỗi biến tương quan hoàn hảo với chính nó. Tất cả các giá trị ngoài đường chéo nằm giữa −1 và +1, biểu thị tương quan giữa các biến. Bằng cách loại bỏ ảnh hưởng thang đo, ma trận tương quan dễ diễn giải hơn với con người và cho phép so sánh trực tiếp giữa các biến. Chúng đặc biệt hữu ích trong phân tích dữ liệu thăm dò và để nhanh chóng xác định các mối quan hệ tuyến tính mạnh hoặc yếu giữa các đặc trưng.

Hai ma trận: một ma trận hiệp phương sai và một ma trận tương quan cho cùng dữ liệu.

Trong các ma trận này, chúng ta đang so sánh bốn biến với nhau. Tôi thường thêm lớp phủ heatmap khi trình bày các ma trận này. Màu sắc của mỗi ô giúp chúng ta thấy ngay bằng mắt thường độ lớn tương đối của các giá trị hiệp phương sai hoặc tương quan.

Cách chuyển từ Hiệp phương sai sang Tương quan

Về mặt khái niệm, tương quan được suy ra từ hiệp phương sai bằng cách chuẩn hóa mối quan hệ giữa các biến. Bạn chỉ cần chia hiệp phương sai cho độ lệch chuẩn của mỗi biến. Phép chia tỷ lệ này loại bỏ đơn vị và độ lớn của các biến, tạo ra một thước đo chuẩn hóa luôn nằm giữa −1 và +1. Sự biến đổi này là lý do vì sao các giá trị tương quan có thể so sánh trực tiếp giữa các biến hoặc tập dữ liệu khác nhau.

Trên thực tế, việc chuyển hiệp phương sai sang tương quan được thực hiện tự động trong hầu hết phần mềm thống kê, nên nhà phân tích hiếm khi cần tính thủ công. Tuy nhiên, luôn quan trọng là hiểu phần mềm làm gì phía sau hậu trường. Ví dụ, hiểu cách hiệp phương sai được chuyển thành tương quan giải thích vì sao bạn không thể chuyển ngược lại direction(it least not without information for the standard deviation of both). Correlation không còn chứa đơn vị hoặc thông tin về độ lớn cần thiết để chuyển về hiệp phương sai.

Khi nào dùng Hiệp phương sai và Tương quan

Hiệp phương sai hữu ích nhất khi thang đo và đơn vị dữ liệu có ý nghĩa hoặc khi bạn cần cấu trúc biến thiên thô của dữ liệu. Nó thường được dùng trong mô hình hóa đa biến, mô hình xác suất và khi xây dựng ma trận hiệp phương sai cho các phương pháp dựa trên đại số tuyến tính. Trong các bối cảnh này, việc giữ nguyên biến thiên gốc cho phép thuật toán nắm bắt cấu trúc thực của dữ liệu và hiểu cách các chiều biến thiên cùng nhau.

Ngược lại, tương quan phù hợp hơn cho việc con người diễn giải, so sánh giữa các tập dữ liệu và phân tích thăm dò. Tôi thích dùng chỉ số này trong trực quan hóa, như heatmap, để có thể nhìn và truyền đạt các mối quan hệ này ngay lập tức. Vì tương quan chuẩn hóa mối quan hệ, nó cũng hữu ích khi chuẩn bị dữ liệu cho các kỹ thuật mà việc đặt tất cả đặc trưng trên thang đo so sánh được là quan trọng.

Hiệp phương sai so với tương quan trong khoa học dữ liệu và thống kê

Thường thì cả hai thước đo xuất hiện trong cùng một quy trình. Các ma trận hiệp phương sai tạo nền tảng toán học cho nhiều kỹ thuật đa biến vì chúng giữ lại biến thiên gốc của dữ liệu. Còn ma trận tương quan thường được dùng trong giai đoạn thăm dò để hiểu cấu trúc tập dữ liệu trước khi mô hình hóa.

Một số mô hình có thể dùng một trong hai thống kê, tùy mục tiêu. Hãy xem phân tích thành phần chính (PCA). Khi PCA được thực hiện trên ma trận hiệp phương sai, các biến có phương sai lớn hơn tự nhiên sẽ ảnh hưởng nhiều hơn đến các thành phần thu được. Đôi khi điều này là mong muốn nếu khác biệt thang đo phản ánh khác biệt biến thiên có ý nghĩa. Ví dụ, nếu bạn phân tích lợi nhuận cổ phiếu theo ngày, một cổ phiếu biến động mạnh hơn có thể phù hợp để định hình các thành phần chính vì biến thiên đó phản ánh hành vi thực của thị trường.

Dùng ma trận tương quan thay vào đó sẽ chuẩn hóa các biến trước khi phân rã. Mỗi đặc trưng được đặt trên cùng một thang đo, nên không biến nào chi phối chỉ vì có đơn vị lớn hơn hoặc phạm vi số rộng hơn. Cách tiếp cận này phù hợp hơn khi các biến được đo bằng những đơn vị khác nhau, như chiều cao (cm), cân nặng (kg), huyết áp (mmHg) và cholesterol (mg/dL).

Không có cách nào tốt hơn một cách phổ quát. Lựa chọn phù hợp phụ thuộc vào việc khác biệt thang đo phản ánh cấu trúc có ý nghĩa hay chỉ là tạo tác của phép đo.

Những hiểu lầm thường gặp về Hiệp phương sai và Tương quan

Một ngộ nhận phổ biến là hiệp phương sai cao tự động cho thấy mối quan hệ mạnh. Tuy nhiên, các giá trị hiệp phương sai lớn có thể chỉ phản ánh thang đo hoặc độ biến thiên của biến chứ không phải độ mạnh của mối quan hệ. Nếu bạn muốn biết độ mạnh của mối quan hệ, bạn cần chuẩn hóa nó bằng cách xem tương quan.

Có lẽ bạn đã nghe cụm từ “tương quan không hàm ý quan hệ nhân quả” hàng triệu lần! Dẫu vậy, đây vẫn có lẽ là ngộ nhận phổ biến nhất mà tôi gặp. Dễ hiểu khi nhìn một tương quan mạnh và cho rằng có liên kết nhân quả. Đó là lối tắt mà bộ não chúng ta dùng hàng thiên niên kỷ để giúp tổ tiên sinh tồn. Tuy nhiên, với tư cách người làm dữ liệu, chúng ta phải chống lại lối tắt này và nhận ra rằng tương quan đơn thuần là không đủ để chứng minh tác động nhân quả. Tương quan đo sự kết hợp, không phải ảnh hưởng nhân quả, và các yếu tố bên ngoài có thể đồng thời chi phối cả hai biến.

Một ngộ nhận rất phổ biến khác là hiệp phương sai và tương quan về cơ bản là như nhau. Tuy nhiên, chúng không thể thay thế cho nhau. Dù tương quan được suy ra từ hiệp phương sai, nó chuẩn hóa mối quan hệ, khiến đây là một chỉ số khác biệt rõ rệt và không phải lúc nào cũng là lựa chọn thay thế phù hợp cho hiệp phương sai trong tính toán.

Cuối cùng, cần nhớ rằng các thống kê này chỉ đánh giá mối quan hệ tuyến tính. Các mẫu phi tuyến có thể tồn tại ngay cả khi tương quan và hiệp phương sai thấp hoặc gần 0, vì vậy chỉ dựa vào các thống kê này có thể bỏ sót cấu trúc quan trọng trong dữ liệu. Tôi luôn khuyên bạn hãy vẽ và quan sát dữ liệu trước khi cố gắng diễn giải các thước đo thống kê. Điều này thực sự có thể cứu bạn nếu tồn tại một mối quan hệ phi tuyến rõ ràng.

Mẹo chuyên môn để diễn giải mối quan hệ giữa các biến

Đầu tiên, luôn cân nhắc thang đo đo lường của bạn. Khác biệt về đơn vị hoặc độ biến thiên có thể ảnh hưởng đến các thước đo thô như hiệp phương sai, vì vậy điều quan trọng là hiểu các con số đại diện cho điều gì.

Thứ hai, xác định bạn cần gì từ dữ liệu. Hiệp phương sai hữu ích nhất khi việc giữ nguyên biến thiên thô là quan trọng. Điều này thường đúng trong mô hình hóa hoặc khi xây dựng ma trận hiệp phương sai cho phân tích đa biến. Trong các bối cảnh này, độ lớn biến thiên mang thông tin có ý nghĩa. Nhưng nếu bạn không cần biến thiên thô đó, bạn có thể ưu tiên sự chuẩn hóa và dễ diễn giải của tương quan.

Thứ ba, luôn luôn luôn vẽ và xem dữ liệu của bạn! Quan sát trực quan có thể định hướng phân tích và bổ trợ cho các tóm tắt thống kê. Bạn có thể dùng biểu đồ phân tán để phát hiện các mẫu theo cặp, hoặc ma trận để có cái nhìn nhanh về nhiều biến cùng lúc.

Cuối cùng, nghĩ về tác động xuôi dòng của lựa chọn đo lường. Chọn giữa thước đo thô như hiệp phương sai và thước đo chuẩn hóa như tương quan sẽ ảnh hưởng đến kết quả mô hình và diễn giải của bạn. Hãy đảm bảo lựa chọn của bạn phù hợp với mục tiêu phân tích.

Kết luận

Hiệp phương sai và tương quan là những thước đo có liên hệ chặt chẽ dùng để mô tả cách các biến cùng biến động, nhưng chúng phục vụ mục đích khác biệt: hiệp phương sai giữ nguyên thang đo gốc, còn tương quan chuẩn hóa để so sánh.

Nếu bạn muốn tìm hiểu thêm về cách khám phá dữ liệu, hãy xem Python Exploratory Data Analysis Tutorial. Để học cách xác định liệu tương quan của bạn có thực sự cho thấy quan hệ nhân quả hay không, hãy xem Hypothesis Testing in R.


Amberle McKee's photo
Author
Amberle McKee
LinkedIn

Tôi là Tiến sĩ với 13 năm kinh nghiệm làm việc với dữ liệu trong môi trường nghiên cứu sinh học. Tôi phát triển phần mềm bằng nhiều ngôn ngữ lập trình, bao gồm Python, MATLAB và R. Tôi đam mê chia sẻ tình yêu học hỏi của mình với mọi người.

Câu hỏi thường gặp

Sự khác nhau giữa hiệp phương sai và tương quan là gì?

Dù cả hai đều đo cách các biến cùng biến động, hiệp phương sai giữ nguyên thang đo và đơn vị, còn tương quan chuẩn hóa chúng để dễ so sánh hơn.

Hiệp phương sai cao có đồng nghĩa với mối quan hệ mạnh không?

Không hẳn. Độ lớn của hiệp phương sai bị ảnh hưởng mạnh bởi thang đo và độ phân tán. Để xác định độ mạnh của mối quan hệ, tương quan là thống kê phù hợp hơn.

Hiệp phương sai hoặc tương quan có dùng cho mối quan hệ phi tuyến không?

Không đáng tin cậy. Các thống kê này chỉ nhằm đánh giá mối quan hệ tuyến tính.

Vì sao tương quan không có đơn vị?

Khi chuyển từ hiệp phương sai sang tương quan, các đơn vị bị triệt tiêu, để lại một con số không có đơn vị cho tương quan.

Tôi nên dùng hiệp phương sai hay tương quan cho PCA?

PCA có thể được thực hiện bằng ma trận hiệp phương sai hoặc ma trận tương quan. Nếu khác biệt về độ lớn giữa các biến là có ý nghĩa và có thể so sánh, ma trận hiệp phương sai sẽ ghi nhận biến thiên đó. Tuy nhiên, nếu đơn vị của các biến không trực tiếp so sánh được, ma trận tương quan sẽ chuẩn hóa các mối quan hệ. Bạn chọn cách nào phụ thuộc vào các biến bạn dùng và mục tiêu của bạn.

Chủ đề

Học cùng DataCamp

Courses

Đại số tuyến tính cho Khoa học dữ liệu với R

4 giờ
21K
Xem chi tiếtRight Arrow
Bắt đầu khóa học
Xem thêmRight Arrow
Có liên quan

blogs

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Mô hình mới nhất của Anthropic dẫn đầu bảng xếp hạng về mã hóa theo hướng tác nhân và suy luận phức tạp. Thêm nữa, nó có cửa sổ ngữ cảnh 1M.
Matt Crabtree's photo

Matt Crabtree

10 phút

Xem thêmXem thêm