跳至内容

协方差 vs. 相关性:有什么不同?

协方差捕捉原始变动,而相关性对其进行标准化。了解各自的适用场景与时机。
更新 2026年5月4日  · 13分钟

在数据分析中,我们始终试图理解变量之间的关系。您可能已经接触过为此常用的两个统计量:协方差和相关性。它们听起来相似,常被混淆。那么它们有何不同,应如何使用?

两者都描述变量如何共同变化。然而,尽管相似,协方差与相关性回答的问题略有不同,因此在数据流程中的角色也不同。协方差捕捉特征之间的原始联合变动,而相关性将这种关系标准化,便于比较。

让我们看看这种细微差别如何影响在不同情境下的度量选择。

什么是协方差?

协方差衡量两个变量的共同变化方式。它告诉我们,当一个变量增加时,另一个变量是倾向于增加还是减少。协方差有三种情况:

  • 正协方差:当一个变量随另一个变量一起增加。
  • 负协方差:当一个变量增加而另一个变量减少。
  • 接近零的协方差:当不存在一致的方向性关系。

因此,协方差有助于识别变量彼此如何共同移动。

不过,虽然关系方向有用,但协方差的大小并不易于解释。其大小取决于计量单位和变量尺度。例如,将单位从厘米转换为米,可能会显著改变协方差的大小,而不影响潜在关系。

因此,协方差更常作为内部计算的构件,而不是独立的汇总统计量。

什么是相关性?

相关性同时衡量两个变量关系的强度与方向。它在协方差的基础上对大小进行标准化,使单位不再产生影响。

相关系数位于固定区间内,即 +1(完全正相关)到 −1(完全负相关)。为 0 表示不存在线性关系。

这种标准化的刻度使相关性比协方差更易解释。如果我们看到 0.8,就能立即判断变量间存在强关系,而不必考虑原始测量使用了什么单位。

这种标准化也便于在数据集、特征和领域之间进行有意义的比较。这也是相关性在探索性数据分析与特征研究中如此常见的原因。

协方差与相关性:关键差异

协方差与相关性描述了变量关系的相关属性,但服务于不同的分析目的。

在实践中,协方差反映原始的共同变动,而相关性反映同一关系的标准化形式。理解这一区别有助于判断在特定分析任务中使用哪种度量更合适。

 

协方差

相关性

衡量内容

线性关系(未标准化)

线性关系(已标准化)

对尺度的敏感性

由单位决定的尺度

固定范围(−1 至 +1)

单位

有单位

无单位

可解释性

大小难以解释

方向与大小易于解释

可比性

跨数据集可比性有限

可在数据集间直接比较

常见用途

建模与矩阵构建

探索与沟通

优势

保留原始尺度

为比较而标准化

协方差与相关性的示例

假设我们收集了两个变量的数据:身高和体重。我们预期它们相关,因为通常更高的人体重也更大。当我们将身高(厘米)与体重(千克)作图时,可以看到明显的上升趋势。身高增加时,体重也往往增加。

计算协方差后得到一个正值:48.08。它为正表明两个变量同向变化。身高高于平均值时,体重通常也高于平均值。

有趣的是,我们对完全相同的数据更换单位:将身高从厘米换算为米,将体重从千克换算为磅。人没有变,关系没有变,散点图中的模式看起来也一样。但当我们重新计算协方差时,数值变成了 1.06。它仍为正,但大小差异很大,而唯一改变的是单位。

这说明了协方差的重要性质:它反映方向,但大小依赖于尺度。如果通过改变单位拉伸或缩放某个变量,协方差也会相应拉伸或缩放。

现在,使用更换单位前后的相同数据看看相关性。以厘米和千克计时,相关系数为 0.76;转换为米和磅后,仍然是 0.76。

与协方差不同,相关性在衡量变量间关系之前,会对各变量的变异性进行调整。由于这种调整,切换单位时数值不会改变。它只关注点与线性模式贴合的紧密程度,以及该模式是上升还是下降。

这个简单示例凸显了二者的主要差异:协方差同时反映方向与尺度,而相关性反映与尺度无关的关系强度。在实践中,这意味着当需要比较不同尺度上测量的变量间关系时,相关性更可靠;而在关注变动幅度的情境(如建模)中,协方差更为相关。

协方差可能难以解释

如前所述,协方差可以告诉我们两个变量是否同向变化,但其大小难以解释。

主要问题在于协方差取决于变量的尺度,而不仅仅是它们的关系。如果一个或两个变量的数值更大或离散程度更高,协方差往往也更大。

这种敏感性来自两个来源。其一是数据单位。改变单位会改变协方差。以美元与以千美元计量收入会产生截然不同的协方差值,尽管关系完全相同。

其二是变量的变异程度。即使单位不变,范围更宽或离散更大的数据集通常会产生更大的协方差,而具有相同潜在关系的更紧凑数据集则较小。较大的协方差不一定表明关系更强,它也可能只是反映了数据的更大尺度或更高变异性。

由于对尺度敏感,协方差常用于内部用途,如拟合模型,而不直接作为报告指标。

为何相关性更常用

相关性通过标准化变量之间的关系,解决了协方差在可解释性方面的诸多挑战。由于相关系数始终介于 −1 与 +1 之间,其大小具有直接含义:接近 1 或 −1 表示强线性关系,接近 0 表示弱或不存在线性关系。这种标准化也支持跨变量或数据集的直接比较,使相关性更易于沟通和解释。

这些特性使相关性在探索性数据分析、特征关系检查、冗余或多重共线性检测以及结果报告中尤为有用。相关矩阵与热力图也是审视数据集时的首选工具。

但需要说明的是,相关性并不能完全替代协方差。由于相关性移除了尺度的影响,它只反映关系强度,而不反映原始变动。在建模环境中,如主成分分析或多元统计模型中,由协方差捕捉的原始尺度对于理解方差结构与引导算法行为可能很重要。

从线性代数看

到目前为止,我们逐对地考察了变量间的协方差。线性代数展示了如何将这一思想扩展到整个数据集:将数据组织为矩阵。

在基本的数据矩阵中,每一行代表一个观测,每一列代表一个变量。为理解变量间关系,我们可先对数据做中心化,即从每个值中减去该列的均值。这样可确保我们关注的是对典型值的偏离而非绝对值。

将中心化后的数据矩阵与其转置相乘,会得到一个反映变量如何共同变化的结构。该乘积经过缩放后就是协方差矩阵。从线性代数角度看,协方差矩阵总结了数据集各维度上的变异如何分布。

以这种方式思考协方差,有助于解释它为何在数据科学中频繁出现。许多算法,包括主成分分析(PCA)以及其他降维技术,都依赖这种矩阵表示来理解数据中的模式与结构。概念上,协方差矩阵提供了数据集中不同维度如何相互作用的“地图”。

并排的三幅矩阵。从左到右:一个简单的数据矩阵、其中心化版本,以及相同数据的协方差矩阵。

这里我们可以看到四个变量的数据被排列成一个数据矩阵。随后对其进行中心化,并据此构建协方差矩阵。

如果您希望更深入地学习数据科学所需的线性代数,请查看我们的 用 R 学习数据科学的线性代数课程,涵盖理解基于矩阵方法(如协方差)所需的基础知识。

协方差矩阵与相关矩阵

协方差矩阵总结了整个数据集中变量如何共同变化。在实践中,我们常根据是否希望保留原始尺度或对结果进行标准化,使用协方差矩阵或相关矩阵来考察这些关系。

协方差矩阵包含所有变量对之间的协方差。对角线上的数值表示各变量自身的方差,非对角线上的数值反映变量之间的共同变化。由于协方差保留了数据的原始尺度与单位,矩阵捕捉的是原始的变异结构。这使协方差矩阵在建模流程与多元分析中尤为有用。

相关矩阵则对这些关系进行了标准化。每个对角元素都等于 1,因为每个变量与自身完全相关。所有非对角元素介于 −1 与 +1 之间,显示变量之间的相关程度。通过移除尺度效应,相关矩阵更易于人类解读,并支持跨变量的直接比较。它们在探索性数据分析中尤其有用,有助于快速识别特征间强或弱的线性关系。

两个矩阵:同一数据的协方差矩阵与相关矩阵。

在这些矩阵中,我们将四个变量两两比较。我在展示这些矩阵时,喜欢叠加热力图。每个单元格的颜色可以帮助我们一眼看出协方差或相关值的相对大小。

如何将协方差转换为相关性

从概念上讲,相关性是通过对变量间关系进行标准化,由协方差推导而来。您只需用协方差分别除以两个变量的标准差。这一缩放会移除单位与变量大小,得到始终介于 −1 与 +1 之间的标准化度量。正因这一变换,相关系数可以在不同变量或数据集之间直接比较。

在实践中,协方差到相关性的转换通常由大多数统计软件自动完成,因此分析人员很少需要手动计算。不过,了解软件在幕后做了什么始终重要。例如,理解协方差如何被转换为相关性,解释了为何您无法反向转换(至少在没有两个标准差信息的情况下不行)。Correlation 不再包含转换回协方差所需的单位或大小信息。

何时使用协方差与相关性

当数据的尺度与单位具有实际意义,或当您需要数据变异性的原始结构时,协方差最有用。它常用于多元建模、概率模型,以及为基于线性代数的方法构建协方差矩阵。在这些情境中,保留原始变异性可使算法捕捉数据的真实结构并理解各维度如何共同变化。

相比之下,相关性更适合人类解读、跨数据集比较与探索性分析。我喜欢在可视化(如热力图)中使用该指标,以便一眼看到并传达这些关系。由于相关性对关系进行了标准化,它也有助于在需要将所有特征置于可比尺度的重要场景中为技术方法做数据准备。

数据科学与统计中的协方差 vs. 相关性

在同一工作流中,二者常会同时出现。协方差矩阵构成了许多多元技术的数学基础,因为它保留了数据的原始变异性。相关矩阵则常用于探索阶段,在建模之前帮助理解数据集结构。

某些模型可根据目标使用任一统计量。以主成分分析(PCA)为例。当在协方差矩阵上执行 PCA 时,方差较大的变量会对所得主成分施加更大影响。如果尺度差异反映了有意义的变异差异,这有时是可取的。例如,在分析每日股票收益时,更波动的股票可能应当对主成分产生更大影响,因为这种变异反映了真实的市场行为。

使用相关矩阵则是在分解前对变量进行了标准化。各特征被置于相同尺度上,因此不会仅因单位更大或数值范围更广而占据主导地位。当变量以不同单位计量(如身高 cm、体重 kg、血压 mmHg、胆固醇 mg/dL)时,这种做法可能更合适。

两种做法并无绝对优劣。适当的选择取决于尺度差异是否反映有意义的结构,还是仅仅是测量的人为产物。

关于协方差与相关性的常见误解

一个常见误解是,高协方差就必然表示强关系。然而,较大的协方差值可能只是反映了变量的尺度或变异性,而非关系强度。如果您想了解关系强度,确实需要通过查看相关性来进行标准化。

您大概已经听过“相关不代表因果”无数次了!尽管如此,这仍可能是我最常遇到的误解。看到强相关而推断存在因果联系是可以理解的——这是我们祖先用来保命的思维捷径。然而,作为数据从业者,我们必须抵制这种捷径,认识到仅凭相关性不足以证明因果效应。相关性衡量的是关联,而非因果影响,外部因素可能同时驱动两个变量。

另一个非常常见的误解是,协方差与相关性几乎等同。但它们并不可互换。相关性虽源自协方差,却对关系进行了标准化,是一种截然不同的度量,并不总是适合作为协方差在计算中的替代品。

最后,要记住这些统计量仅评估线性关系。即使相关性与协方差较低或接近零,也可能存在非线性模式,因此仅依赖这些统计量可能会忽略数据中的重要结构。我始终建议您先绘图查看数据,再尝试解释统计指标。如果存在明显的非线性关系,这能真正帮到您。

解读变量关系的专业提示

首先,始终关注测量的尺度。单位或变异性的差异会影响诸如协方差等原始度量,因此了解数字所代表的含义很重要。

其次,明确您对数据的需求。当需要保留原始变异性时,协方差最有用。这在建模或构建用于多元分析的协方差矩阵时常常成立。在这些情境下,变动幅度的大小包含有意义的信息。但如果您并不需要这种原始变异,或许会更偏好相关性的标准化与可解释性。

第三,一定、一定、一定要绘制并查看您的数据!可视化检查可以引导分析,并补充统计汇总。您可以使用散点图帮助发现成对模式,或使用矩阵快速总览多变量。

最后,思考度量选择对下游的影响。选择像协方差这样的原始度量,还是像相关性这样的标准化度量,会影响建模结果与解读。请确保您的选择与分析目标一致。

结语

协方差与相关性是密切相关的度量,描述了变量如何共同变化,但用途有别:协方差保留原始尺度,相关性则为比较而标准化。

如果您想进一步学习如何探索数据,请查看Python 探索性数据分析教程。若想了解如何判断您的相关性是否真的反映因果,请查看R 中的假设检验

FAQs

协方差与相关性有什么区别?

两者都衡量变量如何共同变化,但协方差保留尺度和单位,而相关性将其标准化以便更易比较。

高协方差是否等同于强关系?

不一定。协方差的大小强烈受尺度与离散程度影响。若要判断关系强度,应优先使用相关性。

协方差或相关性能用于非线性关系吗?

不可靠。这些统计量仅用于评估线性关系。

为什么相关性没有单位?

将协方差转换为相关性时,单位被抵消掉,得到无单位的相关系数。

我的 PCA 应该使用协方差还是相关性?

PCA 可以使用协方差矩阵或相关矩阵完成。若变量之间的数量级差异具有意义且可比较,协方差矩阵会捕捉这种变异;但若变量单位不可直接比较,相关矩阵可对关系进行标准化。选择取决于您使用的变量及目标。

主题

与 DataCamp 一起学习

Courses

Linear Algebra for Data Science in R

4小时
20.7K
This course is an introduction to linear algebra, one of the most important mathematical topics underpinning data science.
查看详情Right Arrow
开始课程
查看更多Right Arrow