Courses
データ分析では、変数同士がどのように関係しているかを常に理解しようとします。この目的でよく使われる統計量が2つあります。共分散と相関です。名前が似ているため、しばしば混同されます。では、この2つは何が違い、どう使い分ければよいのでしょうか。
どちらも変数が一緒にどのように動くかを記述します。しかし、似ているようでいて、共分散と相関が答える問いは少し異なり、データのワークフローで果たす役割も違います。共分散は特徴量間の生の共同変動を捉え、相関はその関係を標準化して比較しやすくします。
この微妙な違いが、状況に応じてどちらの指標を使うかにどのように影響するかを見ていきましょう。
共分散とは?
共分散は、2つの変数がどのように一緒に動くかを測定します。ある変数が増加するとき、もう一方の変数が増加しやすいのか、減少しやすいのかを教えてくれます。共分散には3つのタイプがあります。
- 正の共分散:一方の変数が増えると、もう一方も増える。
- 負の共分散:一方の変数が増えると、もう一方は減る。
- ゼロ付近の共分散:一貫した方向性のある関係がない。


このため、共分散は変数同士がどのように連動するかを検出するのに有用です。
ただし、関係の方向がわかるのは有用ですが、共分散の大きさを解釈するのは簡単ではありません。大きさは測定単位や変数のスケールに依存します。たとえば、センチメートルからメートルに単位を変えると、基礎的な関係は変わらないのに共分散の大きさは大きく変わりえます。
このため、共分散は単独の要約統計として報告されるよりも、内部計算の構成要素として使われることが多いのです。
相関とは?
相関は、2つの変数の関係の強さと方向の両方を測ります。共分散を基に、その大きさを標準化し、単位の影響を受けないようにします。
相関の値は+1(完全な正の関係)から-1(完全な負の関係)の固定範囲に収まります。相関が0であれば、線形関係がないことを示します。


この標準化されたスケールにより、相関は共分散より解釈しやすくなります。たとえば0.8という値を見れば、元の測定単位に関係なく、変数間に強い関係があるとすぐにわかります。
この標準化によって、データセット・特徴量・領域をまたいだ有意な比較も可能になります。探索的データ分析や特徴量の調査で相関がよく使われるのはこのためです。
共分散と相関:主な違い
共分散と相関は、変数間の関係に関する関連した特性を記述しますが、分析上の目的は異なります。
実務的には、共分散は生の共同変動を、相関はその関係を標準化した形で表します。この違いを理解することで、与えられた分析タスクにどちらが適しているかを判断できます。
|
共分散 |
相関 |
|
|
測定するもの |
線形関係(非標準化) |
線形関係(標準化) |
|
スケールへの感度 |
単位によりスケールが決まる |
固定範囲(−1〜+1) |
|
単位 |
単位あり |
無単位 |
|
解釈しやすさ |
大きさは解釈が難しい |
方向と大きさは解釈しやすい |
|
比較可能性 |
データセット間の比較は限定的 |
データセット間で直接比較可能 |
|
一般的な用途 |
モデリングや行列構築 |
探索とコミュニケーション |
|
利点 |
元のスケールを保持 |
比較のために標準化 |
共分散と相関の例
身長と体重という2つの変数のデータを集めたとします。一般に背が高い人は体重も重い傾向があるため、両者は関係していると予想できます。身長(センチメートル)と体重(キログラム)の散布図を描くと、明確な上昇傾向が見られます。身長が高いほど、体重も増える傾向があります。
共分散を計算すると、48.08という正の値になります。正であることは、2つの変数が同じ方向に動くことを示します。身長が平均より高いとき、体重も平均より高いことが多いのです。
ここからが興味深いところです。まったく同じデータの単位だけを変えてみます。身長をセンチメートルからメートルに、体重をキログラムからポンドに換算します。人は変わっていません。関係も変わっていません。散布図のパターンも同じに見えます。しかし、共分散を計算し直すと、値は1.06に変わります。依然として正ですが、大きさは大きく異なります。変えたのは単位だけです。


これは共分散の重要な性質を示しています。方向は捉えられますが、その大きさはスケールに依存します。単位を変えて変数のスケールを伸縮させれば、共分散も同様に伸縮します。
次に、同じデータで単位変換の前後における相関を見てみます。センチメートルとキログラムでの相関は0.76。メートルとポンドに変換した後でも、相関は0.76のままです。
共分散と異なり、相関は各変数のばらつきを補正した上で両者の関係を測ります。そのため、単位を変えても値は変わりません。点がどれだけ厳密に直線的なパターンに従うか、そしてその傾きが上向きか下向きかだけに焦点を当てます。
このシンプルな例は、両指標の主な違いを浮き彫りにします。共分散は方向とスケールの両方を反映し、相関はスケールから独立した関係の強さを反映します。実務では、相関は異なるスケールで測定された変数間の関係を比較するのにより信頼でき、共分散はモデリングのように変動の大きさ自体が重要な文脈で有用です。
共分散は解釈が難しいことがある
述べてきたように、共分散は2つの変数が同じ方向に動くかどうかを教えてくれますが、その大きさの解釈は難しいものです。
主な問題は、共分散が変数同士の関係だけでなくスケールにも依存することです。一方または両方の変数の値が大きかったり、広く散らばっていたりすると、共分散も大きくなりがちです。
この感度には2つの要因があります。1つ目はデータの単位です。単位を変えると共分散も変わります。収入をドルで測るか、千ドルで測るかでは、関係性は同じでも共分散の値は大きく異なります。
2つ目は変数自体のばらつきの多さです。単位が同じでも、範囲が広い・分散が大きいデータセットは、同じ基礎的関係でも、範囲が狭いデータセットより一般に大きな共分散を生みます。共分散が大きいからといって、必ずしも強い関係を意味しません。単にスケールが大きい、あるいはデータのばらつきが大きいことを反映しているだけかもしれません。
このようにスケールに敏感であるため、共分散は直接報告するより、モデルの当てはめなど内部で使われることが多いのです。
相関がより頻繁に使われる理由
相関は、変数同士の関係を標準化することで、共分散の解釈の難しさの多くを解消します。相関の値は常に−1から+1の間にあるため、大きさは直感的に意味を持ちます。1や−1に近い値は強い線形関係、0に近い値は弱い、または線形関係がないことを示します。この標準化により、変数間やデータセット間で直接比較でき、相関は伝達・解釈しやすくなります。
これらの特性から、相関は探索的データ分析、特徴量間の関係確認、冗長性や多重共線性の検出、結果の報告に特に有用です。データセットを概観する際の第一歩として、相関行列やヒートマップも役立ちます。
とはいえ、相関が共分散の完全な代替になるわけではありません。相関はスケールの効果を取り除くため、関係の強さのみを反映し、生の変動は反映しません。主成分分析や多変量統計モデルなどのモデリングでは、共分散が捉える元のスケールが、分散構造の理解やアルゴリズムの挙動の指針として重要な場合があります。
線形代数の視点
これまでは変数のペアごとに共分散を見てきました。線形代数を使うと、この考え方をデータセット全体に拡張できます。データを行列に並べるのです。
基本的なデータ行列では、各行が観測、各列が変数を表します。変数間の関係を理解するには、まず各列の平均を引いてデータを中心化します。これにより、絶対値ではなく典型値からのずれに注目できるようになります。
中心化したデータ行列にその転置を掛けると、変数がどのように一緒に動くかを捉える構造が得られます。この積をスケーリングしたものが共分散行列です。線形代数の観点では、共分散行列はデータセットの各次元にわたる変動の分布を要約します。
このように共分散を捉えると、データサイエンスで頻出する理由がわかります。主成分分析(PCA)などの多くのアルゴリズムや他の次元削減手法は、この行列表現に依存してデータのパターンや構造を理解します。概念的には、共分散行列はデータセットの異なる次元がどのように相互作用するかの地図を提供します。

ここでは、4つの変数のデータがデータ行列に並べられています。これを中心化し、共分散行列を作成します。
データサイエンスにおける線形代数を深掘りしたい場合は、 Linear Algebra for Data Science in Rコースをご覧ください。共分散のような行列ベースのアプローチを理解するために必要な基礎をカバーしています。
共分散行列と相関行列
共分散行列は、データセット全体にわたる変数同士の連動を要約します。実務では、元のスケールを保持したいのか、結果を標準化したいのかに応じて、共分散行列または相関行列を用いてこれらの関係を調べることが多いです。
共分散行列には、すべての変数ペアの共分散が含まれます。対角成分は各変数内の分散を示し、非対角成分は変数同士がどのように一緒に変化するかを表します。共分散はデータの元のスケールと単位を保持するため、行列は変動の生の構造を捉えます。これにより、共分散行列はモデリングのワークフローや多変量解析で特に有用です。
一方、相関行列はこれらの関係を標準化します。各対角成分は1で、各変数は自分自身と完全に相関します。非対角の値はすべて−1から+1の間にあり、変数間の相関を示します。スケール効果を取り除くことで、相関行列は人間にとって解釈しやすく、変数間を直接比較できます。探索的データ分析や、特徴量間の強い・弱い線形関係を素早く特定するのに特に役立ちます。

ここでは4つの変数同士を比較しています。これらの行列を提示する際には、ヒートマップのオーバーレイを加えるのがおすすめです。セルの色によって、共分散や相関の値の相対的な大きさが一目でわかります。
共分散を相関に変換する方法
概念的には、相関は変数間の関係を標準化することで共分散から導かれます。共分散を各変数の標準偏差で割るだけです。このスケーリングにより単位と大きさの影響が取り除かれ、常に−1から+1の間に収まる標準化された指標が得られます。この変換により、相関の値は異なる変数やデータセット間で直接比較できるのです。
実務では、共分散から相関への変換はほとんどの統計ソフトで自動的に行われるため、分析者が手計算する必要はほとんどありません。ただし、ソフトウェアの裏側で何が行われているかを理解しておくことは常に重要です。たとえば、共分散がどのように相関へ変換されるかを理解していれば、その逆方向(少なくとも両方の標準偏差の情報なしには)には変換できない理由もわかります。相関には、共分散へ戻すのに必要な単位や大きさの情報が含まれていないのです。
共分散と相関を使うべき場面
共分散は、データのスケールや単位に意味がある場合、またはデータの変動の生の構造が必要な場合に最も有用です。多変量モデリング、確率モデル、線形代数ベースの手法のための共分散行列の構築などで一般的に使われます。これらの文脈では、元の変動を保持することで、アルゴリズムがデータの真の構造を捉え、各次元がどのように共変動するかを理解できます。
一方、相関は、人間の解釈、データセット間の比較、探索的分析により適しています。ヒートマップなどの可視化でこの指標を使うと、関係を一目で把握・伝達できます。相関は関係を標準化するため、すべての特徴量を同等のスケールで扱うことが重要な手法に向けて、データを準備する際にも役立ちます。
データサイエンスと統計における共分散と相関
多くの場合、両方の指標が同じワークフローに現れます。共分散行列はデータの元の変動を保持するため、多変量手法の数学的基盤を形成します。他方、相関行列は、モデリングの前段階でデータセットの構造を理解するために頻繁に用いられます。
モデルによっては、目的に応じてどちらの統計量も使用可能です。主成分分析(PCA)を考えてみましょう。共分散行列に対してPCAを行うと、分散が大きい変数は結果の成分により大きな影響を及ぼします。スケールの違いが意味のある変動の違いを反映している場合、これは望ましいことがあります。たとえば、日次の株式リターンを分析する場合、よりボラティリティの高い銘柄が主成分を強く形作るのは、その変動が実際の市場行動を反映しているため妥当かもしれません。
代わりに相関行列を使うと、分解の前に変数が標準化されます。各特徴量は同じスケールに置かれるため、単に単位が大きい、あるいは数値範囲が広いという理由で変数が支配的になることはありません。これは、身長(cm)、体重(kg)、血圧(mmHg)、コレステロール(mg/dL)のように、異なる単位で測定された変数を扱う場合に適しています。
どちらのアプローチが常に優れているということはありません。スケールの違いが意味のある構造を反映しているのか、単なる測定上の産物なのかに応じて、適切な選択は変わります。
共分散と相関に関するよくある誤解
よくある誤解の1つは、共分散が高ければ自動的に強い関係を示すというものです。しかし、共分散が大きいのは、関係の強さではなく、変数のスケールやばらつきの大きさを反映しているだけかもしれません。関係の強さを知りたいなら、標準化された相関を見る必要があります。
「相関は因果を意味しない」というフレーズは、耳にタコができるほど聞いたことでしょう。それでも、最も一般的な誤解の1つです。強い相関を見ると、因果関係があると考えたくなるのは理解できます。これは何千年も祖先の命を守ってきた脳の近道だからです。しかし、データに携わる者として、この近道に抗い、相関だけでは因果効果を証明できないことを認識しなければなりません。相関は関連の度合いを測るものであって、因果的影響ではありません。外的要因が両方の変数を同時に動かしている可能性もあります。
もう1つ非常に一般的な誤解は、共分散と相関はほとんど同じだというものです。しかし、両者は相互に置き換え可能ではありません。相関は共分散から導かれますが、関係を標準化するため、まったく異なる指標であり、計算において常に共分散の適切な代替になるわけではありません。
最後に、これらの統計量が評価するのは線形関係だけであることを忘れてはいけません。相関や共分散が低い、またはゼロ付近であっても、非線形のパターンが存在する可能性があります。これらの統計量だけに頼ると、データの重要な構造を見落とすことになりかねません。統計量を解釈する前に、必ずデータをプロットして目視で確認することをおすすめします。明らかな非線形関係がある場合、これが大いに役立ちます。
変数間の関係を解釈するためのプロのヒント
まず、測定のスケールを常に考慮してください。単位やばらつきの違いは、共分散のような生の指標に影響するため、数値が何を表しているのかを把握しておくことが重要です。
次に、データから何を得たいのかを明確にしましょう。共分散は、生の変動を保持することが重要な場合に最も有用です。これは、モデリングや多変量解析のための共分散行列の構築でよく当てはまります。こうした状況では、変動の大きさ自体が意味を持ちます。生の変動が不要なら、標準化され解釈しやすい相関を選ぶとよいでしょう。
三つ目に、必ず、必ず、必ずデータをプロットして確認してください。可視化は分析の指針となり、統計的な要約を補完します。ペアワイズのパターンを見つけるには散布図を、多くの変数を一度に概観するには行列を使うとよいでしょう。
最後に、測定の選択が下流に与える影響について考えてください。共分散のような生の指標と、相関のような標準化された指標のどちらを選ぶかは、モデリングの結果や解釈に影響します。分析目標に合致する選択を行いましょう。
まとめ
共分散と相関は、変数がどのように一緒に動くかを記述する密接に関連した指標ですが、役割は異なります。共分散は元のスケールを保持し、相関は比較のために標準化します。
データ探索についてさらに学びたい方は、Pythonによる探索的データ分析チュートリアルをご覧ください。相関が本当に因果を示しているかを見極める方法を学ぶには、Hypothesis Testing in Rをご覧ください。
FAQs
共分散と相関の違いは何ですか?
どちらも変数がどのように一緒に動くかを測りますが、共分散はスケールと単位を保持し、相関はそれらを標準化して比較しやすくします。
共分散が高いことは、強い関係があることと同じですか?
必ずしも同じではありません。共分散の大きさはスケールや分布の広がりに強く影響されます。関係の強さを判断するには、相関を使う方が適切です。
共分散や相関は非線形関係でも機能しますか?
信頼できません。これらの統計量は線形関係のみを評価することを目的としています。
なぜ相関には単位がないのですか?
共分散を相関に変換する際に単位が打ち消されるため、相関は単位を持たない数になります。
PCAには共分散と相関のどちらを使うべきですか?
PCAは共分散行列または相関行列のいずれかを用いて実行できます。変数間の大きさの違いに意味があり比較可能であれば、共分散行列がその変動を捉えます。一方、変数の単位が直接比較できない場合には、相関行列が関係を標準化します。どちらを選ぶかは、使用する変数と目的に依存します。