Entendendo a covariância: Um guia introdutório

Descubra como a covariância revela as relações entre as variáveis. Saiba como calcular e interpretar esses dados em estatística, finanças e machine learning.

Atualizado 24 de jun. de 2025 · 5 min lido

A covariância desempenha um papel fundamental nas estatísticas, revelando como duas variáveis mudam uma em relação à outra. Ela é fundamental para ideias como correlação, análise de componentes principais e regressão.

Neste guia, você aprenderá o que significa covariância, como calculá-la e onde ela é usada, desde a modelagem financeira até o machine learning.

E como a covariância é apenas uma coisa importante que você deve saber, não deixe de se inscrever em nosso programa de habilidades Fundamentos de Estatística em Python e/ou em nosso curso Introdução à Estatística em R para continuar aprendendo.

O que é covariância?

A covariância é uma função estatística fundamental que mede como duas variáveis, x e y, mudam juntas. Se as variáveis tendem a aumentar ou diminuir simultaneamente, a covariância é positiva. Se um aumenta enquanto o outro diminui, a covariância é negativa.

A definição matemática de covariância para duas variáveis aleatórias X e Y é:

em que _𝜇x e _𝜇y são as médias de X e Yrespectivamente.

Para uma amostra de tamanho na covariância da amostra é calculada como:

em que x̅ e ȳ são as médias amostrais de x e y.

A decisão de usar μ (mu) para médias populacionais e x̅ para médias amostrais é uma convenção que ajuda a distinguir as duas.

Por que a covariância é importante

Entender a covariância ajuda você a analisar a relação entre duas variáveis. Em finanças, a covariância é usada para avaliar como duas ações se movem juntas. Na ciência de dados, a covariância é necessária para técnicas como PCA, que reduz a dimensionalidade dos conjuntos de dados. Também se enquadra na análise de regressão, na qual é importante entender como as variáveis variam em conjunto para modelar suas relações lineares.

Em resumo, a covariância fornece informações sobre: 1) a direção da relação linear entre as variáveis; 2) a direção da relação linear entre as variáveis; e 3) a direção da relação linear entre as variáveis.direção da relação linear entre as variáveis, 2) aa força da relação (embora não padronizada) e 3) a base para o cálculo do coeficiente de correlação.

Cálculo manual da covariância

Vamos praticar. Para calcular a covariância da amostra manualmente, siga estas etapas:

Encontre a média de cada variável.
Subtraia a média de cada valor para obter os desvios.
Multiplique os desvios dos pares correspondentes.
Some os produtos.
Dividir por n - 1 para obter a covariância da amostra.

Por exemplo, se você tiver duas variáveis:

x: 2, 4, 6
y: 5, 9, 13

Encontre a média de cada variável

Primeiro, calcule as médias:

Subtraia a média de cada valor para obter os desvios

Em seguida, calcule os desvios da média. Criei uma tabela para mostrar a você como isso funciona. Observe como, no lado direito da tabela, cada ponto de dados é subtraído por 4 ou 9.

Multiplique os desvios dos pares correspondentes

Agora, multiplique o desvio de cada par:

Somar os produtos

Em seguida, somamos os produtos: 8 + 0 + 8 = 16

Divida por n - 1 para obter a covariância da amostra

Por fim, dividimos por n - 1 para obter a covariância da amostra.

Podemos escrever nossa resposta da seguinte forma:

Covariância em Python e R

Você pode estar tentando descobrir a covariância em um ambiente de programação. Mostrarei a você como fazer isso em Python e R, começando com Python.

Covariância em Python

Você pode calcular a covariância em Python usando o NumPy.

Para usar a função cov() do NumPy, primeiro importe o NumPy e defina seus dados:

import numpy as np

x = np.array([2, 4, 6])
y = np.array([5, 9, 13])

cov_matrix = np.cov(x, y, ddof=1)
print(cov_matrix)

O resultado é uma matriz de covariância:

[[4. 8.]
 [8. 16.]]

Vemos que a covariância entre as duas variáveis é 8, que é o mesmo resultado que obtivemos manualmente.

Covariância em R

Você pode calcular a covariância no R usando a função integrada cov().

Para começar, defina seus vetores de dados e passe-os para cov():

x <- c(2, 4, 6)
y <- c(5, 9, 13)

cov_matrix <- cov(cbind(x, y))
print(cov_matrix)

O resultado é uma matriz de covariância:

  x  y
x 4  8
y 8 16

A covariância entre as duas variáveis é 8, exatamente como no exemplo do Python.

Interpretação da matriz de covariância

A matriz de covariância resume a covariância de pares entre várias variáveis. O resultado que acabamos de ver do código Python e R foi uma matriz de covariância, embora pequena (2x2).

Vamos tentar um exemplo maior. Para três variáveis x, y e z, a matriz de covariância é:

Essa matriz é simétrica, e os elementos diagonais são as variâncias de cada variável. (Isso é verdade porque a covariância de uma variável com ela mesma é a variância).

Covariância vs. Correlação

Embora a covariância meça a direção da relação entre duas variáveis, ela não padroniza o resultado. A correlação padroniza a covariância para um valor entre -1 e 1, facilitando a interpretação da força da relação.

Há muitas fórmulas para o coeficiente de correlação, mas uma delas é:

Onde:

Cov(x,y) é a covariância entre as variáveis x e y
_σx (pronunciado como "sigma") é o desvio padrão de x
σ_y é o desvio padrão de y

Coisas adicionais que você deve saber

Ao trabalhar com covariância, você deve estar ciente desses problemas comuns:

A covariância é sensível à escala das variáveis. Valores grandes podem inflar o resultado.
A covariância não indica a força do relacionamento de forma padronizada.
Os valores discrepantes podem afetar significativamente o cálculo da covariância.

Considere sempre a possibilidade de padronizar seus dados ou usar correlação para uma interpretação mais clara.

Conclusão

A covariância é uma ferramenta estatística que você precisa conhecer para entender como as variáveis se movem juntas. Você precisa conhecer a covariância para realmente entender as relações entre os dados. Não se preocupe se você não tiver clareza sobre alguns aspectos, pois temos os recursos certos para ajudá-lo. Inscreva-se hoje mesmo:

Programa de habilidades Fundamentos de Estatística em Python
Curso de Introdução à Estatística em R

Author

Josef Waples

O que significa uma covariância de 0?

Como a covariância é usada em finanças?

Qual é a diferença entre covariância e correlação?

A covariância pode ser negativa?

A covariância é afetada pelas unidades?

Tópicos

Ciência de dados

Aprenda com a DataCamp

Curso

Fundamentos de Probabilidade em Python

5 h

15.3K

Aprenda conceitos de probabilidade: variáveis aleatórias, média, variância, distribuições e probabilidade condicional.

Ver detalhes

Iniciar curso

Curso

Praticando perguntas de entrevista de Estatística em Python

4 h

16.1K

Ver detalhes

Iniciar curso

Curso

Introdução à estatística

4 h

136.2K

Aprenda os fundamentos da estatística, com medidas de centro e dispersão, distribuições de probabilidade e testes de hipóteses sem usar código!

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

Intervalos de confiança versus intervalos de previsão: Entendendo a diferença

Este artigo ensina a você o significado, as diferenças e os casos de uso apropriados de intervalos de previsão e intervalos de confiança em análises estatísticas e de regressão. Ele também mostra a você como implementar esses intervalos no R.

Arun Nanda

15 min

Tutorial

Entendendo a assimetria e a curtose e como traçá-las

Um guia visual abrangente sobre assimetria/curtose e como elas afetam as distribuições e, por fim, seu projeto de ciência de dados.

Bex Tuychiev

Tutorial

Entendendo o desvio de dados e o desvio de modelo: Detecção de deriva em Python

Navegue pelos perigos do desvio de modelo e explore nosso guia prático para o monitoramento do desvio de dados.

Moez Ali

Tutorial

Tutorial de regressão linear no R

Neste tutorial, você aprenderá os fundamentos de um modelo estatístico muito popular: a regressão linear.

Eladio Montero Porras

Tutorial

Teste de qui-quadrado em planilhas

Neste tutorial, você aprenderá a realizar o teste qui-quadrado em planilhas.

Avinash Navlani

Tutorial

Tutorial de regressão logística no R

Descubra tudo sobre a regressão logística: como ela difere da regressão linear, como ajustar e avaliar esses modelos no R com a função glm() e muito mais!

Vidhi Chugh

Ver mais Ver mais

O que é covariância?

Por que a covariância é importante

Cálculo manual da covariância

Encontre a média de cada variável

Subtraia a média de cada valor para obter os desvios

Multiplique os desvios dos pares correspondentes

Somar os produtos

Divida por n - 1 para obter a covariância da amostra

Covariância em Python e R

Covariância em Python

Covariância em R

Interpretação da matriz de covariância

Covariância vs. Correlação

Coisas adicionais que você deve saber

Conclusão

Perguntas frequentes sobre covariância

Qual é a diferença entre covariância e correlação?

A covariância pode ser negativa?

A covariância é afetada pelas unidades?

Intervalos de confiança versus intervalos de previsão: Entendendo a diferença

Entendendo a assimetria e a curtose e como traçá-las

Entendendo o desvio de dados e o desvio de modelo: Detecção de deriva em Python

Tutorial de regressão linear no R

Teste de qui-quadrado em planilhas

Tutorial de regressão logística no R

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de Probabilidade em Python

Praticando perguntas de entrevista de Estatística em Python

Introdução à estatística

Intervalos de confiança versus intervalos de previsão: Entendendo a diferença

Entendendo a assimetria e a curtose e como traçá-las

Entendendo o desvio de dados e o desvio de modelo: Detecção de deriva em Python

Tutorial de regressão linear no R

Teste de qui-quadrado em planilhas

Tutorial de regressão logística no R

Fundamentos de Probabilidade em Python