Pular para o conteúdo principal

Entendendo a covariância: Um guia introdutório

Descubra como a covariância revela as relações entre as variáveis. Saiba como calcular e interpretar esses dados em estatística, finanças e machine learning.
Atualizado 24 de jun. de 2025  · 5 min lido

A covariância desempenha um papel fundamental nas estatísticas, revelando como duas variáveis mudam uma em relação à outra. Ela é fundamental para ideias como correlação, análise de componentes principais e regressão.

Neste guia, você aprenderá o que significa covariância, como calculá-la e onde ela é usada, desde a modelagem financeira até o machine learning.

E como a covariância é apenas uma coisa importante que você deve saber, não deixe de se inscrever em nosso programa de habilidades Fundamentos de Estatística em Python e/ou em nosso curso Introdução à Estatística em R para continuar aprendendo.

O que é covariância?

A covariância é uma função estatística fundamental que mede como duas variáveis, x e y, mudam juntas. Se as variáveis tendem a aumentar ou diminuir simultaneamente, a covariância é positiva. Se um aumenta enquanto o outro diminui, a covariância é negativa.

A definição matemática de covariância para duas variáveis aleatórias X e Y é:

fórmula de covariância populacional

em que 𝜇x e 𝜇y são as médias de X e Yrespectivamente.

Para uma amostra de tamanho na covariância da amostra é calculada como:

fórmula de covariância amostral

em que e ȳ são as médias amostrais de x e y.

A decisão de usar μ (mu) para médias populacionais e para médias amostrais é uma convenção que ajuda a distinguir as duas.

Por que a covariância é importante

Entender a covariância ajuda você a analisar a relação entre duas variáveis. Em finanças, a covariância é usada para avaliar como duas ações se movem juntas. Na ciência de dados, a covariância é necessária para técnicas como PCA, que reduz a dimensionalidade dos conjuntos de dados. Também se enquadra na análise de regressão, na qual é importante entender como as variáveis variam em conjunto para modelar suas relações lineares.

Em resumo, a covariância fornece informações sobre: 1) a direção da relação linear entre as variáveis; 2) a direção da relação linear entre as variáveis; e 3) a direção da relação linear entre as variáveis.direção da relação linear entre as variáveis, 2) aa força da relação (embora não padronizada) e 3) a base para o cálculo do coeficiente de correlação.

Cálculo manual da covariância

Vamos praticar. Para calcular a covariância da amostra manualmente, siga estas etapas:

  1. Encontre a média de cada variável.
  2. Subtraia a média de cada valor para obter os desvios.
  3. Multiplique os desvios dos pares correspondentes.
  4. Some os produtos.
  5. Dividir por n - 1 para obter a covariância da amostra.

Por exemplo, se você tiver duas variáveis:

  • x: 2, 4, 6
  • y: 5, 9, 13

Encontre a média de cada variável

Primeiro, calcule as médias:

calcular a média de x para ajudar a encontrar a covariância

calcular a média de y para ajudar a encontrar a covariância

Subtraia a média de cada valor para obter os desvios

Em seguida, calcule os desvios da média. Criei uma tabela para mostrar a você como isso funciona. Observe como, no lado direito da tabela, cada ponto de dados é subtraído por 4 ou 9.

uma tabela de desvios padrão da média

Multiplique os desvios dos pares correspondentes

Agora, multiplique o desvio de cada par:

multiplicando os desvios padrão de cada par

Somar os produtos

Em seguida, somamos os produtos: 8 + 0 + 8 = 16

somando os produtos para encontrar a covariância

Divida por n - 1 para obter a covariância da amostra

Por fim, dividimos por n - 1 para obter a covariância da amostra.

calcular a covariância da amostra a partir de nossos dados

Podemos escrever nossa resposta da seguinte forma:

A resposta para a fórmula de covariância

Covariância em Python e R

Você pode estar tentando descobrir a covariância em um ambiente de programação. Mostrarei a você como fazer isso em Python e R, começando com Python. 

Covariância em Python

Você pode calcular a covariância em Python usando o NumPy.

Para usar a função cov() do NumPy, primeiro importe o NumPy e defina seus dados:

import numpy as np

x = np.array([2, 4, 6])
y = np.array([5, 9, 13])

cov_matrix = np.cov(x, y, ddof=1)
print(cov_matrix)

O resultado é uma matriz de covariância:

[[4. 8.]
 [8. 16.]]

Vemos que a covariância entre as duas variáveis é 8, que é o mesmo resultado que obtivemos manualmente.

Covariância em R

Você pode calcular a covariância no R usando a função integrada cov().

Para começar, defina seus vetores de dados e passe-os para cov():

x <- c(2, 4, 6)
y <- c(5, 9, 13)

cov_matrix <- cov(cbind(x, y))
print(cov_matrix)

O resultado é uma matriz de covariância:

  x  y
x 4  8
y 8 16

A covariância entre as duas variáveis é 8, exatamente como no exemplo do Python.

Interpretação da matriz de covariância

A matriz de covariância resume a covariância de pares entre várias variáveis. O resultado que acabamos de ver do código Python e R foi uma matriz de covariância, embora pequena (2x2).

Vamos tentar um exemplo maior. Para três variáveis x, y e z, a matriz de covariância é:

Essa matriz é simétrica, e os elementos diagonais são as variâncias de cada variável. (Isso é verdade porque a covariância de uma variável com ela mesma é a variância).

Covariância vs. Correlação

Embora a covariância meça a direção da relação entre duas variáveis, ela não padroniza o resultado. A correlação padroniza a covariância para um valor entre -1 e 1, facilitando a interpretação da força da relação.

Há muitas fórmulas para o coeficiente de correlação, mas uma delas é:

fórmula de covariância relacionada à correlação

Onde:

  • Cov(x,y) é a covariância entre as variáveis x e y
  • σx (pronunciado como "sigma") é o desvio padrão de x
  • σy​ é o desvio padrão de y

Coisas adicionais que você deve saber

Ao trabalhar com covariância, você deve estar ciente desses problemas comuns:

  • A covariância é sensível à escala das variáveis. Valores grandes podem inflar o resultado.
  • A covariância não indica a força do relacionamento de forma padronizada.
  • Os valores discrepantes podem afetar significativamente o cálculo da covariância.

Considere sempre a possibilidade de padronizar seus dados ou usar correlação para uma interpretação mais clara.

Conclusão

A covariância é uma ferramenta estatística que você precisa conhecer para entender como as variáveis se movem juntas. Você precisa conhecer a covariância para realmente entender as relações entre os dados. Não se preocupe se você não tiver clareza sobre alguns aspectos, pois temos os recursos certos para ajudá-lo. Inscreva-se hoje mesmo: 


Josef Waples's photo
Author
Josef Waples

Perguntas frequentes sobre covariância

O que significa uma covariância de 0?

Isso significa que as duas variáveis não têm relação linear, mas ainda podem ser dependentes de forma não linear.

Como a covariância é usada em finanças?

Ele ajuda a avaliar como dois ativos se movem juntos e é usado na otimização de portfólio e no gerenciamento de risco.

Qual é a diferença entre covariância e correlação?

A covariância mostra a direção, a correlação mostra a direção e a força, normalizada entre -1 e 1.

A covariância pode ser negativa?

Sim, uma covariância negativa indica uma relação inversa.

A covariância é afetada pelas unidades?

Sim, ao contrário da correlação, a covariância retém as unidades (por exemplo, cm-anos).

Tópicos

Aprenda com a DataCamp

Curso

Foundations of Probability in Python

5 h
14.3K
Learn fundamental probability concepts like random variables, mean and variance, probability distributions, and conditional probabilities.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Intervalos de confiança versus intervalos de previsão: Entendendo a diferença

Este artigo ensina a você o significado, as diferenças e os casos de uso apropriados de intervalos de previsão e intervalos de confiança em análises estatísticas e de regressão. Ele também mostra a você como implementar esses intervalos no R.
Arun Nanda's photo

Arun Nanda

15 min

Tutorial

Entendendo a assimetria e a curtose e como traçá-las

Um guia visual abrangente sobre assimetria/curtose e como elas afetam as distribuições e, por fim, seu projeto de ciência de dados.
Bex Tuychiev's photo

Bex Tuychiev

10 min

Tutorial

Entendendo o desvio de dados e o desvio de modelo: Detecção de deriva em Python

Navegue pelos perigos do desvio de modelo e explore nosso guia prático para o monitoramento do desvio de dados.
Moez Ali's photo

Moez Ali

9 min

Tutorial

Tutorial de regressão linear no R

Neste tutorial, você aprenderá os fundamentos de um modelo estatístico muito popular: a regressão linear.

Eladio Montero Porras

15 min

Tutorial

Teste de qui-quadrado em planilhas

Neste tutorial, você aprenderá a realizar o teste qui-quadrado em planilhas.
Avinash Navlani's photo

Avinash Navlani

10 min

Tutorial

Tutorial de regressão logística no R

Descubra tudo sobre a regressão logística: como ela difere da regressão linear, como ajustar e avaliar esses modelos no R com a função glm() e muito mais!
Vidhi Chugh's photo

Vidhi Chugh

14 min

Ver maisVer mais