Pular para o conteúdo principal

Entendendo a covariância: Um guia introdutório

Descubra como a covariância revela as relações entre as variáveis. Saiba como calcular e interpretar esses dados em estatística, finanças e machine learning.
Atualizado 24 de jun. de 2025  · 5 min lido

A covariância desempenha um papel fundamental nas estatísticas, revelando como duas variáveis mudam uma em relação à outra. Ela é fundamental para ideias como correlação, análise de componentes principais e regressão.

Neste guia, você aprenderá o que significa covariância, como calculá-la e onde ela é usada, desde a modelagem financeira até o machine learning.

E como a covariância é apenas uma coisa importante que você deve saber, não deixe de se inscrever em nosso programa de habilidades Fundamentos de Estatística em Python e/ou em nosso curso Introdução à Estatística em R para continuar aprendendo.

O que é covariância?

A covariância é uma função estatística fundamental que mede como duas variáveis, x e y, mudam juntas. Se as variáveis tendem a aumentar ou diminuir simultaneamente, a covariância é positiva. Se um aumenta enquanto o outro diminui, a covariância é negativa.

A definição matemática de covariância para duas variáveis aleatórias X e Y é:

fórmula de covariância populacional

em que 𝜇x e 𝜇y são as médias de X e Yrespectivamente.

Para uma amostra de tamanho na covariância da amostra é calculada como:

fórmula de covariância amostral

em que e ȳ são as médias amostrais de x e y.

A decisão de usar μ (mu) para médias populacionais e para médias amostrais é uma convenção que ajuda a distinguir as duas.

Por que a covariância é importante

Entender a covariância ajuda você a analisar a relação entre duas variáveis. Em finanças, a covariância é usada para avaliar como duas ações se movem juntas. Na ciência de dados, a covariância é necessária para técnicas como PCA, que reduz a dimensionalidade dos conjuntos de dados. Também se enquadra na análise de regressão, na qual é importante entender como as variáveis variam em conjunto para modelar suas relações lineares.

Em resumo, a covariância fornece informações sobre: 1) a direção da relação linear entre as variáveis; 2) a direção da relação linear entre as variáveis; e 3) a direção da relação linear entre as variáveis.direção da relação linear entre as variáveis, 2) aa força da relação (embora não padronizada) e 3) a base para o cálculo do coeficiente de correlação.

Cálculo manual da covariância

Vamos praticar. Para calcular a covariância da amostra manualmente, siga estas etapas:

  1. Encontre a média de cada variável.
  2. Subtraia a média de cada valor para obter os desvios.
  3. Multiplique os desvios dos pares correspondentes.
  4. Some os produtos.
  5. Dividir por n - 1 para obter a covariância da amostra.

Por exemplo, se você tiver duas variáveis:

  • x: 2, 4, 6
  • y: 5, 9, 13

Encontre a média de cada variável

Primeiro, calcule as médias:

calcular a média de x para ajudar a encontrar a covariância

calcular a média de y para ajudar a encontrar a covariância

Subtraia a média de cada valor para obter os desvios

Em seguida, calcule os desvios da média. Criei uma tabela para mostrar a você como isso funciona. Observe como, no lado direito da tabela, cada ponto de dados é subtraído por 4 ou 9.

uma tabela de desvios padrão da média

Multiplique os desvios dos pares correspondentes

Agora, multiplique o desvio de cada par:

multiplicando os desvios padrão de cada par

Somar os produtos

Em seguida, somamos os produtos: 8 + 0 + 8 = 16

somando os produtos para encontrar a covariância

Divida por n - 1 para obter a covariância da amostra

Por fim, dividimos por n - 1 para obter a covariância da amostra.

calcular a covariância da amostra a partir de nossos dados

Podemos escrever nossa resposta da seguinte forma:

A resposta para a fórmula de covariância

Covariância em Python e R

Você pode estar tentando descobrir a covariância em um ambiente de programação. Mostrarei a você como fazer isso em Python e R, começando com Python. 

Covariância em Python

Você pode calcular a covariância em Python usando o NumPy.

Para usar a função cov() do NumPy, primeiro importe o NumPy e defina seus dados:

import numpy as np

x = np.array([2, 4, 6])
y = np.array([5, 9, 13])

cov_matrix = np.cov(x, y, ddof=1)
print(cov_matrix)

O resultado é uma matriz de covariância:

[[4. 8.]
 [8. 16.]]

Vemos que a covariância entre as duas variáveis é 8, que é o mesmo resultado que obtivemos manualmente.

Covariância em R

Você pode calcular a covariância no R usando a função integrada cov().

Para começar, defina seus vetores de dados e passe-os para cov():

x <- c(2, 4, 6)
y <- c(5, 9, 13)

cov_matrix <- cov(cbind(x, y))
print(cov_matrix)

O resultado é uma matriz de covariância:

  x  y
x 4  8
y 8 16

A covariância entre as duas variáveis é 8, exatamente como no exemplo do Python.

Interpretação da matriz de covariância

A matriz de covariância resume a covariância de pares entre várias variáveis. O resultado que acabamos de ver do código Python e R foi uma matriz de covariância, embora pequena (2x2).

Vamos tentar um exemplo maior. Para três variáveis x, y e z, a matriz de covariância é:

Essa matriz é simétrica, e os elementos diagonais são as variâncias de cada variável. (Isso é verdade porque a covariância de uma variável com ela mesma é a variância).

Covariância vs. Correlação

Embora a covariância meça a direção da relação entre duas variáveis, ela não padroniza o resultado. A correlação padroniza a covariância para um valor entre -1 e 1, facilitando a interpretação da força da relação.

Há muitas fórmulas para o coeficiente de correlação, mas uma delas é:

fórmula de covariância relacionada à correlação

Onde:

  • Cov(x,y) é a covariância entre as variáveis x e y
  • σx (pronunciado como "sigma") é o desvio padrão de x
  • σy​ é o desvio padrão de y

Coisas adicionais que você deve saber

Ao trabalhar com covariância, você deve estar ciente desses problemas comuns:

  • A covariância é sensível à escala das variáveis. Valores grandes podem inflar o resultado.
  • A covariância não indica a força do relacionamento de forma padronizada.
  • Os valores discrepantes podem afetar significativamente o cálculo da covariância.

Considere sempre a possibilidade de padronizar seus dados ou usar correlação para uma interpretação mais clara.

Conclusão

A covariância é uma ferramenta estatística que você precisa conhecer para entender como as variáveis se movem juntas. Você precisa conhecer a covariância para realmente entender as relações entre os dados. Não se preocupe se você não tiver clareza sobre alguns aspectos, pois temos os recursos certos para ajudá-lo. Inscreva-se hoje mesmo: 


Josef Waples's photo
Author
Josef Waples

Perguntas frequentes sobre covariância

O que significa uma covariância de 0?

Isso significa que as duas variáveis não têm relação linear, mas ainda podem ser dependentes de forma não linear.

Como a covariância é usada em finanças?

Ele ajuda a avaliar como dois ativos se movem juntos e é usado na otimização de portfólio e no gerenciamento de risco.

Qual é a diferença entre covariância e correlação?

A covariância mostra a direção, a correlação mostra a direção e a força, normalizada entre -1 e 1.

A covariância pode ser negativa?

Sim, uma covariância negativa indica uma relação inversa.

A covariância é afetada pelas unidades?

Sim, ao contrário da correlação, a covariância retém as unidades (por exemplo, cm-anos).

Tópicos

Aprenda com a DataCamp

Curso

Fundamentos de Probabilidade em Python

5 h
15.3K
Aprenda conceitos básicos de probabilidade, como variáveis aleatórias, média e variância, distribuições de probabilidade e probabilidades condicionais.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Intervalos de confiança versus intervalos de previsão: Entendendo a diferença

Este artigo ensina a você o significado, as diferenças e os casos de uso apropriados de intervalos de previsão e intervalos de confiança em análises estatísticas e de regressão. Ele também mostra a você como implementar esses intervalos no R.
Arun Nanda's photo

Arun Nanda

15 min

Tutorial

Entendendo a assimetria e a curtose e como traçá-las

Um guia visual abrangente sobre assimetria/curtose e como elas afetam as distribuições e, por fim, seu projeto de ciência de dados.
Bex Tuychiev's photo

Bex Tuychiev

Tutorial

Entendendo o desvio de dados e o desvio de modelo: Detecção de deriva em Python

Navegue pelos perigos do desvio de modelo e explore nosso guia prático para o monitoramento do desvio de dados.
Moez Ali's photo

Moez Ali

Tutorial

Tutorial de regressão linear no R

Neste tutorial, você aprenderá os fundamentos de um modelo estatístico muito popular: a regressão linear.

Eladio Montero Porras

Tutorial

Teste de qui-quadrado em planilhas

Neste tutorial, você aprenderá a realizar o teste qui-quadrado em planilhas.
Avinash Navlani's photo

Avinash Navlani

Tutorial

Tutorial de regressão logística no R

Descubra tudo sobre a regressão logística: como ela difere da regressão linear, como ajustar e avaliar esses modelos no R com a função glm() e muito mais!
Vidhi Chugh's photo

Vidhi Chugh

Ver maisVer mais