Curso
A covariância desempenha um papel fundamental nas estatísticas, revelando como duas variáveis mudam uma em relação à outra. Ela é fundamental para ideias como correlação, análise de componentes principais e regressão.
Neste guia, você aprenderá o que significa covariância, como calculá-la e onde ela é usada, desde a modelagem financeira até o machine learning.
E como a covariância é apenas uma coisa importante que você deve saber, não deixe de se inscrever em nosso programa de habilidades Fundamentos de Estatística em Python e/ou em nosso curso Introdução à Estatística em R para continuar aprendendo.
O que é covariância?
A covariância é uma função estatística fundamental que mede como duas variáveis, x e y, mudam juntas. Se as variáveis tendem a aumentar ou diminuir simultaneamente, a covariância é positiva. Se um aumenta enquanto o outro diminui, a covariância é negativa.
A definição matemática de covariância para duas variáveis aleatórias X e Y é:
em que 𝜇x e 𝜇y são as médias de X e Yrespectivamente.
Para uma amostra de tamanho na covariância da amostra é calculada como:
em que x̅ e ȳ são as médias amostrais de x e y.
A decisão de usar μ (mu) para médias populacionais e x̅ para médias amostrais é uma convenção que ajuda a distinguir as duas.
Por que a covariância é importante
Entender a covariância ajuda você a analisar a relação entre duas variáveis. Em finanças, a covariância é usada para avaliar como duas ações se movem juntas. Na ciência de dados, a covariância é necessária para técnicas como PCA, que reduz a dimensionalidade dos conjuntos de dados. Também se enquadra na análise de regressão, na qual é importante entender como as variáveis variam em conjunto para modelar suas relações lineares.
Em resumo, a covariância fornece informações sobre: 1) a direção da relação linear entre as variáveis; 2) a direção da relação linear entre as variáveis; e 3) a direção da relação linear entre as variáveis.direção da relação linear entre as variáveis, 2) aa força da relação (embora não padronizada) e 3) a base para o cálculo do coeficiente de correlação.
Cálculo manual da covariância
Vamos praticar. Para calcular a covariância da amostra manualmente, siga estas etapas:
- Encontre a média de cada variável.
- Subtraia a média de cada valor para obter os desvios.
- Multiplique os desvios dos pares correspondentes.
- Some os produtos.
- Dividir por n - 1 para obter a covariância da amostra.
Por exemplo, se você tiver duas variáveis:
- x: 2, 4, 6
- y: 5, 9, 13
Encontre a média de cada variável
Primeiro, calcule as médias:
Subtraia a média de cada valor para obter os desvios
Em seguida, calcule os desvios da média. Criei uma tabela para mostrar a você como isso funciona. Observe como, no lado direito da tabela, cada ponto de dados é subtraído por 4 ou 9.
Multiplique os desvios dos pares correspondentes
Agora, multiplique o desvio de cada par:
Somar os produtos
Em seguida, somamos os produtos: 8 + 0 + 8 = 16
Divida por n - 1 para obter a covariância da amostra
Por fim, dividimos por n - 1 para obter a covariância da amostra.
Podemos escrever nossa resposta da seguinte forma:
Covariância em Python e R
Você pode estar tentando descobrir a covariância em um ambiente de programação. Mostrarei a você como fazer isso em Python e R, começando com Python.
Covariância em Python
Você pode calcular a covariância em Python usando o NumPy.
Para usar a função cov()
do NumPy, primeiro importe o NumPy e defina seus dados:
import numpy as np
x = np.array([2, 4, 6])
y = np.array([5, 9, 13])
cov_matrix = np.cov(x, y, ddof=1)
print(cov_matrix)
O resultado é uma matriz de covariância:
[[4. 8.]
[8. 16.]]
Vemos que a covariância entre as duas variáveis é 8, que é o mesmo resultado que obtivemos manualmente.
Covariância em R
Você pode calcular a covariância no R usando a função integrada cov()
.
Para começar, defina seus vetores de dados e passe-os para cov()
:
x <- c(2, 4, 6)
y <- c(5, 9, 13)
cov_matrix <- cov(cbind(x, y))
print(cov_matrix)
O resultado é uma matriz de covariância:
x y
x 4 8
y 8 16
A covariância entre as duas variáveis é 8, exatamente como no exemplo do Python.
Interpretação da matriz de covariância
A matriz de covariância resume a covariância de pares entre várias variáveis. O resultado que acabamos de ver do código Python e R foi uma matriz de covariância, embora pequena (2x2).
Vamos tentar um exemplo maior. Para três variáveis x, y e z, a matriz de covariância é:
Essa matriz é simétrica, e os elementos diagonais são as variâncias de cada variável. (Isso é verdade porque a covariância de uma variável com ela mesma é a variância).
Covariância vs. Correlação
Embora a covariância meça a direção da relação entre duas variáveis, ela não padroniza o resultado. A correlação padroniza a covariância para um valor entre -1 e 1, facilitando a interpretação da força da relação.
Há muitas fórmulas para o coeficiente de correlação, mas uma delas é:
Onde:
- Cov(x,y) é a covariância entre as variáveis x e y
- σx (pronunciado como "sigma") é o desvio padrão de x
- σy é o desvio padrão de y
Coisas adicionais que você deve saber
Ao trabalhar com covariância, você deve estar ciente desses problemas comuns:
- A covariância é sensível à escala das variáveis. Valores grandes podem inflar o resultado.
- A covariância não indica a força do relacionamento de forma padronizada.
- Os valores discrepantes podem afetar significativamente o cálculo da covariância.
Considere sempre a possibilidade de padronizar seus dados ou usar correlação para uma interpretação mais clara.
Conclusão
A covariância é uma ferramenta estatística que você precisa conhecer para entender como as variáveis se movem juntas. Você precisa conhecer a covariância para realmente entender as relações entre os dados. Não se preocupe se você não tiver clareza sobre alguns aspectos, pois temos os recursos certos para ajudá-lo. Inscreva-se hoje mesmo:
- Programa de habilidades Fundamentos de Estatística em Python
- Curso de Introdução à Estatística em R

Perguntas frequentes sobre covariância
O que significa uma covariância de 0?
Isso significa que as duas variáveis não têm relação linear, mas ainda podem ser dependentes de forma não linear.
Como a covariância é usada em finanças?
Ele ajuda a avaliar como dois ativos se movem juntos e é usado na otimização de portfólio e no gerenciamento de risco.
Qual é a diferença entre covariância e correlação?
A covariância mostra a direção, a correlação mostra a direção e a força, normalizada entre -1 e 1.
A covariância pode ser negativa?
Sim, uma covariância negativa indica uma relação inversa.
A covariância é afetada pelas unidades?
Sim, ao contrário da correlação, a covariância retém as unidades (por exemplo, cm-anos).