Pular para o conteúdo principal

Desvio padrão da amostra: As ideias-chave

Aprenda a calcular o desvio padrão da amostra e a entender sua importância na análise estatística. Explore exemplos e práticas recomendadas para a interpretação de dados do mundo real.
Actualizado 1 de out. de 2024  · 6 min de leitura

O desvio padrão da amostra é uma medida estatística usada para quantificar a variação em um conjunto de dados. Especificamente, ele nos informa o quanto os pontos de dados individuais em uma amostra diferem da média da amostra.

O desvio padrão da amostra é importante na estatística inferencial se você quiser tirar conclusões sobre uma determinada população ou, como dizem os estatísticos, fazer inferências de uma amostra para uma população. Para entender essas distinções, recomendo que você faça os cursos de Introdução à Estatística e Estatística Básica da DataCamp para se familiarizar com os conceitos de estatística. Como observação final, se você leva a estatística a sério e está interessado em uma carreira usando estatísticas, consulte o guia do DataCamp sobre Como se tornar um estatístico.

O que é desvio padrão da amostra?

O desvio padrão da amostra é uma medida estatística que quantifica a variação ou a dispersão em um conjunto de dados. O desvio padrão da amostra é calculado como a raiz quadrada da variação da amostra, em que a variação da amostra é a soma das diferenças quadráticas da média, dividida pelo tamanho da amostra menos um. Usamos o desvio padrão da amostra quando queremos saber o quanto os pontos de dados em uma amostra diferem da média da amostra.

Como calcular o desvio padrão da amostra

Usamos uma fórmula específica para calcular o desvio padrão da amostra.

Fórmula para o desvio padrão da amostra

Aqui está a fórmula do desvio padrão de amostra:

Fórmula de desvio padrão da amostra.

Fórmula de desvio padrão da amostra. Imagem do autor.

Onde:

  • s = desvio padrão da amostra
  • n = número de pontos de dados na amostra
  • x = ponto de dados individual
  • x̄ = média da amostra
  • n-1 = o fator de correção para dados de amostra

Observe que, ao calcular o desvio padrão da amostra, usamos n-1 no denominador para corrigir o viés da amostra. Isso é conhecido como correção de Bessel. Se estivéssemos interessados no desvio padrão da população, usaríamos n no denominador .

Como calcular manualmente o desvio padrão da amostra

Vamos examinar o exemplo a seguir para ver como você pode calcular o desvio padrão da amostra usando a fórmula. Suponha que você tenha um subconjunto de dados com os seguintes valores:

Você deve seguir estas etapas:

Etapa 1: Calcule a média da amostra

Encontre a média dos pontos de dados.

Etapa 2: Encontre as diferenças quadráticas em relação à média

Subtraia a média e eleve o resultado ao quadrado para cada ponto de dados

Etapa 3: Soma dos desvios ao quadrado

Adicione as diferenças ao quadrado em relação à média.

Etapa 4: Insira as variáveis calculadas na fórmula

Substitua os valores na fórmula para obter o desvio padrão da amostra.

Com base no cálculo acima, vemos que o desvio padrão dos dados é de aproximadamente 2,28. Agora, se calcular o desvio padrão da amostra manualmente não for prático ou útil, e você precisar usar uma ferramenta como o Excel, confira nosso tutorial sobre Como calcular o desvio padrão no Excel.

Por que usar o desvio padrão da amostra?

O desvio padrão da amostra é uma medida preferida de variabilidade quando é necessária uma estimativa do desvio padrão da população com base em uma amostra. A correção de Bessel(n-1) na fórmula ajusta o viés e melhora a precisão da estimativa, pois a amostra pode não representar perfeitamente a população. Se você diminuir o denominador, aumentará a variação e o desvio padrão calculados. Isso compensa a tendência das amostras menores de subestimar a variabilidade.

Importância do desvio padrão da amostra

O desvio padrão da amostra é importante para estimar os parâmetros da população. Vamos dar uma olhada.

Cálculo de intervalos de confiança 

Os intervalos de confiança podem ser calculados usando o desvio padrão da amostra ou o desvio padrão da população, dependendo do que estiver disponível. Se o desvio padrão da população for desconhecido, o desvio padrão da amostra será usado e uma distribuição t será aplicada para estimar o intervalo de valores que provavelmente conterá a média da população. Um desvio padrão menor da amostra ou da população leva a um intervalo de confiança mais estreito, indicando maior precisão na estimativa.

Teste de hipóteses 

No teste de hipóteses, você pode usar o desvio padrão da amostra ou o desvio padrão da população, dependendo do que for conhecido. Se o desvio padrão da população for desconhecido, o desvio padrão da amostra é aplicado, e a distribuição t é normalmente usada para avaliar a estatística de teste. Quando o desvio padrão da população é conhecido, a distribuição z é usada em seu lugar, proporcionando mais precisão. Um desvio padrão menor, seja da amostra ou da população, resulta em um teste mais sensível, facilitando a detecção de diferenças significativas.

Desvio padrão da amostra e termos relacionados

Vamos dar uma olhada em alguns dos termos relacionados ao desvio padrão da amostra. A confusão desses termos pode levar a erros comuns. 

Desvio padrão vs. variância

O desvio padrão da amostra e a variância medem a variabilidade em um conjunto de dados. Entretanto, eles expressam a variabilidade de forma diferente. A variação de um conjunto de dados mede a média das diferenças quadráticas entre cada ponto de dados e a média. Assim, a variação é expressa em unidades quadradas. Por outro lado, o desvio padrão é calculado como a raiz quadrada da variação, portanto, o desvio padrão é expresso nas mesmas unidades que os dados.

Desvio padrão da amostra vs. desvio padrão da população

Vamos dar uma olhada em dois cenários para ajudar a diferenciar entre o desvio padrão da amostra e o desvio padrão da população.

Trabalhar com dados de amostra

O desvio padrão da amostra é usado quando você usa um subconjunto de uma grande população. Imagine que você está realizando uma pesquisa de satisfação do cliente para uma empresa de varejo. Você coleta respostas de cerca de 200 clientes para fazer inferências sobre a satisfação da base de clientes da cadeia de varejo. Nesse caso, você usará o desvio padrão da amostra para fazer inferências, pois está trabalhando com um subconjunto de uma grande população.

Trabalho com dados populacionais

O desvio padrão da população é apropriado quando você tem os dados completos de uma população inteira. Nesse caso, você não precisará levar em conta a tendência, pois cada ponto de dados seria levado em conta. Agora, imagine que você é o RH de uma empresa com 50 funcionários e deseja calcular a variabilidade dos salários deles. Você usará o desvio padrão da população, pois conhece o salário de cada funcionário.

Amostra de desvio padrão em Python e R

Ao usar o R para calcular o desvio padrão, a função sd() calcula o desvio padrão da amostra por padrão com n-1 no denominador.

# Sample standard deviation
data <- c(10, 12, 15, 18, 20)
sample_sd <- sd(data)
print(round(sample_sd, 2))
4.12

No entanto, pacotes Python como NumPy e Pandas assumem o desvio padrão da população, a menos que especificado de outra forma. Por exemplo, o site numpy.std() usa n no denominador por padrão, tratando os dados como uma população. 

# Import numpy library
import numpy as np
data = [10, 12, 15, 18, 20]
population_sd = np.std(data)  # Population standard deviation
print(round(population_sd, 2))
3.69

Se, em vez disso, quiser o desvio padrão da amostra, você pode passar ddof=1 para ajustar os graus de liberdade.

sample_sd = np.std(data, ddof=1)  # Sample standard deviation
print(round(sample_sd, 2))
4.12

Se você estiver trabalhando com estatística em um ambiente de programação, eu recomendaria nosso curso de habilidades em Inferência Estatística com R ou o curso Fundamentos de Inferência em Python para desenvolver um conjunto básico de habilidades. 

Conclusão

O desvio padrão da amostra é uma medida estatística importante para quantificar a variação e fazer inferências. Se você deseja aprimorar seus conhecimentos em estatística e análise de dados, recomendo que confira os cursos de carreira DataCamp's Data Analyst with R e Data Analyst with Python, que oferecem habilidades abrangentes e relevantes para o setor. Nosso curso Análise de dados em Excel também é adequado se você quiser se tornar um analista de negócios focado na tomada de decisões baseadas em dados.


Allan Ouko's photo
Author
Allan Ouko
LinkedIn
Eu crio artigos que simplificam a ciência e a análise de dados, tornando-as fáceis de entender e acessíveis.

Perguntas frequentes

Qual é a diferença entre o desvio padrão da amostra e o da população?

O desvio padrão da amostra é usado ao calcular a variabilidade de um subconjunto de dados para fazer inferências sobre a população. O desvio padrão da população é usado quando você tem dados para cada membro da população.

Por que usamos n-1 em vez de n ao calcular o desvio padrão da amostra?

Usamos n-1 para levar em conta o fato de que estamos trabalhando com uma amostra, não com a população inteira. Esse ajuste ajuda a reduzir a distorção e fornece uma estimativa mais precisa do desvio padrão da população.

Como o desvio padrão da amostra é diferente da variância?

A variância é a média das diferenças quadradas da média, expressa em unidades quadradas. O desvio padrão é a raiz quadrada da variação e é expresso nas mesmas unidades que os dados.

O desvio padrão da amostra pode ser negativo?

Não, o desvio padrão da amostra não pode ser negativo porque ele é a raiz quadrada da variação, que é sempre um número não negativo.

Que tipos de dados são apropriados para o cálculo do desvio padrão?

O desvio padrão é adequado para dados numéricos contínuos que seguem uma distribuição normal. Não é apropriado para dados categóricos ou distribuições muito inclinadas.

Temas

Aprenda estatística com o DataCamp

Certificação disponível

curso

Introdução à estatística

4 hr
77.6K
Aprenda os fundamentos da estatística, incluindo medidas de centro e dispersão, distribuições de probabilidade e testes de hipóteses, sem necessidade de codificação!
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

O que é análise de dados? Um guia especializado com exemplos

Explore o mundo da análise de dados com nosso guia abrangente. Saiba mais sobre sua importância, processo, tipos, técnicas, ferramentas e as principais carreiras em 2023
Matt Crabtree's photo

Matt Crabtree

10 min

blog

11 técnicas de visualização de dados para cada caso de uso com exemplos

Descubra as análises, técnicas e ferramentas mais populares para dominar a arte do assistente de visualização de dados
Javier Canales Luna's photo

Javier Canales Luna

12 min

blog

Como analisar dados para sua empresa em 5 etapas

Descubra as diferentes etapas para analisar dados e extrair valor deles, bem como os métodos e técnicas envolvidos no processo.
Javier Canales Luna's photo

Javier Canales Luna

14 min

tutorial

Como calcular o desvio padrão no Excel

Para calcular o desvio padrão no Excel, insira seus dados em um intervalo de células e use =STDEV.S() para dados de amostra ou =STDEV.P() para dados de população.
Arunn Thevapalan's photo

Arunn Thevapalan

10 min

tutorial

Entendendo o desvio de dados e o desvio de modelo: Detecção de deriva em Python

Navegue pelos perigos do desvio de modelo e explore nosso guia prático para o monitoramento do desvio de dados.
Moez Ali's photo

Moez Ali

9 min

tutorial

Teste de hipóteses facilitado

O teste de hipótese é um método estatístico usado para avaliar afirmações sobre populações com base em dados de amostra.
Vinod Chugani's photo

Vinod Chugani

9 min

Ver maisVer mais