curso
Distribuição Gaussiana: Um guia abrangente
Poucos conceitos são tão fundamentais e amplamente aplicáveis em estatística e ciência de dados quanto a distribuição gaussiana. Também conhecido como distribuição normal, esse modelo matemático é a base de inúmeros métodos estatísticos e técnicas de análise de dados.
Este guia abrangente revela o conceito de distribuições gaussianas, explorando suas propriedades, aplicações e importância na análise de dados moderna. Examinaremos por que eles são tão predominantes nos fenômenos naturais e como são usados em vários campos, de finanças a produção.
Se você é iniciante em estatística ou deseja aprimorar os conceitos básicos, nosso curso Introduction to Statistics oferece uma excelente base. Para aqueles que estão prontos para aplicar esses conceitos em linguagens de programação específicas, nossos cursos Statistical Thinking in Python (Parte 1) e Statistics Fundamentals with R ajudarão você a apreciar as diversas formas em que a distribuição gaussiana aparece nas estatísticas descritivas e inferenciais.
O que é uma distribuição gaussiana?
A distribuição gaussiana, também conhecida como distribuição normal, é uma distribuição de probabilidade contínua caracterizada por sua curva em forma de sino. Ele é definido por dois parâmetros:
- μ (mu): O valor médio ou esperado da distribuição
- σ (sigma): O desvio padrão, que mede a dispersão da distribuição
A função de densidade de probabilidade (PDF) de uma distribuição gaussiana é dada por:
Onde:
- x é a variável
- e é o número de Euler (aproximadamente 2,71828)
- π (pi) é a constante matemática pi (aproximadamente 3,14159)
Visualizando a distribuição gaussiana
Para ilustrar o conceito de uma distribuição gaussiana, considere a distribuição do peso ao nascer de bebês nascidos a termo em uma grande população:
Algumas observações importantes desse gráfico incluem:
- Os pesos de nascimento da maioria dos bebês se agrupam em torno de um valor médio (o pico da curva).
- Menos bebês têm pesos de nascimento que se desviam significativamente dessa média.
- Pouquíssimos bebês têm pesos extremos ao nascer (muito altos ou muito baixos).
O teorema do limite central
A prevalência de distribuições gaussianas na natureza e na estatística pode ser explicada pelo teorema do limite central (CLT). A CLT afirma que a distribuição das médias das amostras se aproxima de uma distribuição normal à medida que o tamanho da amostra aumenta (por exemplo, n ≥ 30), independentemente da distribuição da população subjacente.
Um aspecto importante do CLT é que essa convergência para uma distribuição normal ocorre de forma relativamente rápida à medida que o tamanho da amostra aumenta. Para a maioria dos fins práticos, mesmo amostras de tamanho moderado (por exemplo, n ≥ 30) são suficientes para que as médias das amostras se aproximem de uma distribuição normal. Isso é verdade mesmo que a população em si seja distorcida.
A distribuição gaussiana padrão
Dentro da classe de distribuições gaussianas, há um caso especial conhecido como distribuição gaussiana padrão, também conhecida mais comumente como distribuição normal padrão. Essa é uma distribuição gaussiana em que:
- A média (μ) é exatamente 0.
- O desvio padrão (σ) é exatamente 1.
A função de densidade de probabilidade de uma distribuição gaussiana padrão é dada pela seguinte fórmula.
Observe que a fórmula da função de densidade de probabilidade gaussiana padrão é simplificada a partir da forma geral devido aos valores específicos atribuídos à média e ao desvio padrão. Agora, vamos visualizar a distribuição gaussiana padrão.
Distribuição Gaussiana padrão. Imagem do autor
A distribuição Gaussiana padrão, mostrada em nossa visualização, serve como ponto de referência em estatística. Em nosso visual, você pode ver como a Gaussiana padrão é uma versão padronizada de qualquer distribuição Gaussiana. O processo de padronização desloca a média para 0 e dimensiona o desvio padrão para 1, preservando as propriedades fundamentais da distribuição.
Propriedades das distribuições gaussianas
Vejamos agora algumas das propriedades das distribuições gaussianas.
Simetria e a curva de sino
A marca registrada de uma distribuição gaussiana é sua forma simétrica de sino. Essa simetria significa que os dados têm a mesma probabilidade de ficar acima ou abaixo da média, o que é particularmente útil para prever probabilidades e fazer inferências sobre os dados. Conforme mostrado na visualização a seguir, todas as distribuições gaussianas mantêm essa forma de sino característica, independentemente de sua média ou desvio padrão.
Distribuições Gaussianas visualizadas. Imagem do autor
Alinhamento de média, mediana e moda
Em uma distribuição gaussiana perfeita, a média (average), a mediana (middle value) e a moda (most frequent value) são todas iguais. Esse alinhamento fornece uma indicação clara da tendência central dos dados, o que é valioso para resumir conjuntos de dados. Em nossa visualização, você pode ver como o pico de cada curva representa esse ponto central.
Desvio padrão e dispersão de dados
O desvio padrão em uma distribuição gaussiana nos diz o quanto os dados estão espalhados em relação à média. Ele segue um padrão previsível:
- Cerca de 68% dos dados estão dentro de um desvio padrão da média.
- Cerca de 95% está dentro de dois desvios padrão.
- Cerca de 99,7% estão dentro de três desvios padrão.
Essa regra, conhecida como regra regra 68-95-99,7aplica-se a todas as distribuições gaussianas, independentemente de sua média ou desvio padrão.
Aplicações práticas das distribuições gaussianas
As distribuições gaussianas são mais do que apenas um conceito teórico - elas têm uma ampla gama de aplicações em vários campos.
Inferência estatística e teste de hipóteses
Muitos testes estatísticos, como os testes t e ANOVA, pressupõem que os dados são normalmente distribuídos. Esses testes ajudam os pesquisadores a determinar se há diferenças significativas entre os grupos ou se os efeitos observados são provavelmente devidos ao acaso. A suposição de normalidade permite que os pesquisadores calculem os valores de p e os intervalos de confiança, fornecendo uma estrutura para tirar conclusões dos dados e tomar decisões informadas.
A suposição de normalidade é tão importante que técnicas de reamostragem, como o bootstrapping, foram desenvolvidas para gerar distribuições de reamostragem normalmente distribuídas a partir de dados não normais, facilitando a construção de intervalos de confiança e a realização de outras análises estatísticas. Nosso tutorial sobre testes de hipóteses mostra como você pode realizar esses testes em vários cenários, incluindo situações em que os dados são normalmente distribuídos.
Algoritmos de aprendizado de máquina
Muitas técnicas de aprendizado de máquina dependem de suposições de normalidade, o que torna as distribuições gaussianas fundamentais para sua operação e interpretação. Na regressão linear, por exemplo, normalmente queremos que os valores y (variável dependente) sigam uma distribuição normal para termos confiança em nossas estimativas. Além disso, queremos que os resíduos (as diferenças entre os valores observados e previstos) tenham uma distribuição normal. Essas premissas de normalidade sustentam os testes estatísticos usados para avaliar a confiabilidade do modelo e os intervalos de confiança de suas previsões.
Além disso, os cientistas de aprendizado de máquina podem preferir trabalhar com dados que seguem uma distribuição gaussiana por motivos de eficiência computacional. Uma distribuição gaussiana pode contribuir indiretamente para a eficiência computacional em determinados algoritmos, especialmente aqueles que pressupõem ou dependem da distribuição normal dos dados.
- Estimativa eficiente de parâmetros: Em uma distribuição gaussiana, a média e a variação são estatísticas suficientes, o que significa que elas descrevem totalmente a distribuição. Isso reduz a necessidade de modelagem complexa de momentos mais altos, acelerando a estimativa de parâmetros.
- Convergência do algoritmo: Algoritmos como o gradient descent, usado para otimização no aprendizado de máquina, convergem mais rapidamente se os dados forem normalmente distribuídos.
- Complexidade computacional reduzida em alguns algoritmos: Algoritmos como o Gaussian naive Bayes são projetados especificamente para dados normalmente distribuídos e podem ser eficientes do ponto de vista computacional quando a suposição se mantém.
Torne-se um cientista de ML
O que você deve considerar com as distribuições gaussianas
Embora as distribuições gaussianas sejam incrivelmente úteis, é importante que você esteja ciente de alguns equívocos comuns.
Nem todos os dados são distribuídos normalmente
Muitos fenômenos naturais e sociais seguem outras distribuições. Sempre verifique seus dados antes de presumir que eles são normalmente distribuídos. Por exemplo, as distribuições de renda geralmente são distorcidas para a direita, seguindo uma distribuição log-normal em vez de uma normal. Da mesma forma, os tempos de espera e a abundância de espécies na ecologia geralmente seguem distribuições exponenciais ou de lei de potência.
Mesmo algumas distribuições que você espera que sejam normais não são necessariamente normais. Por exemplo, a idade de todos em um bairro não seria distribuída normalmente porque algumas gerações têm mais filhos, entre outros motivos. Por fim, devemos dizer que algumas distribuições parecem normais, mas não são. A distribuição de Pareto, por exemplo, tem uma cauda de lei de potência, e a distribuição de Cauchy não tem média ou variância definidas.
Valores discrepantes e extremos
Em uma distribuição gaussiana, os valores extremos são raros, mas não impossíveis. Não descarte automaticamente pontos de dados incomuns - eles podem conter informações valiosas. A regra 68-95-99,7 nos diz que cerca de 0,3% dos dados em uma distribuição normal ficarão além de três desvios padrão da média. Em um conjunto de dados de 1.000 pontos, isso significa que cerca de 3 pontos podem ser muito extremos sem violar as suposições de normalidade.
O tamanho da amostra é importante
O teorema do limite central requer um tamanho de amostra suficientemente grande para funcionar de forma eficaz. Seja cauteloso ao aplicar suposições de distribuição normal a conjuntos de dados pequenos. Embora não haja um limite universal, muitos estatísticos sugerem um tamanho mínimo de amostra de 30 para que o teorema do limite central seja aplicado razoavelmente bem. No entanto, isso pode variar de acordo com a distribuição subjacente da população. Para distribuições altamente distorcidas, você pode precisar de amostras ainda maiores.
Outras distribuições a serem consideradas
Embora as distribuições Gaussianas sejam amplamente aplicáveis, às vezes outras distribuições são mais apropriadas.
Distribuição t de Student
A distribuição t de Student se assemelha à distribuição normal, mas tem caudas mais pesadas, o que significa que ela atribui maior probabilidade a valores extremos distantes da média. Essa característica o torna particularmente útil nos seguintes cenários:
- Pequenos tamanhos de amostra: Ao lidar com conjuntos de dados pequenos (normalmente com menos de 30 observações), a estimativa do desvio padrão da população se torna menos confiável. A distribuição t leva em conta essa maior incerteza.
- Desvio padrão da população desconhecida: Se o desvio padrão da população for desconhecido, o que geralmente acontece, a distribuição t fornecerá um modelo mais preciso para a distribuição de amostragem da média da amostra.
- Outliers e caudas pesadas: Os dados que são propensos a valores extremos ou discrepantes se beneficiam das caudas mais pesadas da distribuição t, proporcionando um ajuste melhor do que a distribuição normal.
À medida que o tamanho da amostra aumenta, a distribuição t converge para a distribuição normal. Isso se deve ao teorema do limite central, que afirma que a distribuição amostral da média da amostra se aproxima da normalidade à medida que o tamanho da amostra aumenta, independentemente da distribuição da população.
Distribuição log-normal
A distribuição log-normal é aplicável para modelar dados que são positivamente inclinados e não podem assumir valores negativos. Ele é caracterizado pelo seguinte:
- Processos multiplicativos: Quando os dados resultam da multiplicação de muitos fatores positivos e independentes (por exemplo, juros compostos), a distribuição log-normal costuma ser adequada.
- Dados distorcidos: Variáveis como renda, preços de ações e determinadas medidas biológicas (como o comprimento de organismos ou tempos de reação) são normalmente inclinadas para a direita, o que torna a distribuição log-normal mais adequada.
- Valores não negativos: Como a função exponencial nunca produz resultados negativos, as variáveis com distribuição log-normal são estritamente positivas, o que se alinha bem aos cenários do mundo real em que valores negativos são impossíveis ou sem sentido.
Matematicamente, uma variável X tem distribuição log-normal se ln(X) tiver distribuição normal. Essa propriedade permite o uso de técnicas de distribuição normal em dados transformados logaritmicamente, simplificando a análise e a interpretação.
Distribuição gaussiana multivariada
A distribuição Gaussiana multivariada, também conhecida como distribuição normal multivariada, é uma extensão da distribuição normal univariada para dimensões mais altas. Ele é caracterizado por:
- Variáveis correlacionadas múltiplas: Descreve a distribuição conjunta de duas ou mais variáveis aleatórias normalmente distribuídas que podem estar correlacionadas.
- Contornos elípticos: Em duas dimensões, seus contornos de densidade de probabilidade formam elipses. Em dimensões maiores, eles se tornam elipsoides.
- Definido pelo vetor médio e pela matriz de covariância: Em vez de uma única média e variância, ele usa um vetor de média e uma matriz de covariância para capturar as relações entre as variáveis.
A distribuição gaussiana multivariada é amplamente usada em algoritmos de aprendizado de máquina, como modelos de mistura gaussiana, para tarefas de agrupamento e estimativa de densidade. Também é frequentemente empregado em modelagem financeira, onde ajuda a entender e prever o comportamento conjunto de vários retornos de ativos.
Conclusão
As distribuições gaussianas desempenham um papel fundamental na análise estatística e na ciência de dados. Sua ampla aplicabilidade e propriedades bem compreendidas fazem deles uma ferramenta indispensável em vários campos, desde o controle de qualidade na fabricação até a avaliação de riscos em finanças.
No entanto, é importante lembrar que, embora a distribuição gaussiana seja amplamente usada, ela não é uma solução universal. Reconhecer quando empregar distribuições alternativas, como a distribuição t de Student ou a distribuição log-normal, é fundamental para aumentar a precisão e a confiabilidade de suas análises. Ao alinhar a escolha da distribuição com as propriedades inerentes dos dados, você garante inferências mais válidas e uma melhor tomada de decisão.
Para aqueles que desejam aprofundar seus conhecimentos sobre probabilidade e suas aplicações na ciência de dados, nosso curso Foundations of Probability in Python oferece um mergulho abrangente nesses conceitos. Se você se sente mais confortável com o R, o curso Introduction to Statistics in R oferece uma base sólida em conceitos estatísticos usando a programação R.
Como um profissional experiente em ciência de dados, machine learning e IA generativa, Vinod se dedica a compartilhar conhecimento e capacitar aspirantes a cientistas de dados para que tenham sucesso nesse campo dinâmico.
Perguntas sobre a distribuição gaussiana
O que é uma distribuição gaussiana (normal)?
A distribuição gaussiana, também conhecida como distribuição normal, é uma distribuição de probabilidade contínua caracterizada por uma curva simétrica em forma de sino. Ele é definido por dois parâmetros: a média (average) e o desvio padrão (spread ou variabilidade). A média determina o centro da distribuição, enquanto o desvio padrão controla a largura da curva.
O que é a distribuição normal padrão?
A distribuição normal padrão é um caso especial da distribuição gaussiana com uma média de zero e um desvio padrão de um. Ele é usado para simplificar os cálculos e permite o uso de tabelas z padrão para encontrar probabilidades e valores críticos. Qualquer distribuição normal pode ser transformada em uma distribuição normal padrão usando escores z.
Por que ela é chamada de "curva de sino"?
A distribuição gaussiana é frequentemente chamada de curva de sino devido à sua forma distinta. Quando plotada, ela forma uma curva simétrica em forma de sino que atinge o pico na média. Os lados da curva diminuem à medida que os valores se afastam da média em qualquer direção.
Quando a distribuição gaussiana não deve ser usada?
Ele não deve ser usado quando os dados são significativamente inclinados, têm caudas pesadas (curtose) ou são limitados (por exemplo, não podem assumir valores negativos quando a Gaussiana os permite). Em casos de amostras pequenas, outliers ou quando o processo subjacente de geração de dados não se alinha com as suposições de normalidade, distribuições alternativas podem ser mais apropriadas. Sempre avalie as características dos dados antes de presumir a normalidade.
O que é o teorema do limite central e como ele se relaciona com as distribuições gaussianas?
O teorema do limite central afirma que a distribuição das médias das amostras se aproxima de uma distribuição normal à medida que o tamanho da amostra aumenta. Isso é verdadeiro independentemente da distribuição subjacente da população. O teorema explica por que muitos fenômenos naturais tendem a seguir uma distribuição gaussiana e permite uma aplicação mais ampla de técnicas baseadas em distribuição normal.
O que é uma distribuição gaussiana multivariada?
Uma distribuição Gaussiana multivariada é uma extensão da distribuição normal univariada para dimensões mais altas, descrevendo a distribuição conjunta de duas ou mais variáveis aleatórias correlacionadas e normalmente distribuídas. Ele é caracterizado por um vetor de média e uma matriz de covariância, em vez de uma única média e variância.
Qual é a assimetria e a curtose de uma distribuição gaussiana?
Uma distribuição perfeitamente gaussiana tem uma assimetria de zero. Isso significa que ela é perfeitamente simétrica, com os lados esquerdo e direito da distribuição se espelhando em torno da média. A curtose de uma distribuição gaussiana é 3, que é frequentemente usada como ponto de referência. O excesso de curtose (curtose menos 3) é 0 para uma distribuição gaussiana.
Aprenda com a DataCamp
curso
Multivariate Probability Distributions in R
curso
Sampling in Python
tutorial
Entendendo o desvio de dados e o desvio de modelo: Detecção de deriva em Python
tutorial
Tutorial para entender a regressão logística em Python

Avinash Navlani
10 min
tutorial
Introdução ao k-Means Clustering com o scikit-learn em Python
Kevin Babitz
21 min
tutorial
Tutorial de regressão Lasso e Ridge em Python

DataCamp Team
10 min
tutorial
Tutorial de manipulação de dados categóricos de aprendizado de máquina com Python
tutorial