Distribuição Gaussiana: Um guia abrangente

Descubra o significado da distribuição gaussiana, sua relação com o teorema do limite central e suas aplicações no mundo real em aprendizado de máquina e testes de hipóteses.

Atualizado 1 de out. de 2024 · 8 min lido

Poucos conceitos são tão fundamentais e amplamente aplicáveis em estatística e ciência de dados quanto a distribuição gaussiana. Também conhecido como distribuição normal, esse modelo matemático é a base de inúmeros métodos estatísticos e técnicas de análise de dados.

Este guia abrangente revela o conceito de distribuições gaussianas, explorando suas propriedades, aplicações e importância na análise de dados moderna. Examinaremos por que eles são tão predominantes nos fenômenos naturais e como são usados em vários campos, de finanças a produção.

Se você é iniciante em estatística ou deseja aprimorar os conceitos básicos, nosso curso Introduction to Statistics oferece uma excelente base. Para aqueles que estão prontos para aplicar esses conceitos em linguagens de programação específicas, nossos cursos Statistical Thinking in Python (Parte 1) e Statistics Fundamentals with R ajudarão você a apreciar as diversas formas em que a distribuição gaussiana aparece nas estatísticas descritivas e inferenciais.

O que é uma distribuição gaussiana?

A distribuição gaussiana, também conhecida como distribuição normal, é uma distribuição de probabilidade contínua caracterizada por sua curva em forma de sino. Ele é definido por dois parâmetros:

μ (mu): O valor médio ou esperado da distribuição
σ (sigma): O desvio padrão, que mede a dispersão da distribuição

A função de densidade de probabilidade (PDF) de uma distribuição gaussiana é dada por:

Onde:

x é a variável
e é o número de Euler (aproximadamente 2,71828)
π (pi) é a constante matemática pi (aproximadamente 3,14159)

Visualizando a distribuição gaussiana

Para ilustrar o conceito de uma distribuição gaussiana, considere a distribuição do peso ao nascer de bebês nascidos a termo em uma grande população:

Algumas observações importantes desse gráfico incluem:

Os pesos de nascimento da maioria dos bebês se agrupam em torno de um valor médio (o pico da curva).
Menos bebês têm pesos de nascimento que se desviam significativamente dessa média.
Pouquíssimos bebês têm pesos extremos ao nascer (muito altos ou muito baixos).

O teorema do limite central

A prevalência de distribuições gaussianas na natureza e na estatística pode ser explicada pelo teorema do limite central (CLT). A CLT afirma que a distribuição das médias das amostras se aproxima de uma distribuição normal à medida que o tamanho da amostra aumenta (por exemplo, n ≥ 30), independentemente da distribuição da população subjacente.

Um aspecto importante do CLT é que essa convergência para uma distribuição normal ocorre de forma relativamente rápida à medida que o tamanho da amostra aumenta. Para a maioria dos fins práticos, mesmo amostras de tamanho moderado (por exemplo, n ≥ 30) são suficientes para que as médias das amostras se aproximem de uma distribuição normal. Isso é verdade mesmo que a população em si seja distorcida.

A distribuição gaussiana padrão

Dentro da classe de distribuições gaussianas, há um caso especial conhecido como distribuição gaussiana padrão, também conhecida mais comumente como distribuição normal padrão. Essa é uma distribuição gaussiana em que:

A média (μ) é exatamente 0.
O desvio padrão (σ) é exatamente 1.

A função de densidade de probabilidade de uma distribuição gaussiana padrão é dada pela seguinte fórmula.

Observe que a fórmula da função de densidade de probabilidade gaussiana padrão é simplificada a partir da forma geral devido aos valores específicos atribuídos à média e ao desvio padrão. Agora, vamos visualizar a distribuição gaussiana padrão.

Distribuição Gaussiana padrão. Imagem do autor

A distribuição Gaussiana padrão, mostrada em nossa visualização, serve como ponto de referência em estatística. Em nosso visual, você pode ver como a Gaussiana padrão é uma versão padronizada de qualquer distribuição Gaussiana. O processo de padronização desloca a média para 0 e dimensiona o desvio padrão para 1, preservando as propriedades fundamentais da distribuição.

Propriedades das distribuições gaussianas

Vejamos agora algumas das propriedades das distribuições gaussianas.

Simetria e a curva de sino

A marca registrada de uma distribuição gaussiana é sua forma simétrica de sino. Essa simetria significa que os dados têm a mesma probabilidade de ficar acima ou abaixo da média, o que é particularmente útil para prever probabilidades e fazer inferências sobre os dados. Conforme mostrado na visualização a seguir, todas as distribuições gaussianas mantêm essa forma de sino característica, independentemente de sua média ou desvio padrão.

Distribuições Gaussianas visualizadas. Imagem do autor

Alinhamento de média, mediana e moda

Em uma distribuição gaussiana perfeita, a média (average), a mediana (middle value) e a moda (most frequent value) são todas iguais. Esse alinhamento fornece uma indicação clara da tendência central dos dados, o que é valioso para resumir conjuntos de dados. Em nossa visualização, você pode ver como o pico de cada curva representa esse ponto central.

Desvio padrão e dispersão de dados

O desvio padrão em uma distribuição gaussiana nos diz o quanto os dados estão espalhados em relação à média. Ele segue um padrão previsível:

Cerca de 68% dos dados estão dentro de um desvio padrão da média.
Cerca de 95% está dentro de dois desvios padrão.
Cerca de 99,7% estão dentro de três desvios padrão.

Essa regra, conhecida como regra regra 68-95-99,7aplica-se a todas as distribuições gaussianas, independentemente de sua média ou desvio padrão.

Aplicações práticas das distribuições gaussianas

As distribuições gaussianas são mais do que apenas um conceito teórico - elas têm uma ampla gama de aplicações em vários campos.

Inferência estatística e teste de hipóteses

Muitos testes estatísticos, como os testes t e ANOVA, pressupõem que os dados são normalmente distribuídos. Esses testes ajudam os pesquisadores a determinar se há diferenças significativas entre os grupos ou se os efeitos observados são provavelmente devidos ao acaso. A suposição de normalidade permite que os pesquisadores calculem os valores de p e os intervalos de confiança, fornecendo uma estrutura para tirar conclusões dos dados e tomar decisões informadas.

A suposição de normalidade é tão importante que técnicas de reamostragem, como o bootstrapping, foram desenvolvidas para gerar distribuições de reamostragem normalmente distribuídas a partir de dados não normais, facilitando a construção de intervalos de confiança e a realização de outras análises estatísticas. Nosso tutorial sobre testes de hipóteses mostra como você pode realizar esses testes em vários cenários, incluindo situações em que os dados são normalmente distribuídos.

Algoritmos de aprendizado de máquina

Muitas técnicas de aprendizado de máquina dependem de suposições de normalidade, o que torna as distribuições gaussianas fundamentais para sua operação e interpretação. Na regressão linear, por exemplo, normalmente queremos que os valores y (variável dependente) sigam uma distribuição normal para termos confiança em nossas estimativas. Além disso, queremos que os resíduos (as diferenças entre os valores observados e previstos) tenham uma distribuição normal. Essas premissas de normalidade sustentam os testes estatísticos usados para avaliar a confiabilidade do modelo e os intervalos de confiança de suas previsões.

Além disso, os cientistas de aprendizado de máquina podem preferir trabalhar com dados que seguem uma distribuição gaussiana por motivos de eficiência computacional. Uma distribuição gaussiana pode contribuir indiretamente para a eficiência computacional em determinados algoritmos, especialmente aqueles que pressupõem ou dependem da distribuição normal dos dados.

Estimativa eficiente de parâmetros: Em uma distribuição gaussiana, a média e a variação são estatísticas suficientes, o que significa que elas descrevem totalmente a distribuição. Isso reduz a necessidade de modelagem complexa de momentos mais altos, acelerando a estimativa de parâmetros.
Convergência do algoritmo: Algoritmos como o gradient descent, usado para otimização no aprendizado de máquina, convergem mais rapidamente se os dados forem normalmente distribuídos.
Complexidade computacional reduzida em alguns algoritmos: Algoritmos como o Gaussian naive Bayes são projetados especificamente para dados normalmente distribuídos e podem ser eficientes do ponto de vista computacional quando a suposição se mantém.

Torne-se um cientista de ML

Aperfeiçoe suas habilidades em Python para se tornar um cientista de aprendizado de máquina.

Comece a aprender de graça

O que você deve considerar com as distribuições gaussianas

Embora as distribuições gaussianas sejam incrivelmente úteis, é importante que você esteja ciente de alguns equívocos comuns.

Nem todos os dados são distribuídos normalmente

Muitos fenômenos naturais e sociais seguem outras distribuições. Sempre verifique seus dados antes de presumir que eles são normalmente distribuídos. Por exemplo, as distribuições de renda geralmente são distorcidas para a direita, seguindo uma distribuição log-normal em vez de uma normal. Da mesma forma, os tempos de espera e a abundância de espécies na ecologia geralmente seguem distribuições exponenciais ou de lei de potência.

Mesmo algumas distribuições que você espera que sejam normais não são necessariamente normais. Por exemplo, a idade de todos em um bairro não seria distribuída normalmente porque algumas gerações têm mais filhos, entre outros motivos. Por fim, devemos dizer que algumas distribuições parecem normais, mas não são. A distribuição de Pareto, por exemplo, tem uma cauda de lei de potência, e a distribuição de Cauchy não tem média ou variância definidas.

Valores discrepantes e extremos

Em uma distribuição gaussiana, os valores extremos são raros, mas não impossíveis. Não descarte automaticamente pontos de dados incomuns - eles podem conter informações valiosas. A regra 68-95-99,7 nos diz que cerca de 0,3% dos dados em uma distribuição normal ficarão além de três desvios padrão da média. Em um conjunto de dados de 1.000 pontos, isso significa que cerca de 3 pontos podem ser muito extremos sem violar as suposições de normalidade.

O tamanho da amostra é importante

O teorema do limite central requer um tamanho de amostra suficientemente grande para funcionar de forma eficaz. Seja cauteloso ao aplicar suposições de distribuição normal a conjuntos de dados pequenos. Embora não haja um limite universal, muitos estatísticos sugerem um tamanho mínimo de amostra de 30 para que o teorema do limite central seja aplicado razoavelmente bem. No entanto, isso pode variar de acordo com a distribuição subjacente da população. Para distribuições altamente distorcidas, você pode precisar de amostras ainda maiores.

Outras distribuições a serem consideradas

Embora as distribuições Gaussianas sejam amplamente aplicáveis, às vezes outras distribuições são mais apropriadas.

Distribuição t de Student

A distribuição t de Student se assemelha à distribuição normal, mas tem caudas mais pesadas, o que significa que ela atribui maior probabilidade a valores extremos distantes da média. Essa característica o torna particularmente útil nos seguintes cenários:

Pequenos tamanhos de amostra: Ao lidar com conjuntos de dados pequenos (normalmente com menos de 30 observações), a estimativa do desvio padrão da população se torna menos confiável. A distribuição t leva em conta essa maior incerteza.
Desvio padrão da população desconhecida: Se o desvio padrão da população for desconhecido, o que geralmente acontece, a distribuição t fornecerá um modelo mais preciso para a distribuição de amostragem da média da amostra.
Outliers e caudas pesadas: Os dados que são propensos a valores extremos ou discrepantes se beneficiam das caudas mais pesadas da distribuição t, proporcionando um ajuste melhor do que a distribuição normal.

À medida que o tamanho da amostra aumenta, a distribuição t converge para a distribuição normal. Isso se deve ao teorema do limite central, que afirma que a distribuição amostral da média da amostra se aproxima da normalidade à medida que o tamanho da amostra aumenta, independentemente da distribuição da população.

Distribuição log-normal

A distribuição log-normal é aplicável para modelar dados que são positivamente inclinados e não podem assumir valores negativos. Ele é caracterizado pelo seguinte:

Processos multiplicativos: Quando os dados resultam da multiplicação de muitos fatores positivos e independentes (por exemplo, juros compostos), a distribuição log-normal costuma ser adequada.
Dados distorcidos: Variáveis como renda, preços de ações e determinadas medidas biológicas (como o comprimento de organismos ou tempos de reação) são normalmente inclinadas para a direita, o que torna a distribuição log-normal mais adequada.
Valores não negativos: Como a função exponencial nunca produz resultados negativos, as variáveis com distribuição log-normal são estritamente positivas, o que se alinha bem aos cenários do mundo real em que valores negativos são impossíveis ou sem sentido.

Matematicamente, uma variável X tem distribuição log-normal se ln(X) tiver distribuição normal. Essa propriedade permite o uso de técnicas de distribuição normal em dados transformados logaritmicamente, simplificando a análise e a interpretação.

Distribuição gaussiana multivariada

A distribuição Gaussiana multivariada, também conhecida como distribuição normal multivariada, é uma extensão da distribuição normal univariada para dimensões mais altas. Ele é caracterizado por:

Variáveis correlacionadas múltiplas: Descreve a distribuição conjunta de duas ou mais variáveis aleatórias normalmente distribuídas que podem estar correlacionadas.
Contornos elípticos: Em duas dimensões, seus contornos de densidade de probabilidade formam elipses. Em dimensões maiores, eles se tornam elipsoides.
Definido pelo vetor médio e pela matriz de covariância: Em vez de uma única média e variância, ele usa um vetor de média e uma matriz de covariância para capturar as relações entre as variáveis.

A distribuição gaussiana multivariada é amplamente usada em algoritmos de aprendizado de máquina, como modelos de mistura gaussiana, para tarefas de agrupamento e estimativa de densidade. Também é frequentemente empregado em modelagem financeira, onde ajuda a entender e prever o comportamento conjunto de vários retornos de ativos.

Conclusão

As distribuições gaussianas desempenham um papel fundamental na análise estatística e na ciência de dados. Sua ampla aplicabilidade e propriedades bem compreendidas fazem deles uma ferramenta indispensável em vários campos, desde o controle de qualidade na fabricação até a avaliação de riscos em finanças.

No entanto, é importante lembrar que, embora a distribuição gaussiana seja amplamente usada, ela não é uma solução universal. Reconhecer quando empregar distribuições alternativas, como a distribuição t de Student ou a distribuição log-normal, é fundamental para aumentar a precisão e a confiabilidade de suas análises. Ao alinhar a escolha da distribuição com as propriedades inerentes dos dados, você garante inferências mais válidas e uma melhor tomada de decisão.

Para aqueles que desejam aprofundar seus conhecimentos sobre probabilidade e suas aplicações na ciência de dados, nosso curso Foundations of Probability in Python oferece um mergulho abrangente nesses conceitos. Se você se sente mais confortável com o R, o curso Introduction to Statistics in R oferece uma base sólida em conceitos estatísticos usando a programação R.