Pular para o conteúdo principal

Distribuição de Poisson: Um guia abrangente

A distribuição de Poisson modela a probabilidade de ocorrência de um determinado número de eventos em um intervalo fixo. Veja como ela é aplicada em cenários do mundo real, como a teoria das filas e a modelagem de tráfego.
Actualizado 1 de out. de 2024  · 9 min de leitura

Em estatística e ciência de dados, a distribuição de Poisson é uma ferramenta importante para modelar eventos discretos que ocorrem em um intervalo fixo. Nomeada em homenagem ao matemático francês Siméon Denis Poisson, essa distribuição de probabilidade ajuda a analisar e prever eventos raros, o que a torna valiosa para profissionais de dados em vários campos.

Se você é novo em estatística, nosso curso de Introdução à Estatística oferece uma base sólida para a compreensão desses conceitos. Para aqueles que estão prontos para realmente aprender a teoria da probabilidade, o curso Foundations of Probability in Python oferece uma exploração abrangente de conceitos probabilísticos, incluindo a distribuição de Poisson. 

O que é uma distribuição de Poisson?

A distribuição de Poisson é uma distribuição de probabilidade discreta que expressa a probabilidade de ocorrência de um determinado número de eventos em um intervalo fixo de tempo ou espaço. Ele pressupõe que esses eventos ocorram com uma taxa média conhecida e independentemente do tempo decorrido desde o último evento. Para entender a distribuição de Poisson, primeiro é útil saber a diferença entre distribuições discretas e contínuas.

Distribuição de Poisson vs. uma distribuição contínua

Distribuição de Poisson vs. uma distribuição contínua. Imagem do autor

Distribuições discretas

  • Natureza: As distribuições discretas descrevem fenômenos em que os resultados podem ser contados em números inteiros. Eles são caracterizados por funções de massa de probabilidade (PMF) que atribuem uma probabilidade a cada resultado discreto possível.
  • Visualização: No painel esquerdo, é mostrada a distribuição de Poisson, em que cada ponto representa a probabilidade de ocorrência de um número específico de eventos em um intervalo fixo. Essa distribuição é ideal para modelar dados de contagem, como o número de e-mails recebidos por hora. Você pode notar, também, que não há valores negativos no painel de distribuição de Poisson. Isso ocorre porque as distribuições de Poisson, por definição, não podem ter valores negativos.

Alguns exemplos de distribuições de probabilidade discretas incluem as distribuições Bernoulli e binomial

Distribuições contínuas

  • Natureza: As distribuições contínuas são usadas para dados que podem assumir qualquer valor em um intervalo, inclusive decimais. Eles usam funções de densidade de probabilidade (PDF) para descrever as probabilidades de resultados em um determinado intervalo.
  • Visualização: O painel direito ilustra a distribuição normal. A curva suave indica a densidade de valores em torno da média, e a área sob a curva entre quaisquer dois pontos fornece a probabilidade de você se enquadrar nesse intervalo. Esse tipo de distribuição é útil para medir quantidades como temperatura ou peso.

A distribuição normal, ou gaussiana, é um excelente exemplo de distribuição contínua.

Propriedades das distribuições de Poisson

Vamos dar uma olhada em algumas das características importantes da distribuição de Poisson.

Eventos em um intervalo fixo

Uma característica fundamental da distribuição de Poisson é sua capacidade de modelar eventos em um intervalo fixo. Esse intervalo pode ser de tempo (por exemplo, o número de clientes que chegam por hora) ou de espaço (por exemplo, o número de defeitos por metro quadrado de tecido). O modelo pressupõe que:

  1. Os eventos ocorrem de forma independente.
  2. A taxa média de ocorrência (λ) permanece constante durante o intervalo.
  3. Dois eventos não podem ocorrer exatamente no mesmo instante.

Média e variância

Uma das propriedades mais marcantes da distribuição de Poisson é que sua média (valor esperado) é igual à sua variação. Ambos são representados pelo parâmetro λ (lambda), que denota o número médio de eventos no intervalo. Essa propriedade é exclusiva e ajuda a identificar se um conjunto de dados segue uma distribuição de Poisson. Matematicamente, isso pode ser representado na seguinte equação: 

Média e variância da distribuição de Poisson

Essa igualdade implica que, à medida que o número esperado de eventos aumenta, o mesmo ocorre com a variabilidade no número real de ocorrências.

Skewness e forma

A forma da distribuição de Poisson varia de acordo com o valor de λ. Essa ilustração visual demonstra como λ afeta a assimetria da distribuição: 

Distribuições de Poisson com diferentes valores lambda

Distribuições de Poisson com diferentes valores lambda. Imagem do autor

  • Para valores pequenos de λ (λ < 10), a distribuição é visivelmente inclinada para a direita. Isso significa que há mais ocorrências com menos eventos e menos ocorrências com um número maior de eventos.
  • À medida que λ aumenta (λ > 10), a distribuição se torna mais simétrica e começa a se assemelhar a uma distribuição normal. Essa simetria indica que os dados estão mais uniformemente distribuídos em torno da média.

Essa mudança de formato afeta a forma como interpretamos as probabilidades e fazemos inferências a partir de dados com distribuição de Poisson. Por exemplo, uma distribuição simétrica simplifica muitos tipos de análises, como testes de hipóteses e estimativas de intervalos de confiança, porque a distribuição dos dados é mais previsível e equilibrada.

Fórmula de distribuição de Poisson

Dê uma olhada na fórmula da distribuição de Poisson. 

Fórmula de distribuição de Poisson

  • O lado esquerdo (LHS) da fórmula da distribuição de Poisson, P(X = k), representa a probabilidade de ocorrência de exatamente k eventos em um intervalo fixo. Aqui, X é o número de eventos e k é o número específico no qual estamos interessados. Em outras palavras, o LHS nos diz qual é a probabilidade que estamos calculando.

  • O numerador do lado direito (RHS),e-λλk, tem duas partes. λk mostra a probabilidade de ocorrência de k eventos com base na taxa média λ. O e-λ é responsável pela aleatoriedade dos eventos, garantindo que a probabilidade diminua à medida que o número de eventos se desvia da taxa esperada.

  • O denominador do lado direito (RHS), k! ajusta a quantidade de maneiras pelas quais os eventosx podem ocorrer. A notação fatorial calcula o número de arranjos possíveis, garantindo que a probabilidade reflita o fato de que a ordem dos eventos não importa.

Se você realmente quiser se tornar confiante no uso de Python para aprendizado de máquina, inicie nossa carreira de Cientista de Aprendizado de Máquina com Python, que permite que você pratique técnicas avançadas com conjuntos de dados reais. 

Torne-se um cientista de ML

Aperfeiçoe suas habilidades em Python para se tornar um cientista de aprendizado de máquina.
Comece a aprender de graça

Como a distribuição de Poisson é usada

Vamos dar uma olhada em alguns dos usos reais da distribuição de Poisson. Se você estiver interessado em planejamento de capacidade e otimização de desempenho, nosso curso Mixture Models in R abrange aplicações avançadas de distribuições de probabilidade, incluindo misturas de Poisson.

Teoria das filas

Na teoria das filas, as distribuições de Poisson modelam as chegadas de clientes aos pontos de atendimento. Por exemplo, um banco pode usar essa distribuição para prever quantos clientes chegarão em uma determinada hora, ajudando a otimizar os níveis de pessoal e a reduzir os tempos de espera.

Epidemiologia e eventos raros

Os epidemiologistas frequentemente empregam distribuições de Poisson para modelar a ocorrência de doenças raras. Esse aplicativo ajuda a estimar o número esperado de casos em uma população ou a detectar surtos incomuns, comparando os casos observados com a distribuição de Poisson esperada. Se tiver interesse em epidemiologia, você pode ouvir nosso episódio do podcast Data Science, Epidemiology and Public Health (Ciência de dados, epidemiologia e saúde pública ) com Maëlle Salmon.

Modelagem de tráfego e rede

Os engenheiros de tráfego e analistas de rede usam distribuições de Poisson para modelar o número de veículos que passam por um posto de controle, as chegadas de pacotes de dados em um servidor ou as chegadas de chamadas em uma central de atendimento.

Desempenho, concepções errôneas e alternativas

Ao trabalhar com distribuições de Poisson, é essencial considerar fatores relacionados ao desempenho, equívocos comuns e modelos alternativos para garantir resultados precisos. Vale a pena explorar várias áreas:

Desafios de desempenho

Vários fatores influenciam a eficácia da modelagem da distribuição de Poisson, especialmente ao lidar com casos extremos:

  • Taxas de eventos baixas: Ao lidar com taxas de eventos muito baixas (λ pequeno), surgem desafios devido à alta variabilidade dos resultados. As estratégias para gerenciar isso incluem o uso de períodos de observação mais longos para aumentar a contagem esperada, o emprego de métodos bayesianos para incorporar o conhecimento prévio ou a consideração de modelos inflados com zero para o excesso de zeros.
  • Aproximações com distribuição normal: Para valores maiores de λ (normalmente acima de 30), a distribuição de Poisson pode ser aproximada usando uma distribuição normal, o que simplifica os cálculos, mas exige uma aplicação cuidadosa.

Esclarecimento de concepções errôneas

A falta de compreensão dos elementos-chave pode levar a modelos falhos:

  • Intervalos fixos: Um equívoco comum é que o intervalo em um processo de Poisson pode variar. Na realidade, o intervalo deve ser fixo e bem definido. Intervalos variáveis podem levar a modelagem incorreta e previsões imprecisas.
  • Confusão com a distribuição binomial: Embora a distribuição de Poisson possa ser derivada como um limite da distribuição binomial sob certas condições, elas são distintas. A distribuição de Poisson é usada para contar eventos raros em um intervalo fixo de tempo ou espaço, enquanto a binomial é usada para um número fixo de tentativas independentes com dois resultados possíveis.

Considerando distribuições alternativas

Em alguns casos, distribuições alternativas podem oferecer melhores resultados:

  • Distribuição binomial negativa: A distribuição binomial negativa é uma alternativa para dados de contagem superdispersos, em que a variação excede a média. É mais flexível do que a distribuição de Poisson e pode modelar dados com maior variabilidade.
  • Distribuição exponencial: Enquanto a distribuição de Poisson modela o número de eventos em um intervalo fixo, a distribuição exponencial modela o tempo entre os eventos em um processo de Poisson. É contínuo em vez de discreto e é crucial na análise de sobrevivência e na engenharia de confiabilidade.

Considerações finais sobre a distribuição de Poisson

A compreensão das distribuições de Poisson aprimora significativamente a análise estatística e a interpretação de dados, principalmente ao analisar eventos raros ou dados de contagem. Ao compreender suas propriedades, aplicações e limitações, os profissionais de dados podem aprimorar seus processos de tomada de decisão e criar modelos mais precisos. 

À medida que você avança na ciência de dados, considere expandir seu conhecimento sobre conceitos estatísticos e suas aplicações práticas. Para quem trabalha com R, o curso Introduction to Statistics in R e o curso de habilidades Statistics Fundamentals with R oferecem uma visão geral abrangente dos principais princípios estatísticos, incluindo experiência prática com distribuições como Poisson. Para aqueles que preferem trabalhar com Python, nosso curso Introduction to Statistics in Python oferece experiência prática na implementação de conceitos estatísticos, incluindo otimizações de desempenho. Ao continuar a desenvolver suas habilidades estatísticas, você estará preparado para enfrentar desafios de dados complexos e extrair insights significativos em seu trabalho.

Torne-se um cientista de ML

Domine as habilidades em Python para se tornar um cientista de aprendizado de máquina

Vinod Chugani's photo
Author
Vinod Chugani
LinkedIn

Como um profissional experiente em ciência de dados, machine learning e IA generativa, Vinod se dedica a compartilhar conhecimento e capacitar aspirantes a cientistas de dados para que tenham sucesso nesse campo dinâmico.

Perguntas frequentes sobre a distribuição de Poisson

O que é uma distribuição de Poisson?

A distribuição de Poisson é um modelo estatístico que prevê quantas vezes um evento raro pode ocorrer em um período ou área específica. É particularmente útil quando você lida com eventos que ocorrem aleatoriamente, mas em uma taxa média previsível. Essa distribuição nos ajuda a entender os padrões de ocorrências aparentemente aleatórias, desde o número de clientes que chegam a uma loja em uma hora até a contagem de impactos de meteoros na superfície de um planeta ao longo de um século.

Quando você deve usar a distribuição de Poisson?

Você deve usar a distribuição de Poisson ao modelar cenários em que os eventos ocorrem de forma aleatória e independente a uma taxa constante em um determinado intervalo, como o número de e-mails recebidos em uma hora ou de chamadas em um call center durante um turno.

Qual é a diferença entre a distribuição de Poisson e a distribuição normal?

A distribuição de Poisson é usada para dados de contagem discreta com números potencialmente pequenos de eventos, enquanto a distribuição normal geralmente modela dados contínuos e se torna uma boa aproximação de Poisson quando a taxa de eventos (λ) é grande.

Qual é a relação entre as distribuições de Poisson e exponencial?

A distribuição de Poisson conta o número de eventos em um intervalo fixo, enquanto a distribuição exponencial mede o tempo entre eventos sucessivos em um processo de Poisson. Elas estão matematicamente ligadas - saber a taxa de ocorrências em Poisson ajuda a determinar a escala da distribuição exponencial.

A distribuição de Poisson pode ser usada para modelar qualquer tipo de dados?

Não, a distribuição de Poisson é especificamente útil para modelar a contagem de eventos discretos que ocorrem independentemente em um intervalo ou região fixa, e pressupõe uma taxa média constante. Não é adequado para dados em que os eventos influenciam uns aos outros ou ocorrem em taxas não constantes.

O que significa λ em uma distribuição de Poisson?

Em uma distribuição de Poisson, λ (lambda) representa o número esperado de eventos no intervalo. É tanto a média quanto a variação da distribuição.

Como você cria uma distribuição de Poisson em Python?

Para criar uma distribuição Poisson em Python, você usa principalmente o módulo random da biblioteca NumPy. A função np.random.poisson() gera amostras aleatórias de uma distribuição de Poisson, em que você especifica a taxa média de eventos (lambda) e o número de amostras que deseja. Em seguida, você pode usar essas amostras para traçar histogramas, calcular probabilidades ou realizar análises estatísticas. Para cálculos de probabilidade mais precisos, o módulo stats da biblioteca SciPy oferece funções como stats.poisson.pmf() para a função de massa de probabilidade e stats.poisson.cdf() para a função de distribuição cumulativa.

Como você cria uma distribuição de Poisson no R?

Para criar uma distribuição Poisson no R, você pode usar funções integradas que fazem parte do pacote estatístico básico do R. O R fornece funções para gerar números aleatórios, calcular probabilidades e traçar distribuições de Poisson. As principais funções são rpois() para gerar números aleatórios, dpois() para densidade de probabilidade, ppois() para probabilidade cumulativa e qpois() para quantis. Você pode usar essas funções junto com os recursos de plotagem do R para criar e visualizar as distribuições de Poisson.

Como a distribuição de Poisson se relaciona com a regressão de Poisson?

Enquanto a distribuição de Poisson descreve a probabilidade de ocorrência de um número de eventos em um intervalo fixo, a regressão de Poisson é um método estatístico usado para modelar dados de contagem e entender como diferentes variáveis influenciam essas contagens. Na regressão de Poisson, presume-se que a variável de resposta siga uma distribuição de Poisson, e o logaritmo de seu valor esperado é modelado como uma combinação linear de variáveis preditoras. Essa relação permite que os pesquisadores analisem como vários fatores afetam a taxa de ocorrência de eventos.

Temas

Aprenda com a DataCamp

Certificação disponível

curso

Entendendo o aprendizado de máquina

2 hr
204.3K
Uma introdução ao aprendizado de máquina sem necessidade de codificação.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Intervalos de confiança versus intervalos de previsão: Entendendo a diferença

Este artigo ensina a você o significado, as diferenças e os casos de uso apropriados de intervalos de previsão e intervalos de confiança em análises estatísticas e de regressão. Ele também mostra a você como implementar esses intervalos no R.
Arun Nanda's photo

Arun Nanda

25 min

blog

O que é um modelo generativo?

Os modelos generativos usam o aprendizado de máquina para descobrir padrões nos dados e gerar novos dados. Saiba mais sobre sua importância e aplicações em IA.
Abid Ali Awan's photo

Abid Ali Awan

11 min

tutorial

Teste de hipóteses facilitado

O teste de hipótese é um método estatístico usado para avaliar afirmações sobre populações com base em dados de amostra.
Vinod Chugani's photo

Vinod Chugani

9 min

tutorial

Entendendo a assimetria e a curtose e como traçá-las

Um guia visual abrangente sobre assimetria/curtose e como elas afetam as distribuições e, por fim, seu projeto de ciência de dados.
Bex Tuychiev's photo

Bex Tuychiev

10 min

tutorial

Introdução a modelos não lineares e percepções usando o R

Descubra as complexidades dos modelos não lineares em comparação com os modelos lineares. Saiba mais sobre suas aplicações, limitações e como ajustá-las usando conjuntos de dados do mundo real.

Somil Asthana

17 min

tutorial

GLM em R: Modelo Linear Generalizado

Saiba mais sobre os modelos lineares generalizados (GLM) e como eles diferem dos modelos lineares.
DataCamp Team's photo

DataCamp Team

2 min

Ver maisVer mais