Pular para o conteúdo principal

O Paradoxo de Simpson: Não se deixe enganar pelos dados

Quebre tendências enganosas para descobrir o que realmente está acontecendo nos seus dados. Aprenda a identificar fatores de confusão, segmentar sua análise e evitar conclusões erradas causadas pelo Paradoxo de Simpson.
Atualizado 7 de ago. de 2025  · 7 min lido

Achei o paradoxo de Simpson super confuso quando aprendi sobre ele na faculdade. Eu quase não sabia o que estava vendo. Lá estava, uma tendência de alto nível, e a história parecia bem clara. Mas aí, quando separei os grupos, a tendência mudou.

Meu primeiro pensamento ao ver isso foi algo como: “Bem, acho que não dá pra confiar nas estatísticas”. Mas, nesse meio tempo, eu estudei um pouco e estou feliz em dizer que confio nas estatísticas de novo. Se você tá tão confuso quanto eu, continua lendo, que eu vou te ajudar a entender o que tá rolando. 

O que é o paradoxo de Simpson?

Um analista de dados experiente já sabe que precisa ser cético em relação a tendências gerais. Isso porque uma média simples pode esconder algo mais complicado que é verdade nos dados. Com o paradoxo dos Simpsons, esse “outra coisa” é bem interessante: Os dados agregados não só obscurecem os fatos, como apontam para a conclusão exatamente oposta.

Em outras palavras, o paradoxo de Simpson rola quando uma tendência aparece em grupos separados de dados, mas some ou muda completamente quando esses grupos são combinados. É um lembrete importante de que olhar para o panorama geral sem entender as partes pode causar problemas.

Um exemplo do paradoxo de Simpson

É melhor mostrar isso com um exemplo. Vou começar com algo simples e depois vou mostrar exemplos famosos que você mesmo pode estudar. 

Imagina um estudo comparando as taxas de sucesso de dois tipos de solo no crescimento de árvores, Solo A e Solo B. Quando a gente olha o crescimento das árvores com base no tipo de solo, os resultados parecem claros:

  • Para árvores em climas frios (Grupo 1), o solo A tem um resultado melhor.
  • Para árvores em climas quentes (Grupo 2), solo A ainda tem um resultado melhor.

Com base nisso, o solo A parece ser o vencedor óbvio. Mas quando juntamos todos os dados, surge o paradoxo: A gente vê que o solo B é, na verdade, a opção mais eficaz no geral.

Se você não acredita em mim, vou mostrar os números:

Crescimento das árvores em climas frios

Tipo de solo

Número de árvores

Taxa média de crescimento

Solo A

90

30 cm/ano

Solo B

10

25 cm/ano

Em climas frios, o solo A ajudao crescimento a ser mais rápido.

Crescimento das árvores em climas quentes

Tipo de solo

Número de árvores

Taxa média de crescimento

Solo A

10

60 cm/ano

Solo B

90

55 cm/ano

Em climas quentes, o Solo A ainda tem um desempenhomelhor, embora a diferença seja menor.

Mas quando você junta todas as árvores

Tipo de solo

Total de árvores

Taxa média ponderada de crescimento

Solo A

100

33 cm/ano

Solo B

100

47 cm/ano

Agora a gente vêque o solo B é melhor no geral, mesmo que o solo A seja melhor nos dois climas.

Então, como isso é possível? A resposta é uma variável confusa — um fator oculto que influencia tanto os grupos que estão sendo estudados quanto o resultado final. Nesse caso, o clima é o fator de confusão. 

Mais especificamente, a gente deveria dizer que: 

  • O solo A é mais usado em climas mais frios, onde todas as árvores crescem mais devagar, não importa o tipo de solo.
  • E o solo B é mais usado em climas mais quentes, onde as árvores crescem mais rápido em geral.

Então, o clima influencia a taxa de crescimento e também é distribuída de forma desigual entre os grupos de solo.

Exemplos clássicos do paradoxo de Simpson 

O paradoxo de Simpson é frequentemente estudado com casos históricos específicos que realmente mostram o que está acontecendo.

Um exemplo famoso vem das admissões da UC Berkeley nos anos 70. No começo, os dados mostravam que as mulheres eram aceitas menos do que os homens. Mas, quando analisamos por departamento, a maioria das mulheres foi admitida em taxas iguais ou maiores. O fator de confusão foi a escolha do departamento: as mulheres se inscreveram mais em departamentos competitivos com taxas de aceitação mais baixas em geral, enquanto os homens se inscreveram em departamentos menos competitivos.

Outro caso é um estudo de 1986 sobre tratamentos para pedras nos rins. No geral, um método menos invasivo pareceu mais eficaz. Mas, quando divididos por tamanho, os cálculos maiores tiveram taxas de sucesso mais altas com a cirurgia mais invasiva. O fator de confusão aqui foi a gravidade dos casos: os mais graves foram para a cirurgia, fazendo com que os números gerais parecessem piores.

Nos dois casos, os dados juntos deram uma ideia errada. Só depois de analisar tudo é que a verdade veio à tona.

O que faz o Paradoxo de Simpson acontecer?

No Paradoxo de Simpson, os números estão certos tanto para os grupos juntos quanto para os grupos separados. Então, não tem nenhum erro de matemática. O problema é de interpretação. Isso testa a nossa capacidade de manter todos os fatos em ordem. 

Para ajudar a entender — e eu já comecei a falar sobre isso antes —, o paradoxo de Simpson rola quando duas condições se encontram:

  1. Tem uma variável que pode confundir as coisas: Tem um terceiro fator que tá ligado tanto à variável independente quanto ao resultado.
  2. Os grupos estão desequilibrados: No nosso exemplo das árvores, o solo A era mais usado em climas mais frios, onde as árvores crescem mais devagar no geral. O solo B era mais usado em climas mais quentes, onde o crescimento é mais rápido. Esse desequilíbrio distorce a média combinada e faz com que ela mude de direção.

O que fazer com o paradoxo de Simpson

Agora, essa pode ser a parte mais importante: Como você se defende contra o paradoxo de Simpson na sua própria análise, pra que ele não apareça sem querer e, se aparecer, qual versão dos eventos você deve relatar? 

O que fazer antes

Talvez seja melhor lidar com o paradoxo de Simpson antes que ele distorça suas conclusões. Isso significa criar alguns hábitos disciplinados:

  • Segmente seus dados: Não confie nas médias gerais. Divida os dados em subgrupos relevantes, como idade, região, tipo de produto ou gravidade, entre outros, e veja se a tendência se mantém nessas faixas.
  • Procure por variáveis confusas: Pergunta sempre: O que mais poderia estar influenciando esse resultado? Procure fatores que possam estar distribuídos de forma desigual entre seus grupos, especialmente aqueles que você conhece por causa da sua experiência na área.
  • Lembre-se de que correlação não é causalidade: Só porque uma tendência aparece no geral, não quer dizer que ela reflita uma relação de causa e efeito real. O Paradoxo de Simpson geralmente aparece quando uma correlação superficial esconde algum tipo de desequilíbrio mais profundo.
  • Insista no contexto: Saiba de onde vieram seus dados e o que pode estar influenciando eles. Os métodos de coleta, a natureza dos assuntos e as influências externas são todos importantes.

O que fazer depois que aparecer

Se o paradoxo de Simpson aparecer, não se preocupe. É hora de dar uma olhada mais de perto:

  • Dá uma olhada nesse desequilíbrio. O que tá distribuído de forma desigual entre os grupos? Provavelmente é isso que tá confundindo você.
  • Relate as duas opiniões, mas priorize a clareza. Tudo bem mostrar o resultado agregado também, mas não esquece de explicar por que isso pode ser enganoso e destacar a análise desagregada que mostra melhor o padrão real.
  • Deixa o teu objetivo guiar a tua reportagem. Se você está tomando decisões políticas ou fazendo mudanças operacionais, geralmente vai querer agir com base em insights de subgrupos, e não em resumos gerais.

Se você está se perguntando se uma versão dos resultados é “melhor” do que a outra — a agregada ou a desagregada —, a resposta é sim. Saiba que não existe uma resposta única para todos. Dito isso, eu acho que a análise desagregada é normalmente mais confiável quando tem fatores de confusão. Os resultados desagregados (agrupados) costumam ser mais informativos porque mostram como uma variável se comporta em diferentes condições ou contextos, e os resultados agregados podem ser enganosos se houver uma variável de confusão que influencie tanto o agrupamento quanto o resultado. Acho que o mais importante é entender por que a reversão acontece e comunicar isso de forma clara nos seus relatórios.

Conclusão

O Paradoxo de Simpson é uma ótima lição sobre como interpretar dados. A capacidade de olhar além de um total enganador e perguntar: “O que estou perdendo?” é o que faz um analista ser maduro. É a habilidade que diferencia alguém que só relata números de alguém que descobre insights.

Se você se interessar pelo “porquê” por trás dessas reversões (eu certamente me interesso), o paradoxo é uma ótima porta de entrada para o campo mais amplo da inferência causal. Nosso curso Machine Learning para Negócios ensina modelos causais e outras coisas. Além disso, inscreva-se hoje mesmo no nosso curso Fundamentos da Inferência em Python como outra ótima opção de aprendizado.


Josef Waples's photo
Author
Josef Waples
Tópicos

Aprenda com o DataCamp

Curso

Foundations of Probability in R

4 h
40.5K
In this course, you'll learn about the concepts of random variables, distributions, and conditioning.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Como analisar dados para sua empresa em 5 etapas

Descubra as diferentes etapas para analisar dados e extrair valor deles, bem como os métodos e técnicas envolvidos no processo.
Javier Canales Luna's photo

Javier Canales Luna

14 min

Tutorial

Guia do cientista de dados para processamento de sinais

Descubra insights acionáveis ocultos em dados de sinais complexos filtrando ruídos, escolhendo visualizações apropriadas, encontrando padrões no domínio do tempo e da frequência e muito mais usando o processamento de sinais.
Amberle McKee's photo

Amberle McKee

Tutorial

Introdução a modelos não lineares e percepções usando o R

Descubra as complexidades dos modelos não lineares em comparação com os modelos lineares. Saiba mais sobre suas aplicações, limitações e como ajustá-las usando conjuntos de dados do mundo real.

Somil Asthana

Tutorial

Entendendo o desvio de dados e o desvio de modelo: Detecção de deriva em Python

Navegue pelos perigos do desvio de modelo e explore nosso guia prático para o monitoramento do desvio de dados.
Moez Ali's photo

Moez Ali

Tutorial

Teste de hipóteses facilitado

O teste de hipótese é um método estatístico usado para avaliar afirmações sobre populações com base em dados de amostra.
Vinod Chugani's photo

Vinod Chugani

Tutorial

Entendendo a assimetria e a curtose e como traçá-las

Um guia visual abrangente sobre assimetria/curtose e como elas afetam as distribuições e, por fim, seu projeto de ciência de dados.
Bex Tuychiev's photo

Bex Tuychiev

Ver maisVer mais