Curso
Achei o paradoxo de Simpson super confuso quando aprendi sobre ele na faculdade. Eu quase não sabia o que estava vendo. Lá estava, uma tendência de alto nível, e a história parecia bem clara. Mas aí, quando separei os grupos, a tendência mudou.
Meu primeiro pensamento ao ver isso foi algo como: “Bem, acho que não dá pra confiar nas estatísticas”. Mas, nesse meio tempo, eu estudei um pouco e estou feliz em dizer que confio nas estatísticas de novo. Se você tá tão confuso quanto eu, continua lendo, que eu vou te ajudar a entender o que tá rolando.
O que é o paradoxo de Simpson?
Um analista de dados experiente já sabe que precisa ser cético em relação a tendências gerais. Isso porque uma média simples pode esconder algo mais complicado que é verdade nos dados. Com o paradoxo dos Simpsons, esse “outra coisa” é bem interessante: Os dados agregados não só obscurecem os fatos, como apontam para a conclusão exatamente oposta.
Em outras palavras, o paradoxo de Simpson rola quando uma tendência aparece em grupos separados de dados, mas some ou muda completamente quando esses grupos são combinados. É um lembrete importante de que olhar para o panorama geral sem entender as partes pode causar problemas.
Um exemplo do paradoxo de Simpson
É melhor mostrar isso com um exemplo. Vou começar com algo simples e depois vou mostrar exemplos famosos que você mesmo pode estudar.
Imagina um estudo comparando as taxas de sucesso de dois tipos de solo no crescimento de árvores, Solo A e Solo B. Quando a gente olha o crescimento das árvores com base no tipo de solo, os resultados parecem claros:
- Para árvores em climas frios (Grupo 1), o solo A tem um resultado melhor.
- Para árvores em climas quentes (Grupo 2), solo A ainda tem um resultado melhor.
Com base nisso, o solo A parece ser o vencedor óbvio. Mas quando juntamos todos os dados, surge o paradoxo: A gente vê que o solo B é, na verdade, a opção mais eficaz no geral.
Se você não acredita em mim, vou mostrar os números:
Crescimento das árvores em climas frios
Tipo de solo |
Número de árvores |
Taxa média de crescimento |
Solo A |
90 |
30 cm/ano |
Solo B |
10 |
25 cm/ano |
Em climas frios, o solo A ajudao crescimento a ser mais rápido.
Crescimento das árvores em climas quentes
Tipo de solo |
Número de árvores |
Taxa média de crescimento |
Solo A |
10 |
60 cm/ano |
Solo B |
90 |
55 cm/ano |
Em climas quentes, o Solo A ainda tem um desempenhomelhor, embora a diferença seja menor.
Mas quando você junta todas as árvores
Tipo de solo |
Total de árvores |
Taxa média ponderada de crescimento |
Solo A |
100 |
33 cm/ano |
Solo B |
100 |
47 cm/ano |
Agora a gente vêque o solo B é melhor no geral, mesmo que o solo A seja melhor nos dois climas.
Então, como isso é possível? A resposta é uma variável confusa — um fator oculto que influencia tanto os grupos que estão sendo estudados quanto o resultado final. Nesse caso, o clima é o fator de confusão.
Mais especificamente, a gente deveria dizer que:
- O solo A é mais usado em climas mais frios, onde todas as árvores crescem mais devagar, não importa o tipo de solo.
- E o solo B é mais usado em climas mais quentes, onde as árvores crescem mais rápido em geral.
Então, o clima influencia a taxa de crescimento e também é distribuída de forma desigual entre os grupos de solo.
Exemplos clássicos do paradoxo de Simpson
O paradoxo de Simpson é frequentemente estudado com casos históricos específicos que realmente mostram o que está acontecendo.
Um exemplo famoso vem das admissões da UC Berkeley nos anos 70. No começo, os dados mostravam que as mulheres eram aceitas menos do que os homens. Mas, quando analisamos por departamento, a maioria das mulheres foi admitida em taxas iguais ou maiores. O fator de confusão foi a escolha do departamento: as mulheres se inscreveram mais em departamentos competitivos com taxas de aceitação mais baixas em geral, enquanto os homens se inscreveram em departamentos menos competitivos.
Outro caso é um estudo de 1986 sobre tratamentos para pedras nos rins. No geral, um método menos invasivo pareceu mais eficaz. Mas, quando divididos por tamanho, os cálculos maiores tiveram taxas de sucesso mais altas com a cirurgia mais invasiva. O fator de confusão aqui foi a gravidade dos casos: os mais graves foram para a cirurgia, fazendo com que os números gerais parecessem piores.
Nos dois casos, os dados juntos deram uma ideia errada. Só depois de analisar tudo é que a verdade veio à tona.
O que faz o Paradoxo de Simpson acontecer?
No Paradoxo de Simpson, os números estão certos tanto para os grupos juntos quanto para os grupos separados. Então, não tem nenhum erro de matemática. O problema é de interpretação. Isso testa a nossa capacidade de manter todos os fatos em ordem.
Para ajudar a entender — e eu já comecei a falar sobre isso antes —, o paradoxo de Simpson rola quando duas condições se encontram:
- Tem uma variável que pode confundir as coisas: Tem um terceiro fator que tá ligado tanto à variável independente quanto ao resultado.
- Os grupos estão desequilibrados: No nosso exemplo das árvores, o solo A era mais usado em climas mais frios, onde as árvores crescem mais devagar no geral. O solo B era mais usado em climas mais quentes, onde o crescimento é mais rápido. Esse desequilíbrio distorce a média combinada e faz com que ela mude de direção.
O que fazer com o paradoxo de Simpson
Agora, essa pode ser a parte mais importante: Como você se defende contra o paradoxo de Simpson na sua própria análise, pra que ele não apareça sem querer e, se aparecer, qual versão dos eventos você deve relatar?
O que fazer antes
Talvez seja melhor lidar com o paradoxo de Simpson antes que ele distorça suas conclusões. Isso significa criar alguns hábitos disciplinados:
- Segmente seus dados: Não confie nas médias gerais. Divida os dados em subgrupos relevantes, como idade, região, tipo de produto ou gravidade, entre outros, e veja se a tendência se mantém nessas faixas.
- Procure por variáveis confusas: Pergunta sempre: O que mais poderia estar influenciando esse resultado? Procure fatores que possam estar distribuídos de forma desigual entre seus grupos, especialmente aqueles que você conhece por causa da sua experiência na área.
- Lembre-se de que correlação não é causalidade: Só porque uma tendência aparece no geral, não quer dizer que ela reflita uma relação de causa e efeito real. O Paradoxo de Simpson geralmente aparece quando uma correlação superficial esconde algum tipo de desequilíbrio mais profundo.
- Insista no contexto: Saiba de onde vieram seus dados e o que pode estar influenciando eles. Os métodos de coleta, a natureza dos assuntos e as influências externas são todos importantes.
O que fazer depois que aparecer
Se o paradoxo de Simpson aparecer, não se preocupe. É hora de dar uma olhada mais de perto:
- Dá uma olhada nesse desequilíbrio. O que tá distribuído de forma desigual entre os grupos? Provavelmente é isso que tá confundindo você.
- Relate as duas opiniões, mas priorize a clareza. Tudo bem mostrar o resultado agregado também, mas não esquece de explicar por que isso pode ser enganoso e destacar a análise desagregada que mostra melhor o padrão real.
- Deixa o teu objetivo guiar a tua reportagem. Se você está tomando decisões políticas ou fazendo mudanças operacionais, geralmente vai querer agir com base em insights de subgrupos, e não em resumos gerais.
Se você está se perguntando se uma versão dos resultados é “melhor” do que a outra — a agregada ou a desagregada —, a resposta é sim. Saiba que não existe uma resposta única para todos. Dito isso, eu acho que a análise desagregada é normalmente mais confiável quando tem fatores de confusão. Os resultados desagregados (agrupados) costumam ser mais informativos porque mostram como uma variável se comporta em diferentes condições ou contextos, e os resultados agregados podem ser enganosos se houver uma variável de confusão que influencie tanto o agrupamento quanto o resultado. Acho que o mais importante é entender por que a reversão acontece e comunicar isso de forma clara nos seus relatórios.
Conclusão
O Paradoxo de Simpson é uma ótima lição sobre como interpretar dados. A capacidade de olhar além de um total enganador e perguntar: “O que estou perdendo?” é o que faz um analista ser maduro. É a habilidade que diferencia alguém que só relata números de alguém que descobre insights.
Se você se interessar pelo “porquê” por trás dessas reversões (eu certamente me interesso), o paradoxo é uma ótima porta de entrada para o campo mais amplo da inferência causal. Nosso curso Machine Learning para Negócios ensina modelos causais e outras coisas. Além disso, inscreva-se hoje mesmo no nosso curso Fundamentos da Inferência em Python como outra ótima opção de aprendizado.
