Estatística · Agregação de Dados · Paradoxo

Paradoxo de Simpson

Como uma tendência pode inverter-se quando os dados são agregados? Um dos paradoxos mais perturbadores da estatística.

✦ O Paradoxo
Uma tendência pode aparecer em cada subgrupo,
mas desaparecer (ou inverter-se) quando
os subgrupos são combinados.
Descoberto por E.H. Simpson em 1951, este paradoxo revela como agregação de dados pode enganar. É frequente em medicina, educação e análise de dados.

1
Conceito

Entendendo o Paradoxo

O Paradoxo de Simpson ocorre quando uma relação estatística presente em vários subgrupos desaparece ou inverte-se quando os subgrupos são combinados. Parece impossível, mas é completamente real.

🏥 Exemplo Clássico: Taxa de Sucesso de Tratamentos

Hospital A: Tratamento X tem 90% de taxa de sucesso.

Hospital B: Tratamento X tem 85% de taxa de sucesso.

Conclusão aparente: Hospital A é melhor.

Mas quando combinamos os dados: O Tratamento X tem apenas 70% de taxa de sucesso combinada!

Como é possível? Os hospitais tratam diferentes tipos de pacientes. Hospital A trata principalmente casos leves (alta taxa de sucesso em geral), enquanto Hospital B trata casos graves (baixa taxa de sucesso em geral).

⚠️ O Problema: A variável que explica a diferença (tipo de paciente) não está sendo considerada. Isto é chamado de variável confundidora.

Este paradoxo é tão perturbador que pode levar a conclusões completamente erradas em medicina, educação, negócios e política.


2
Exemplos

Casos Concretos

Vamos explorar exemplos numéricos específicos para entender como este paradoxo funciona:

📊 Exemplo 1: Admissão Universitária

Cenário: Dois departamentos (Engenharia e Humanidades) recebem candidatos.

Departamento Candidatos Aceitos Total de Candidatos Taxa de Aceitação
Universidade X
Engenharia 480 800 60%
Humanidades 180 400 45%
Universidade Y
Engenharia 120 200 60%
Humanidades 90 200 45%

Conclusão por departamento: Universidade X é melhor em ambos (60% vs 60% em Engenharia, 45% vs 45% em Humanidades).

Mas combinando:

Universidade X
52%

(660 de 1200)

Universidade Y
52,5%

(210 de 400)

Resultado: Universidade Y é melhor no geral! A razão: Y recebe proporcionalmente mais candidatos em Engenharia (50% vs 67% em X), onde as taxas de aceitação são mais altas.

⚽ Exemplo 2: Desempenho de Jogadores

Jogador A: 45% de acerto em tiros de 2 pontos, 35% em tiros de 3 pontos.

Jogador B: 40% de acerto em tiros de 2 pontos, 30% em tiros de 3 pontos.

Conclusão: Jogador A é melhor em ambas as categorias.

Mas se A tira principalmente 3 pontos (onde é pior) e B tira principalmente 2 pontos (onde é melhor), B pode ter uma taxa de acerto geral superior!


3
Análise

Por que Isso Acontece?

O Paradoxo de Simpson ocorre quando há uma variável confundidora que afeta tanto a variável independente quanto a dependente.

🔍 Mecanismo do Paradoxo
  1. Diferentes tamanhos de subgrupo. Os subgrupos têm tamanhos diferentes, e essa diferença é correlacionada com o resultado.
  2. Variável confundidora. Uma terceira variável (tipo de paciente, departamento, tipo de tiro) afeta os resultados em cada subgrupo.
  3. Agregação enganosa. Quando combinamos os subgrupos sem considerar a variável confundidora, a relação inverte-se.
💡 Lição Importante

Nunca agregue dados sem entender a composição dos subgrupos. Sempre procure por variáveis confundidoras que possam explicar as diferenças observadas.

📋 Checklist para Evitar o Paradoxo
  • Examine os subgrupos. Não apenas os totais agregados.
  • Procure por variáveis confundidoras. O que poderia estar causando a inversão?
  • Compare proporções, não apenas números. Os tamanhos dos subgrupos importam.
  • Questione a agregação. Por que os dados estão sendo combinados desta forma?
  • Use análise estratificada. Analise cada subgrupo separadamente antes de agregar.

4
Casos Reais

Exemplos do Mundo Real

O Paradoxo de Simpson não é apenas um exercício teórico — aparece frequentemente em dados reais com consequências significativas:

🏥 Caso 1: Estudo de Mortalidade Hospitalar

Um hospital com taxa de mortalidade aparentemente mais alta pode, na verdade, ser melhor quando você controla pelo tipo de paciente. Hospitais de referência tratam casos mais graves, então têm taxas de mortalidade mais altas, mas podem ter melhores resultados para cada tipo de paciente.

📚 Caso 2: Disparidade de Gênero em Universidades

Em 1973, a Universidade de Berkeley foi acusada de discriminação de gênero porque tinha uma taxa de admissão de 44% para homens e 35% para mulheres. Mas quando analisaram por departamento, descobriram que as mulheres tinham taxas de aceitação iguais ou superiores em quase todos os departamentos! O problema: mulheres se candidatavam mais a departamentos competitivos com taxas de aceitação mais baixas.

💊 Caso 3: Eficácia de Medicamentos

Um medicamento pode parecer menos eficaz quando os dados são combinados, mas ser mais eficaz em cada subgrupo de idade. A razão: o medicamento é prescrito mais frequentemente para pacientes mais velhos, que têm piores resultados em geral.

📊 Caso 4: Desigualdade de Renda

Dados agregados de desigualdade podem parecer melhorar, enquanto a desigualdade dentro de cada grupo demográfico piora. A razão: mudanças na composição demográfica da população.


5
Conclusão

Lições Críticas

O Paradoxo de Simpson nos ensina que a análise estatística requer cuidado e ceticismo:

🧠 Takeaways Principais
  • Dados agregados podem enganar. Sempre examine os subgrupos antes de tirar conclusões.
  • Procure por variáveis confundidoras. Elas são frequentemente invisíveis à primeira vista.
  • Tamanhos de amostra importam. Subgrupos desiguais podem inverter tendências.
  • Questione as conclusões. Se algo parece contra-intuitivo, provavelmente há uma variável confundidora.
  • Análise estatística requer contexto. Números sozinhos não contam a história completa.

O Paradoxo de Simpson é um lembrete humilhante de que até análises estatísticas aparentemente simples podem nos enganar. É por isso que a análise de dados responsável requer não apenas habilidades matemáticas, mas também pensamento crítico e compreensão do contexto.