Estatística · Agregação de Dados · Paradoxo
Paradoxo de Simpson
Como uma tendência pode inverter-se quando os dados são agregados? Um dos paradoxos mais perturbadores da estatística.
mas desaparecer (ou inverter-se) quando
os subgrupos são combinados.
Entendendo o Paradoxo
O Paradoxo de Simpson ocorre quando uma relação estatística presente em vários subgrupos desaparece ou inverte-se quando os subgrupos são combinados. Parece impossível, mas é completamente real.
Hospital A: Tratamento X tem 90% de taxa de sucesso.
Hospital B: Tratamento X tem 85% de taxa de sucesso.
Conclusão aparente: Hospital A é melhor.
Mas quando combinamos os dados: O Tratamento X tem apenas 70% de taxa de sucesso combinada!
Como é possível? Os hospitais tratam diferentes tipos de pacientes. Hospital A trata principalmente casos leves (alta taxa de sucesso em geral), enquanto Hospital B trata casos graves (baixa taxa de sucesso em geral).
Este paradoxo é tão perturbador que pode levar a conclusões completamente erradas em medicina, educação, negócios e política.
Casos Concretos
Vamos explorar exemplos numéricos específicos para entender como este paradoxo funciona:
Cenário: Dois departamentos (Engenharia e Humanidades) recebem candidatos.
| Departamento | Candidatos Aceitos | Total de Candidatos | Taxa de Aceitação |
|---|---|---|---|
| Universidade X | |||
| Engenharia | 480 | 800 | 60% |
| Humanidades | 180 | 400 | 45% |
| Universidade Y | |||
| Engenharia | 120 | 200 | 60% |
| Humanidades | 90 | 200 | 45% |
Conclusão por departamento: Universidade X é melhor em ambos (60% vs 60% em Engenharia, 45% vs 45% em Humanidades).
Mas combinando:
(660 de 1200)
(210 de 400)
Resultado: Universidade Y é melhor no geral! A razão: Y recebe proporcionalmente mais candidatos em Engenharia (50% vs 67% em X), onde as taxas de aceitação são mais altas.
Jogador A: 45% de acerto em tiros de 2 pontos, 35% em tiros de 3 pontos.
Jogador B: 40% de acerto em tiros de 2 pontos, 30% em tiros de 3 pontos.
Conclusão: Jogador A é melhor em ambas as categorias.
Mas se A tira principalmente 3 pontos (onde é pior) e B tira principalmente 2 pontos (onde é melhor), B pode ter uma taxa de acerto geral superior!
Por que Isso Acontece?
O Paradoxo de Simpson ocorre quando há uma variável confundidora que afeta tanto a variável independente quanto a dependente.
- Diferentes tamanhos de subgrupo. Os subgrupos têm tamanhos diferentes, e essa diferença é correlacionada com o resultado.
- Variável confundidora. Uma terceira variável (tipo de paciente, departamento, tipo de tiro) afeta os resultados em cada subgrupo.
- Agregação enganosa. Quando combinamos os subgrupos sem considerar a variável confundidora, a relação inverte-se.
Nunca agregue dados sem entender a composição dos subgrupos. Sempre procure por variáveis confundidoras que possam explicar as diferenças observadas.
- Examine os subgrupos. Não apenas os totais agregados.
- Procure por variáveis confundidoras. O que poderia estar causando a inversão?
- Compare proporções, não apenas números. Os tamanhos dos subgrupos importam.
- Questione a agregação. Por que os dados estão sendo combinados desta forma?
- Use análise estratificada. Analise cada subgrupo separadamente antes de agregar.
Exemplos do Mundo Real
O Paradoxo de Simpson não é apenas um exercício teórico — aparece frequentemente em dados reais com consequências significativas:
Um hospital com taxa de mortalidade aparentemente mais alta pode, na verdade, ser melhor quando você controla pelo tipo de paciente. Hospitais de referência tratam casos mais graves, então têm taxas de mortalidade mais altas, mas podem ter melhores resultados para cada tipo de paciente.
Em 1973, a Universidade de Berkeley foi acusada de discriminação de gênero porque tinha uma taxa de admissão de 44% para homens e 35% para mulheres. Mas quando analisaram por departamento, descobriram que as mulheres tinham taxas de aceitação iguais ou superiores em quase todos os departamentos! O problema: mulheres se candidatavam mais a departamentos competitivos com taxas de aceitação mais baixas.
Um medicamento pode parecer menos eficaz quando os dados são combinados, mas ser mais eficaz em cada subgrupo de idade. A razão: o medicamento é prescrito mais frequentemente para pacientes mais velhos, que têm piores resultados em geral.
Dados agregados de desigualdade podem parecer melhorar, enquanto a desigualdade dentro de cada grupo demográfico piora. A razão: mudanças na composição demográfica da população.
Lições Críticas
O Paradoxo de Simpson nos ensina que a análise estatística requer cuidado e ceticismo:
- Dados agregados podem enganar. Sempre examine os subgrupos antes de tirar conclusões.
- Procure por variáveis confundidoras. Elas são frequentemente invisíveis à primeira vista.
- Tamanhos de amostra importam. Subgrupos desiguais podem inverter tendências.
- Questione as conclusões. Se algo parece contra-intuitivo, provavelmente há uma variável confundidora.
- Análise estatística requer contexto. Números sozinhos não contam a história completa.
O Paradoxo de Simpson é um lembrete humilhante de que até análises estatísticas aparentemente simples podem nos enganar. É por isso que a análise de dados responsável requer não apenas habilidades matemáticas, mas também pensamento crítico e compreensão do contexto.