Aquí hay un enfoque general para comprender la paradoja de Simpson algebraicamente para los datos de conteo.
Supongamos que tenemos datos de supervivencia para una exposición y creamos una tabla de contingencia de 2x2. Para simplificar las cosas, tendremos los mismos recuentos en cada celda. Podríamos relajar esto, pero haría que el álgebra fuera bastante desordenada.
ExpuestoNo expuestoMurióXXSobrevivióXXÍndice de mortalidad0.5 0.50.5 0.5
En este caso, la tasa de mortalidad es la misma en los grupos expuestos y no expuestos.
Ahora, si dividimos los datos, digamos en un grupo para mujeres y otro grupo para hombres, obtenemos 2 tablas, con los siguientes recuentos:
Machos:
ExpuestoNo expuestoMurióXunXCSobrevivióXsiXreÍndice de mortalidaduna + bCc + d
y para mujeres:
ExpuestoNo expuestoMurióX( a - 1 )X( c - 1 )SobrevivióX( b - 1 )X( d- 1 )Índice de mortalidada - 1a + b - 2c - 1c + d- 2
donde a , b , c , d∈ [ 0 , 1 ] son las proporciones de cada celda en la tabla de datos agregados que son masculinos.
La paradoja de Simpson ocurrirá cuando las tasas de mortalidad para los hombres expuestos sean mayores que la tasa de mortalidad para los hombres no expuestos Y la tasa de mortalidad para las mujeres expuestas sea mayor que la tasa de mortalidad para las mujeres no expuestas. Alternativamente, también ocurrirá cuando las tasas de mortalidad para los hombres expuestos sean menores que la tasa de mortalidad para los hombres no expuestos Y la tasa de mortalidad para las mujeres expuestas sea menor que la tasa de mortalidad para las mujeres no expuestas. Eso es cuando
( aa + b< cc + d) y ( a - 1a + b - 2< c - 1c + d- 2)
O
(aa+b>cc+d) and (a−1a+b−2>c−1c+d−2)
Como ejemplo concreto, sea X=100 , y a=0.5,b=0.8,c=0.9 . Entonces tendremos la paradoja de Simpson cuando:
(0.50.8+0.9<0.90.9+d) and (0.5−10.5+0.8−2<0.9−10.9+d−2)
(−9<d<1.44) and (0.96<d<1.1)
De lo cual concluimos que d debe estar en (0.96,1]
El segundo conjunto de desigualdades da:
(0.50.8+0.9>0.90.9+d) and (0.5−10.5+0.8−2>0.9−10.9+d−2)
(d<−0.9 or d>1.44) and (0.96<d or d>1.44)
d∈[0,1]
a,b,cd0.99
0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group
and for Females:
(0.5−1)/(0.5+0.8−2)=71% in the exposed group
(0.9−1)/(0.9+0.99−2)=91% in the unexposed group
So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.