Andrew Gelman en una de sus publicaciones de blog recientes dice:
No creo que sean necesarios hechos contrafactuales o posibles resultados para la paradoja de Simpson. Digo esto porque uno puede configurar la paradoja de Simpson con variables que no pueden ser manipuladas, o para las cuales las manipulaciones no son directamente de interés.
La paradoja de Simpson es parte de un problema más general en el que los coeficientes de regresión cambian si agrega más predictores, el cambio de signo no es realmente necesario.
Aquí hay un ejemplo que uso en mi enseñanza que ilustra ambos puntos:
Puedo ejecutar una regresión que predice los ingresos por sexo y altura. Encuentro que el coeficiente de sexo es de $ 10,000 (es decir, al comparar a un hombre y una mujer de la misma altura, en promedio, el hombre ganará $ 10,000 más) y el coeficiente de estatura es de $ 500 (es decir, al comparar dos hombres o dos mujeres de diferentes alturas, en promedio, la persona más alta ganará $ 500 más por pulgada de altura).
¿Cómo puedo interpretar estos coeficientes? Siento que el coeficiente de altura es fácil de interpretar (es fácil imaginar comparar a dos personas del mismo sexo con diferentes alturas), de hecho, de alguna manera parecería "incorrecto" retroceder en altura sin controlar el sexo, ya que La diferencia entre las personas bajas y altas puede "explicarse" al ser diferencias entre hombres y mujeres. Pero el coeficiente de sexo en el modelo anterior parece muy difícil de interpretar: ¿por qué comparar un hombre y una mujer que miden 66 pulgadas de alto, por ejemplo? Eso sería una comparación de un hombre bajo con una mujer alta. Todo este razonamiento parece vagamente causal, pero no creo que tenga sentido pensar en ello utilizando resultados potenciales.
Reflexioné sobre ello (e incluso comenté en la publicación) y creo que hay algo que pide ser entendido con mayor claridad aquí.
Hasta la parte de interpretación del género, está muy bien. Pero no veo cuál es el problema detrás de la comparación de un hombre bajo y una mujer alta. Aquí está mi punto: de hecho, tiene aún más sentido (dado el supuesto de que los hombres son más altos en promedio). No se puede comparar un 'hombre bajo' y una mujer 'baja' exactamente por la misma razón, que la diferencia en los ingresos se explica en alguna parte por la diferencia en las alturas. Lo mismo ocurre con los hombres altos y las mujeres altas, y aún más para las mujeres bajas y los hombres altos (lo cual está más allá de la cuestión, por así decirlo). Así que, básicamente, el efecto de la altura se elimina solo en el caso cuando se comparan hombres bajos y mujeres altas (y esto ayuda a interpretar el coeficiente de género). ¿No suena una campana sobre conceptos subyacentes similares detrás de los modelos de combinación populares?
La idea detrás de la paradoja de Simpson es que el efecto de la población podría ser diferente del o los efectos sabios del subgrupo. Esto está, en cierto sentido, relacionado con su punto 2 y el hecho de que él reconoce que la altura no debe controlarse por sí sola (lo que decimos omitió el sesgo variable). Pero no pude relacionar esto con la controversia sobre el coeficiente de género.
¿Tal vez puedas expresarlo más claramente? O comentar sobre mi comprensión?