La siguiente es una pregunta sobre las muchas visualizaciones ofrecidas como 'prueba por imagen' de la existencia de la paradoja de Simpson, y posiblemente una pregunta sobre la terminología.
La paradoja de Simpson es un fenómeno bastante simple para describir y dar ejemplos numéricos de (la razón por la que esto puede suceder es profunda e interesante). La paradoja es que existen tablas de contingencia 2x2x2 (Agresti, Análisis de datos categóricos) donde la asociación marginal tiene una dirección diferente de cada asociación condicional.
Es decir, la comparación de proporciones en dos subpoblaciones puede ir en una dirección, pero la comparación en la población combinada va en la otra dirección. En símbolos:
Existen modo que a + b
pero y
Esto se representa con precisión en la siguiente visualización (de Wikipedia ):
Una fracción es simplemente la pendiente de los vectores correspondientes, y es fácil ver en el ejemplo que los vectores B más cortos tienen una pendiente mayor que los vectores L correspondientes, pero el vector B combinado tiene una pendiente menor que el vector L combinado.
Hay una visualización muy común en muchas formas, una en particular al frente de esa referencia de Wikipedia en Simpson:
Este es un gran ejemplo de confusión, cómo una variable oculta (que separa dos subpoblaciones) puede mostrar un patrón diferente.
Sin embargo, matemáticamente, dicha imagen de ninguna manera corresponde a una visualización de las tablas de contingencia que están en la base del fenómeno conocido como la paradoja de Simpson . Primero, las líneas de regresión están sobre los datos del conjunto de puntos de valor real, no los datos de una tabla de contingencia.
Además, se pueden crear conjuntos de datos con una relación arbitraria de pendientes en las líneas de regresión, pero en las tablas de contingencia, existe una restricción sobre cuán diferentes pueden ser las pendientes. Es decir, la línea de regresión de una población puede ser ortogonal a todas las regresiones de las subpoblaciones dadas. Pero en la paradoja de Simpson, las proporciones de las subpoblaciones, aunque no son una pendiente de regresión, no pueden alejarse demasiado de la población amalgamada, incluso en la otra dirección (nuevamente, vea la imagen de comparación de la relación de Wikipedia).
Para mí, eso es suficiente para sorprenderme cada vez que veo la última imagen como una visualización de la paradoja de Simpson. Pero como veo los ejemplos (lo que llamo incorrecto) en todas partes, tengo curiosidad por saber:
- ¿Me estoy perdiendo una transformación sutil de los ejemplos originales de Simpson / Yule de tablas de contingencia en valores reales que justifican la visualización de la línea de regresión?
- Seguramente Simpson es un caso particular de error de confusión. ¿El término 'Paradoja de Simpson' ahora se ha equiparado con un error de confusión, de modo que cualquiera que sea la matemática, cualquier cambio de dirección a través de una variable oculta puede llamarse Paradoja de Simpson?
Anexo: Aquí hay un ejemplo de una generalización a una tabla 2xmxn (o 2 por m por continuo):
Si se amalgama sobre el tipo de tiro, parece que un jugador hace más disparos cuando los defensores están más cerca. Agrupados por tipo de disparo (distancia de la canasta realmente), la situación más intuitiva esperada ocurre, que se realizan más disparos cuanto más lejos están los defensores.
Esta imagen es lo que considero una generalización de Simpson a una situación más continua (distancia de los defensores). Pero todavía no veo cómo el ejemplo de la línea de regresión es un ejemplo de Simpson.