Paradojas estadísticas más interesantes


Respuestas:


100

No es una paradoja per se , pero es un comentario desconcertante, al menos al principio.

Durante la Segunda Guerra Mundial, Abraham Wald fue estadístico del gobierno de los Estados Unidos. Miró a los bombarderos que regresaron de las misiones y analizó el patrón de las "heridas" de bala en los aviones. Recomendó que la Armada reforzara las áreas donde los aviones no tenían daños.

¿Por qué? Tenemos efectos de selección en el trabajo. Esta muestra sugiere que el daño infligido en las áreas observadas podría ser soportado. Cualquiera de los aviones nunca fue alcanzado en las áreas vírgenes, una propuesta poco probable, o los ataques a esas partes fueron letales. Nos importan los aviones que se estrellaron, no solo los que volvieron. Los que cayeron probablemente sufrieron un ataque en un lugar que no había sido tocado por los que sobrevivieron.

Para obtener copias de sus memorandos originales, consulte aquí . Para una aplicación más moderna, vea esta publicación de blog de Scientific American .

Ampliando un tema, según esta publicación de blog , durante la Primera Guerra Mundial, la introducción de un casco de estaño provocó más heridas en la cabeza que un sombrero de tela estándar. ¿El nuevo casco era peor para los soldados? No; aunque las lesiones fueron mayores, las muertes fueron menores.


3
Recuerdo haber leído esto en un par de lugares antes, pero no tengo una referencia a la mano. ¿Hay alguno que puedas agregar?
cardenal

1
@ cardinal, encontré algunos memorandos para ti. Parece que la investigación fue en realidad para los EE
Charlie

En algún lugar, hay un diagrama de dispersión de un avión hipotético para este ejemplo, pero no puedo encontrarlo.
Fomite

+1. Este es un ejemplo de sesgo de supervivencia , quizás el más perjudicial de los sesgos. Lo amplié en una respuesta.
Cliff AB

47

Otro ejemplo es la falacia ecológica .

Ejemplo
Supongamos que buscamos una relación entre la votación y los ingresos haciendo retroceder la participación en el voto para el entonces senador Obama sobre el ingreso medio de un estado (en miles). Obtenemos una intersección de aproximadamente 20 y un coeficiente de pendiente de 0.61.

Muchos interpretarían este resultado como diciendo que las personas de mayores ingresos tienen más probabilidades de votar por los demócratas; de hecho, los libros de prensa populares han hecho este argumento.

Pero espera, ¿pensé que las personas ricas tenían más probabilidades de ser republicanos? Son.

Lo que realmente nos dice esta regresión es que los estados ricos tienen más probabilidades de votar por un demócrata y los estados pobres tienen más probabilidades de votar por un republicano. Dentro de un estado dado , las personas ricas tienen más probabilidades de votar por los republicanos y las personas pobres tienen más probabilidades de votar por los demócratas. Vea el trabajo de Andrew Gelman y sus coautores .

Sin más suposiciones, no podemos usar datos a nivel de grupo (agregado) para hacer inferencias sobre el comportamiento a nivel individual. Esta es la falacia ecológica. Los datos a nivel de grupo solo pueden informarnos sobre el comportamiento a nivel de grupo.

Para dar el salto a inferencias a nivel individual, necesitamos el supuesto de constancia . Aquí, la elección de voto de los individuos no varía sistemáticamente con el ingreso medio de un estado; una persona que gana $ X en un estado rico debe ser tan probable que vote por un demócrata como alguien que gana $ X en un estado pobre. Pero las personas en Connecticut, en todos los niveles de ingresos, tienen más probabilidades de votar por un demócrata que las personas en Mississippi con esos mismos niveles de ingresos . Por lo tanto, se viola el supuesto de coherencia y se nos lleva a una conclusión errónea (engañado por el sesgo de agregación ).

Este tema fue un caballo de batalla frecuente del fallecido David Freedman ; vea este artículo , por ejemplo. En ese documento, Freedman proporciona un medio para delimitar las probabilidades a nivel individual utilizando datos grupales.

Comparación con la paradoja de Simpson
En otra parte de este CW, @Michelle propone la paradoja de Simpson como un buen ejemplo, como lo es realmente. La paradoja de Simpson y la falacia ecológica están estrechamente relacionadas, pero son distintas. Los dos ejemplos difieren en la naturaleza de los datos proporcionados y el análisis utilizado.

La formulación estándar de la paradoja de Simpson es una tabla de dos vías. En nuestro ejemplo aquí, supongamos que tenemos datos individuales y clasificamos a cada individuo como de ingresos altos o bajos. Obtendríamos una tabla de contingencia de ingresos por voto de 2x2 de los totales. Veríamos que una mayor proporción de personas de altos ingresos votó por el demócrata en relación con la proporción de personas de bajos ingresos. Si creáramos una tabla de contingencia para cada estado, sin embargo, veríamos el patrón opuesto.

En la falacia ecológica, no colapsamos el ingreso en una variable dicotómica (o quizás multicotómica). Para obtener un nivel estatal, obtenemos el ingreso estatal medio (o mediano) y la participación en el voto estatal y ejecutamos una regresión y encontramos que los estados de ingresos más altos tienen más probabilidades de votar por el demócrata. Si conservamos los datos a nivel individual y ejecutamos la regresión por separado por estado, encontraríamos el efecto contrario.

En resumen, las diferencias son:

  • Modo de análisis : Podríamos decir, siguiendo nuestras habilidades de preparación para el SAT, que la paradoja de Simpson es a las tablas de contingencia como la falacia ecológica es a los coeficientes de correlación y la regresión.
  • Grado de agregación / naturaleza de los datos : mientras que el ejemplo de la paradoja de Simpson compara dos números (participación de voto demócrata entre individuos de altos ingresos versus lo mismo para individuos de bajos ingresos), la falacia ecológica usa 50 puntos de datos ( es decir , cada estado) para calcular un coeficiente de correlación . Para obtener la historia completa del ejemplo de la paradoja de Simpson, solo necesitaríamos los dos números de cada uno de los cincuenta estados (100 números), mientras que en el caso de la falacia ecológica, necesitamos los datos a nivel individual (o de lo contrario se darán correlaciones / pendientes de regresión a nivel de estado).

Observación general
@NeilG comenta que esto simplemente parece estar diciendo que no puede haber ninguna selección de problemas de sesgo de variables no observables / omitidas en su regresión. ¡Eso es correcto! Al menos en el contexto de regresión, creo que casi cualquier "paradoja" es solo un caso especial de sesgo de variables omitidas.

El sesgo de selección (consulte mi otra respuesta en este CW) se puede controlar mediante la inclusión de las variables que impulsan la selección. Por supuesto, estas variables generalmente no son observadas, lo que genera el problema / paradoja. La regresión espuria (mi otra otra respuesta) se puede superar agregando una tendencia temporal. Estos casos dicen, esencialmente, que tiene suficientes datos, pero necesita más predictores.

En el caso de la falacia ecológica, es cierto, necesita más predictores (aquí, pendientes e intercepciones específicas del estado). Pero también necesita más observaciones, tanto individuales como grupales, para estimar estas relaciones.

(Por cierto, si tiene una selección extrema donde la variable de selección divide perfectamente el tratamiento y el control, como en el ejemplo de la Segunda Guerra Mundial que doy, es posible que también necesite más datos para estimar la regresión; allí, los planos caídos).


¿Cómo es posible formalizar el supuesto de coherencia ? Parece suponer que no hay factores de confusión (causales) que faltan en el modelo de uno.
Neil G

2
Además, el ejemplo proporcionado también es un ejemplo de la paradoja de Simpson porque condicionar el estado revierte la correlación entre el ingreso y la fiesta. ¿Cuándo es la falacia ecológica diferente de la paradoja de Simpson?
Neil G

También señalaría que hacer inferencias sobre asociaciones a nivel de grupo o causalidad basadas en asociaciones a nivel individual o relaciones causales también es simplemente malo: la falacia atomista, bien articulada aquí: [Diez-Roux, 1998] Diez-Roux, AV (1998) Devolviendo el contexto a la epidemiología: variables y falacias en el análisis multinivel. American Journal of Public Health , 88 (2): 216–222.
Alexis

43

Mi contribución es la paradoja de Simpson porque:

  • Las razones de la paradoja no son intuitivas para muchas personas, así que
  • Puede ser realmente difícil explicar por qué los hallazgos son como los laicos en inglés simple.

    tl; dr versión de la paradoja: la significación estadística de un resultado parece diferir dependiendo de cómo se dividen los datos. La causa a menudo parece deberse a una variable de confusión.

Otro buen resumen de la paradoja está aquí .


44
+1, pensé en poner eso yo mismo. Para aquellos que estén interesados, la paradoja de Simpson también se discute en el CV aquí: stats.stackexchange.com/questions/21896
gung

3
Hay algunos ejemplos de la paradoja de Simpson mencionados en esta pregunta de matemáticas .
Mike Spivey

32

No hay paradojas en las estadísticas, solo acertijos que esperan ser resueltos.

Sin embargo, mi favorito es la "paradoja" de dos sobres . Supongamos que pongo dos sobres frente a usted y le digo que uno contiene el doble de dinero que el otro (pero no cuál es cuál). Usted razona de la siguiente manera. Suponga que la envoltura izquierda contiene , entonces con un 50% de probabilidad la envoltura derecha contiene y con un 50% de probabilidad contiene , para un valor esperado de . Pero, por supuesto, simplemente puede invertir los sobres y concluir que el sobre izquierdo contiene veces el valor del sobre derecho. ¿Que pasó?2 x 0.5 x 1.25 x 1.25x2x0.5x1.25x1.25


Paradoja brillante: curiosamente, si vamos con la "segunda" interpretación en Wikipedia y tratamos de calcular , encontramos que para evitar la preferencia de conmutación, necesitamos donde . Resolver para significa que obtenemos . De manera similar, podemos calcular donde y obtener .... ¡Bizzare! E [ B | A = a ] = a = 2 a p + aE[B|A=a]p=Pr(A<B|A=a)pp=1E[B|A=a]=a=2ap+a2(1p)p=Pr(A<B|A=a)pp=13E[A|B=b]=b=2bq+b2(1q)q=Pr(B<A|B=b)q=13
probabilidadislogica

66
He dado presentaciones sobre esta paradoja en la que el juego se juega realmente con la audiencia, con cantidades reales de dinero (generalmente un cheque a la institución anfitriona). Llama su atención ...
whuber

Creo que resolví este ... La paradoja se resuelve cuando reconocemos que la paradoja de los dos sobres propone incorrectamente 1) hay tres cantidades posibles: 0.5x, x y 2x, cuando solo hay dos cantidades en los sobres (digamos x y 2x), y 2) que a priori sabemos que el sobre izquierdo contiene x (en cuyo caso el sobre derecho contendría 2x con 100% de certeza). Dados los posibles valores de x y 2x asignados aleatoriamente a los dos sobres, la respuesta correcta es un valor esperado de 1.5x si elijo el sobre izquierdo o el derecho.
RobertF

3
@RobertF La situación es más complicada. Suponga que se sabe que el dinero se distribuye en los dos sobres de la siguiente manera. Lanza una moneda justa hasta que caiga cara y cuenta el número n de veces que se lanzó la moneda. Coloque 2 ^ n dólares en un sobre y 2 ^ (n + 1) en el otro. Ahora puede realizar cálculos de expectativas muy exactos y aún conservar la paradoja.
Ittay Weiss

31

El problema de la bella durmiente .

Este es un invento reciente; fue ampliamente discutido en un pequeño conjunto de revistas de filosofía durante la última década. Hay firmes defensores de dos respuestas muy diferentes ("Halfers" y "Thirders"). Plantea preguntas sobre la naturaleza de las creencias, la probabilidad y el condicionamiento, y ha provocado que las personas invoquen una interpretación de la mecánica cuántica de "muchos mundos" (entre otras cosas extrañas).

Aquí está la declaración de Wikipedia:

La Bella Durmiente se ofrece voluntariamente para realizar el siguiente experimento y se le informan todos los detalles siguientes. El domingo la ponen a dormir. Luego se arroja una moneda justa para determinar qué procedimiento experimental se lleva a cabo. Si la moneda sale cara, Beauty es despertada y entrevistada el lunes, y luego termina el experimento. Si la moneda sale de colas, la despiertan y la entrevistan los lunes y martes. Pero cuando la vuelven a dormir el lunes, le dan una dosis de un medicamento inductor de amnesia que le asegura que no puede recordar su despertar anterior. En este caso, el experimento termina después de ser entrevistada el martes.

Cada vez que se despierta y se entrevista a la Bella Durmiente, se le pregunta: "¿Cuál es su credibilidad ahora para la proposición de que la moneda aterrizó caras?"

La posición de Thirder es que SB debería responder "1/3" (este es un simple cálculo del Teorema de Bayes) y la posición de Halfer es que debería decir "1/2" (¡porque esa es la probabilidad correcta de una moneda justa, obviamente! ) En mi humilde opinión, todo el debate se basa en una comprensión limitada de la probabilidad, pero ¿no es ese el objetivo de explorar paradojas aparentes?

El príncipe Florimond encuentra a la bella durmiente

(Ilustración del Proyecto Gutenberg ).


Aunque este no es el lugar para tratar de resolver paradojas, solo para expresarlas, no quiero dejar a la gente colgando y estoy seguro de que la mayoría de los lectores de esta página no quieren leer las explicaciones filosóficas. Podemos tomar un consejo de ET Jaynes , quien reemplaza la pregunta "¿cómo podemos construir un modelo matemático del sentido común humano", que es algo que necesitamos para pensar en el problema de la Bella Durmiente, por "¿Cómo podríamos construir una máquina? ¿cuál llevaría a cabo un razonamiento útil y plausible, siguiendo principios claramente definidos que expresen un sentido común idealizado? Por lo tanto, si lo desea, reemplace SB por el robot pensante de Jaynes. Puedes clonareste robot (en lugar de administrar un medicamento amnésico fantasioso) para la parte del martes del experimento, creando así un modelo claro de la configuración SB que puede analizarse sin ambigüedades. Modelado de una manera estándar utilizando la teoría de decisión estadística revela entonces en realidad hay dos preguntas que se hacen aquí ( ¿cuál es la probabilidad de una moneda cae cara? Y ¿cuál es la probabilidad de que la moneda ha caído cabezas, condicionada al hecho de que usted era el clonar quien fue despertado? ). La respuesta es 1/2 (en el primer caso) o 1/3 (en el segundo, usando el Teorema de Bayes). No hay principios de mecánica cuántica involucrados en esta solución :-).


Referencias

Arntzenius, Frank (2002). Reflexiones sobre la bella durmiente . Análisis 62.1 pp 53-62. Elga, Adam (2000). Creencia de auto-localización y el problema de la bella durmiente Análisis 60 pp 143-7.

Franceschi, Paul (2005). La bella durmiente y el problema de la reducción mundial . Preimpresión

Groisman, Berry (2007). El final de la pesadilla de la Bella Durmiente .

Lewis, D (2001). La bella durmiente: responde a Elga . Análisis 61.3 pp 171-6.

Papineau, David y Victor Dura-Vila (2008). Un thirder y un Everettian: una respuesta a 'Quantum Sleeping Beauty' de Lewis .

Pust, Joel (2008). Horgan sobre la bella durmiente . Synthese 160 pp 97-101.

Vineberg, Susan (sin fecha, quizás 2003). Cuento cautelar de la belleza .

Todos se pueden encontrar (o al menos se encontraron hace varios años) en la Web.


1
¿Crees que es igualmente efectivo formular la solución en términos de "unidades base"? Con eso quiero decir, debes considerar si la unidad base es la persona o la entrevista. La mitad de las personas habrá tenido cabeza, pero 1/3 de las entrevistas sí. Luego, para elegir nuestra unidad base, podemos volver a visitar la pregunta y la frase como "¿Cuál es la probabilidad de que esta entrevista esté asociada con un resultado de" cabezas "?
Jonathan

1
SB no sabe cuántas entrevistas ha habido y la pregunta es sobre su evaluación de la probabilidad, no la evaluación de los experimentadores. Desde su punto de vista, no se puede determinar el número de entrevistas.
whuber

2
Creo que primero deberías leer los argumentos en la literatura, Aaron. (Confieso que soy un thirder, pero creo que los halfers no encontrarán su razonamiento convincente Como mínimo, es necesario mostrarles por qué su argumento es defectuoso..)
whuber

1
Punto justo, @whuber, ahora he echado un vistazo a la literatura. Estoy leyendo La bella durmiente de Ellis : responde a Elga . Es esta frase la que me preocupa, al comienzo de la sección '4. Mi argumento ". "Solo nuevas pruebas relevantes, centradas o no centradas, producen un cambio en la credibilidad". Pensaré más y tal vez bloguearemos al respecto nuevamente. ¡Tuve una larga discusión con otros siete estudiantes de doctorado sobre esto!
Aaron McDaid

1
¿Se le permite a la Bella Durmiente mirar el calendario cuando se despierta? Si es lunes, entonces debería responder P (X = cabeza) = 0.5. Si es martes, entonces P (X = cabeza) = 0.
RobertF

25

La paradoja de San Petersburgo , que te hace pensar de manera diferente sobre el concepto y el significado del Valor esperado . La intuición (principalmente para personas con experiencia en estadística) y los cálculos están dando resultados diferentes.


55
X1,X2,nX¯nN(0,1)Var(nX¯n)17

@cardinal ¿Hay alguna posibilidad de que pueda publicar algunos detalles de esto como una respuesta separada?
Silverfish

Xif(n)fVar(nX¯n)

Xif(i)XiVar(nX¯n)=1ni=1nf(i)f(i)Var(nX¯n)

22

La paradoja de Jeffreys-Lindley , que muestra que, en algunas circunstancias, los métodos de prueba de hipótesis frecuentes y bayesianos por defecto pueden dar respuestas completamente contradictorias. Realmente obliga a los usuarios a pensar exactamente qué significan estas formas de prueba y a considerar si eso es lo que realmente quieren. Para un ejemplo reciente, vea esta discusión .


20

Ahí está la famosa falacia de las dos chicas:

En una familia con dos hijos, ¿cuáles son las posibilidades, si uno de los niños es una niña , de que ambos niños sean niñas?

La mayoría de la gente dice intuitivamente 1/2, pero la respuesta es 1/3. El problema, fundamentalmente, es que elegir al azar "una niña, de todas las niñas con un hermano" al azar no es lo mismo que elegir uniformemente "una familia, de todas las familias con dos hijos y al menos una niña".


Este es lo suficientemente simple como para encajar con la intuición, una vez que lo entiendes, pero hay versiones más complicadas que son más difíciles de comprender:

En una familia con dos hijos, ¿cuáles son las posibilidades, si uno de los niños es un niño nacido el martes , de que ambos niños sean niños? (Respuesta: 13/27)

En una familia con dos hijos, ¿cuáles son las posibilidades, si uno de los niños es una niña llamada Florida , de que ambos niños sean niñas? (Respuesta: muy cerca de 1/2, suponiendo que "Florida" es un nombre extremadamente raro)


Puede encontrar más información sobre todos estos rompecabezas en esta respuesta .
(También: Más información sobre el niño nacido el martes , más información sobre una niña llamada Florida )


3
La respuesta 1/3no es 2/3segura? Solo uno deGB, BG, GG
Martin Smith

3
El artículo "niño nacido el martes" es bueno. Su punto principal, que se hace muy claro ("el problema está subdefinido"), es que la respuesta depende del modelo de probabilidad que uno adopta. Decir que "la" respuesta es 13/27 es engañoso (en el mejor de los casos).
whuber

@ Martin: jeje whoops :)
BlueRaja - Danny Pflughoeft

2
La razón por la que estos problemas son tan confusos es que la pregunta está redactada de modo que es muy difícil determinar qué espacio de hipótesis es. Esto a su vez hace que sea confuso cuáles son los casos "igualmente probables" en realidad (y, por lo tanto, qué se debe contar).
probabilidadislogica

1
p(B1G2)=p(G1B2)p(G1G2)2p(B1G2)+p(G1G2)

12

Lo siento, pero no puedo evitarlo (¡a mí también me encantan las paradojas estadísticas!).

De nuevo, quizás no sea una paradoja per se y otro ejemplo de sesgo de variables omitidas.

Causalidad / regresión espuria
Cualquier variable con una tendencia temporal se correlacionará con otra variable que también tenga una tendencia temporal. Por ejemplo, mi peso desde el nacimiento hasta los 27 años va a estar altamente correlacionado con su peso desde el nacimiento hasta los 27 años. Obviamente, mi peso no es causado por su peso. Si fuera así, le pediría que vaya al gimnasio con más frecuencia, por favor.

xtyt

xt=α0+α1t+ϵt andyt=β0+β1t+ηt.

yt=γ0+γ1xt+νt
xtγ1

Cuando realiza análisis de series de tiempo, debe asegurarse de que sus variables son estacionarias o obtendrá estos resultados espurios de causalidad.

(Admito totalmente que plagio mi propia respuesta dada aquí ).


11

Uno de mis favoritos es el problema de Monty Hall. Recuerdo haberlo aprendido en una clase de estadísticas elementales, diciéndole a mi padre que, como ambos estábamos incrédulos, simulé números aleatorios y probamos el problema. Para nuestro asombro, era cierto.

Básicamente, el problema dice que si tuvieras tres puertas en un programa de juegos, una detrás de la cual hay un premio y las otras dos nada, si eliges una puerta y luego te informan de las dos puertas restantes, una de las dos no es una puerta de premio y se le permite cambiar su elección si así lo desea, debe cambiar su puerta actual a la puerta restante.

Aquí está el enlace a una simulación R también: ENLACE


7

La paradoja de Parrondo:

De wikipdedia : "La paradoja de Parrondo, una paradoja en la teoría de juegos, se ha descrito como: Una combinación de estrategias perdedoras se convierte en una estrategia ganadora. Lleva el nombre de su creador, Juan Parrondo, quien descubrió la paradoja en 1996. Una descripción más explicativa es :

Existen pares de juegos, cada uno con una mayor probabilidad de perder que ganar, para lo cual es posible construir una estrategia ganadora jugando los juegos alternativamente.

Parrondo ideó la paradoja en relación con su análisis del trinquete browniano, un experimento mental sobre una máquina que supuestamente puede extraer energía de movimientos de calor aleatorios popularizados por el físico Richard Feynman. Sin embargo, la paradoja desaparece cuando se analiza rigurosamente ".

Tan atrayente como la paradoja pueda sonar para la multitud financiera, tiene requisitos que no están disponibles en series de tiempo financieras. Aunque algunas de las estrategias componentes pueden estar perdiendo, las estrategias de compensación requieren probabilidades desiguales y estables de mucho más o menos del 50% para que el efecto de trinquete se active. Sería difícil encontrar estrategias financieras, por lo que uno tiene y el otro, , durante largos períodos.PB(W)=3/4+ϵPA(W)=1/10+ϵ

También hay una paradoja relacionada más reciente llamada " mezcla de Allison " , que muestra que podemos tomar dos IID y series no correlacionadas, y mezclarlas aleatoriamente para que ciertas mezclas puedan crear una serie resultante con autocorrelación distinta de cero.


6

Es interesante que el problema de los dos niños y el problema de Monty Hall se mencionen tan a menudo juntos en el contexto de la paradoja. Ambos ilustran una aparente paradoja ilustrada por primera vez en 1889, llamada La paradoja de la caja de Bertrand, que se puede generalizar para representar cualquiera. Me parece una "paradoja" más interesante porque las mismas personas muy educadas e inteligentes responden a estos dos problemas de manera opuesta con respecto a esta paradoja. También se compara con un principio utilizado en juegos de cartas como bridge, conocido como el Principio de Elección Restringida, donde su resolución está probada en el tiempo.

Supongamos que tiene un elemento seleccionado al azar que llamaré una "caja". Cada caja posible tiene al menos una de dos propiedades simétricas, pero algunas tienen ambas. Llamaré a las propiedades "oro" y "plata". La probabilidad de que una caja sea solo oro es P; y dado que las propiedades son simétricas, P también es la probabilidad de que una caja sea solo plateada. Eso hace que la probabilidad de que una caja tenga solo una propiedad 2P, y la probabilidad de que tenga ambas 1-2P.

Si le dicen que una caja es dorada, pero no si es plateada, puede sentirse tentado a decir que las posibilidades de que sea solo oro son P / (P + (1-2P)) = P / (1-P). Pero entonces tendría que indicar la misma probabilidad para una caja de un color si le dijeran que era plateada. Y si esta probabilidad es P / (1-P) cada vez que le dicen un solo color, tiene que ser P / (1-P) incluso si no le dicen un color. Sin embargo, sabemos que es 2P del último párrafo.

Esta aparente paradoja se resuelve señalando que si una caja tiene un solo color, no hay ambigüedad sobre el color que se le indicará. Pero si tiene dos, hay una opción implícita. Tienes que saber cómo se hizo esa elección para responder a la pregunta, y esa es la raíz de la aparente paradoja. Si no le dicen, solo puede suponer que se eligió un color al azar, haciendo la respuesta P / (P + (1-2P) / 2) = 2P. Si insiste en que P / (1-P) es la respuesta, está asumiendo implícitamente que no había posibilidad de que se hubiera mencionado el otro color a menos que fuera el único color.

En el problema de Monty Hall, la analogía de los colores no es muy intuitiva, pero P = 1/3. Las respuestas basadas en las dos puertas sin abrir que originalmente eran igualmente propensas a tener el premio suponen que Monty Hall tenía que abrir la puerta que hizo, incluso si tenía una opción. Esa respuesta es P / (1-P) = 1/2. La respuesta que le permite elegir al azar es 2P = 2/3 para la probabilidad de que el cambio gane.

En el Problema de los dos niños, los colores en mi analogía se comparan bastante bien con los géneros. Con cuatro casos, P = 1/4. Para responder a la pregunta, necesitamos saber cómo se determinó que había una niña en la familia. Si fue posible aprender sobre un niño en la familia por ese método, entonces la respuesta es 2P = 1/2, no P / (1-P) = 1/3. Es un poco más complicado si considera el nombre Florida, o "nacido el martes", pero los resultados son los mismos. La respuesta es exactamente 1/2 si hubiera una elección, y la mayoría de las declaraciones del problema implican tal elección. Y la razón por la que "cambiar" de 1/3 a 13/27, o de 1/3 a "casi 1/2", parece paradójico y poco intuitivo, es porque la suposición de no elección no es intuitiva.

En el Principio de elección restringida, digamos que te faltan algunas cartas equivalentes, como la Jota, la Reina y el Rey del mismo palo. Las posibilidades comienzan incluso de que una carta en particular pertenezca a un oponente específico. Pero después de que un oponente juega uno, sus posibilidades de tener uno de los otros disminuyen porque podría haber jugado esa carta si la hubiera tenido.


No sigo tus probabilidades. Si por "simétrico" te refieres a (que creo que quieres decir), ¿no debería la probabilidad de que ambos sean , en lugar de ? (Esto supone independencia, lo que creo que quiere decir, aunque ayudaría a decir eso explícitamente). Además, creo que la probabilidad de que la casilla sea ni debería ser , en lugar de , no ' t it? Esto se puede ver fácilmente si consideramos el caso en el que - luego & , a menos que con "simétrico" signifique que & Las propiedades son perfectamente dependientes. Perdón por molestar.PG=PSP22P(1P)212PPG=PS=.8PGS=1.6PGS=.6P=.5
Gung

Lo siento, tal vez no lo expliqué bien tratando de ser lo más breve posible. Mi P no era la probabilidad de que una caja tuviera el color dorado, era la probabilidad de que fuera solo oro. La probabilidad de que tenga el color dorado es 1-P. Y aunque las dos propiedades son simétricas, no tienen que ser independientes, por lo que no puede simplemente multiplicar las probabilidades. Además, ninguna casilla es "tampoco". Bertrand usó tres cajas con dos monedas en cada una: oro + oro, oro + plata y plata + plata. Una caja con cualquier cantidad de monedas de oro es "oro" en mi generalización.
JeffJo

+1, eso ayuda. Ahora veo la frase "al menos uno de dos" y la palabra "justo", que debo haber pasado por alto.
Gung

6

Me gusta lo siguiente: el host está utilizando una distribución desconocida en para elegir, independientemente, dos números . Lo único que el jugador sabe sobre la distribución es que . Luego se muestra al jugador el número y se le pide que adivine si o . Claramente, si el jugador siempre adivina entonces el jugador será correcto con probabilidad . Sin embargo, al menos sorprendentemente, si no paradójicamente, el jugador puede mejorar esa estrategia. Me temo que no tengo un vínculo con el problema (lo escuché hace muchos años durante un taller).x , y [ 0 , 1 ] P ( x = y ) = 0 x y > x y < x y > x 0.5[0,1]x,y[0,1]P(x=y)=0xy>xy<xy>x0.5


2
Estimado Ittay, creo que Tom Cover es la fuente original de este problema. Creo que también aparece en sus Problemas abiertos en comunicación y computación , pero no me resulta útil verificarlo. Es un lindo problema. La restricción a , o incluso una aleatoria (o , para el caso) no es esencial. Salud. y x[0,1]yx
cardenal

2

Encuentro una ilustración gráfica simplificada de la falacia ecológica (aquí la paradoja de votación del Estado rico / Estado pobre) me ayuda a comprender en un nivel intuitivo por qué vemos una reversión de los patrones de votación cuando agregamos las poblaciones del Estado:

ingrese la descripción de la imagen aquí


3
Este es un buen ejemplo, pero creo que esta es la paradoja de Simpson: en.wikipedia.org/wiki/Simpson%27s_paradox
Nick

1
@Nick: este ejemplo en particular es realmente distinto de la paradoja de Simpson, pero puede ser difícil saber qué falacia / paradoja se aplica en una situación particular porque se ven estadísticamente iguales. La diferencia es que SP es un "efecto falso" que aparece solo cuando se analizan subgrupos. Sin embargo, esta tendencia que se muestra es un "efecto verdadero" que aparece solo cuando se analizan subgrupos. En este caso, sugiere que si bien los ingresos como número bruto no afectan los patrones de votación en conjunto, los ingresos relacionados con sus vecinos (su estado) sí influyen en los patrones de votación.
Jonathan

Es la falacia ecológica, que se analiza a continuación.
Charlie

3
@Charlie 'debajo' y 'arriba' son funciones de cualquier manera que un lector de la página esté ordenando (activo / más antiguo / votos), y en cualquier caso el orden bajo algunos de los criterios de clasificación puede cambiar con el tiempo (incluido el predeterminado) . Como tal, probablemente sea mejor mencionar a la persona que publicó la discusión a la que se refiere, o incluso vincularla.
Glen_b

2

Supongamos que obtuvo datos sobre nacimientos en la familia real de algún reino. En el árbol genealógico se observó cada nacimiento. Lo peculiar de esta familia es que los padres intentaban tener un bebé tan pronto como nació el primer niño y luego no tuvieron más hijos.

Por lo tanto, sus datos potencialmente se parecen a esto:

G G B
B
G G B
G B
G G G G G G G G G B
etc.

¿La proporción de niños y niñas en esta muestra reflejará la probabilidad general de dar a luz a un niño (digamos 0.5)? La respuesta y la explicación se pueden encontrar en este hilo .


2
Esta respuesta se lee como un rompecabezas, no como una paradoja. Me imagino por qué querías publicarlo así, pero creo que esta respuesta califica como paradoja y se ajusta a este hilo, debes ser más explícito.
ameba

2
Esta pregunta (con niños y niñas intercambiados) se hizo en stats.stackexchange.com/questions/93830 , que recibió una gran cantidad de respuestas, ¡no totalmente de acuerdo! (Aprendí algo al tomar el problema en serio y pensarlo de manera cada vez más realista, explorando los supuestos necesarios para hacerlo.)
whuber

@whuber gracias por el enlace! Lo agregué a la descripción.
Tim

2

Esta es la paradoja de Simpson nuevamente, pero 'hacia atrás' y hacia adelante proviene del nuevo libro de Judea Pearl Causal Inference in Statistics: A primer [^ 1]

La clásica paradoja de Simpon funciona de la siguiente manera: considere tratar de elegir entre dos médicos. Eliges automáticamente el que tiene los mejores resultados. Pero supongamos que el que tiene los mejores resultados elige los casos más fáciles. El historial más pobre del otro es consecuencia de un trabajo más complicado.

¿Ahora a quién eliges? Es mejor mirar los resultados estratificados por dificultad y luego decidir.

Hay otro lado de la moneda (otra paradoja) que dice que los resultados estratificados también pueden llevarlo a la elección incorrecta.

Esta vez considere elegir usar un medicamento o no. El medicamento tiene un efecto secundario tóxico, pero su mecanismo de acción terapéutico es a través de la disminución de la presión arterial. En general, el medicamento mejora los resultados en la población, pero cuando se estratifica con la presión arterial posterior al tratamiento , los resultados son peores en los grupos de presión arterial baja y alta. ¿Cómo puede ser esto cierto? Debido a que nos hemos estratificado involuntariamente en el resultado, y dentro de cada resultado todo lo que queda por observar es el efecto secundario tóxico.

Para aclarar, imagine que el medicamento está diseñado para reparar corazones rotos, y lo hace bajando la presión arterial, y en lugar de estratificar con la presión arterial, estratificamos en corazones fijos. Cuando el medicamento funciona, el corazón se repara (y la presión arterial será más baja), pero algunos de los pacientes también tendrán el efecto secundario tóxico. Debido a que el medicamento funciona, el grupo de "corazón fijo" tendrá más pacientes que lo hayan tomado, que pacientes que estén tomando el medicamento en el grupo de corazón "roto". Más pacientes que toman el medicamento significa que más pacientes tienen efectos secundarios, y aparentemente (pero falsamente) mejores resultados para los pacientes que no tomaron el medicamento.

Los pacientes que mejoran sin tomar el medicamento tienen suerte. Los pacientes que tomaron el medicamento y mejoraron son una mezcla de aquellos que necesitaban el medicamento para mejorar, y aquellos que habrían tenido suerte de todos modos. Examinar solo a pacientes con "corazones fijos" significa excluir a los pacientes que habrían sido reparados si hubieran tomado el medicamento. Excluir a dichos pacientes significa excluir el daño de no tomar el medicamento, lo que a su vez significa que solo vemos el daño de tomar el medicamento.

La paradoja de Simpson surge cuando hay una causa para el resultado que no sea el tratamiento, como el hecho de que su médico solo hace casos difíciles. El control de la causa común (casos difíciles versus fáciles) nos permite ver el verdadero efecto. En el último ejemplo, hemos estratificado involuntariamente en un resultado no en una causa, lo que significa que la respuesta verdadera está en el conjunto, no en los datos estratificados.

[^ 1]: Pearl J. Inferencia causal en estadística. John Wiley & Sons; 2016


2

Uno de mis "favoritos", lo que significa que es lo que me vuelve loco por la interpretación de muchos estudios (y a menudo por los propios autores, no solo los medios de comunicación) es el sesgo de supervivencia .

Una forma de imaginarlo es suponiendo que haya algún efecto que sea muy perjudicial para los sujetos, tanto que tenga una muy buena posibilidad de matarlos. Si los sujetos están expuestos a este efecto antes del estudio , para cuando comience el estudio, los sujetos expuestos que aún están vivos tienen una probabilidad muy alta de tener una resistencia inusitada. Selección literalmente natural en el trabajo. Cuando esto sucede, el estudio observará que los sujetos expuestos son inusualmente saludables (ya que todos los insalubres ya murieron o se aseguraron de dejar de estar expuestos al efecto). Esto a menudo se malinterpreta como implicando que la exposición es realmente buena para los sujetos. Esto es resultado de ignorar el truncamiento (es decir, ignorar a los sujetos que murieron y no llegaron al estudio).

Del mismo modo, los sujetos que dejan de estar expuestos al efecto durante el estudio a menudo son increíblemente insalubres: esto se debe a que se han dado cuenta de que la exposición continua probablemente los matará. ¡Pero el estudio simplemente observa que quienes renuncian son muy poco saludables!

La respuesta de @Charlie sobre los bombarderos de la Segunda Guerra Mundial puede considerarse como un ejemplo de esto, pero también hay muchos ejemplos modernos. Un ejemplo reciente son los estudios que informan que beber más de 8 tazas de café al día(!!) está relacionado con una salud cardíaca mucho más alta en personas mayores de 55 años. Muchas personas con doctorados interpretaron esto como "¡beber café es bueno para tu corazón!", Incluidos los autores del estudio. Leí esto, ya que debes tener un corazón increíblemente saludable para seguir bebiendo 8 tazas de café al día después de los 55 años y no tener un ataque cardíaco. Incluso si no lo mata, en el momento en que algo parezca preocupante sobre su salud, todos los que lo aman (más su médico) lo alentarán de inmediato a dejar de tomar café. Otros estudios encontraron que beber tanto café no tuvo efectos beneficiosos en los grupos más jóvenes, lo que creo que es más evidencia de que estamos viendo un efecto de supervivencia, en lugar de un efecto causal positivo. Sin embargo, hay muchos doctores que dicen "


No estoy tan seguro de tu interpretación. En Noruega, beber 8 tazas de café al día no es inusual, el valor medio (incluidos los niños y otros no bebedores) es de alrededor de dos tazas al día. En Finlandia, la media es de alrededor de 2.5 tazas al día. Solía ​​beber mor ethan diez tazas al día, pero ya no.
kjetil b halvorsen

1

Me sorprende que nadie haya mencionado la paradoja de Newcombe todavía, aunque se discute más en la teoría de la decisión. Definitivamente es uno de mis favoritos.


-2

Deje x, y, y z ser vectores no correlacionados. Sin embargo, x / z e y / z estarán correlacionados.


2
¿Por qué es esto una paradoja? Parece intuitivo.
lcrmorin 05 de

2
Me hubiera sorprendido si este no fuera el caso.
Glen_b

1
x/zx/zzX,Y,Z
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.