Explique el cómic xkcd jelly bean: ¿qué lo hace divertido?

Veo que una vez de las veinte pruebas totales que realizan, , por lo que suponen erróneamente que durante una de las veinte pruebas, el resultado es significativo ( ). $p < 0.05$ $0.05 = 1/20$

xkcd jelly bean comic - "Significativo"

Título: significativo
Desplácese por el texto: "'Entonces, eh, volvimos a hacer el estudio verde y no obtuvimos ningún enlace. Probablemente fue un--' 'INVESTIGACIÓN CONFLICTO EN GREEN JELLY BEAN / ACNE LINK; ¡SE RECOMIENDA MÁS ESTUDIO!"

xkcd comic 882 - "Significativo"

— DJG
fuente

El 95% de confianza significará que, en promedio, en el 5% de los experimentos (uno de cada 20) obtendremos una conclusión opuesta. Que es exactamente lo que ha sucedido aquí. Es decir, si también haces el mismo experimento con gominolas de naranja 1000 veces, ~ 50 de ellas darán un resultado positivo. :)

— sashkello

¿Quién dijo que es gracioso?

— whuber

Yo mismo, además de los otros 59 votantes aquí , ¡entonces su al menos! ;-P (Este comentario definitivamente no representa mi opinión sobre XKCD en general). A menos que exista algo como , en cuyo caso probablemente mejores datos. Sin embargo, nadie lo ha rechazado todavía, FWIW como una operacionalización disponible de "diversión negativa" ... y con eso, probablemente he tomado este comentario en territorio de diversión negativa ...

funniness > 0

$\text{funniness}>0$

funniness < 0

$\text{funniness}<0$

(p < .05)

$(p<.05)$

— Nick Stauner

Vea también esta discusión en explicarxkcd.com

— Jeromy Anglim

@Glen_b, el hilo de dibujos animados de análisis de datos favorito es apropiadamente CW, sin embargo, no veo ninguna razón para que este sea. Dejando a un lado 'Por qué es gracioso', la pregunta pide una comprensión del punto estadístico en cuestión en la caricatura, que tiene una respuesta y debe estar en el tema y no en CW (y que creo que manejó bien a continuación).

— gung - Restablece a Monica

Respuestas:

El humor es algo muy personal: algunas personas lo encontrarán divertido, pero puede que no sea divertido para todos, y los intentos de explicar qué hace que algo sea divertido a menudo no transmiten lo divertido, incluso si explican el punto subyacente. De hecho, no todos los xkcd están destinados a ser realmente divertidos. Muchos lo hacen, sin embargo, hacen puntos importantes de una manera que invita a la reflexión, y al menos a veces son divertidos mientras lo hacen. (Personalmente, me parece gracioso, pero me resulta difícil explicar con claridad qué es exactamente lo que me hace gracioso. Creo que, en parte, es el reconocimiento de la forma en que un resultado dudoso o incluso dudoso se convierte en un circo mediático ( en el que vea también este cómic de doctorado ), y quizás en parte el reconocimiento de la forma en que se puede hacer alguna investigación, si no es conscientemente).

Sin embargo, uno puede apreciar el punto si le hace cosquillas o no a su chiste.

El punto es hacer múltiples pruebas de hipótesis a un nivel de significancia moderado como 5%, y luego publicitar la que resultó significativa. Por supuesto, si realiza 20 pruebas de este tipo cuando realmente no hay nada de importancia, el número esperado de esas pruebas para dar un resultado significativo es 1. Hacer una aproximación aproximada en la cabeza para pruebas en el nivel de significación , hay aproximadamente un 37% de posibilidades de que no haya resultados significativos, aproximadamente un 37% de posibilidades de uno y aproximadamente un 26% de posibilidades de más de uno (acabo de comprobar las respuestas exactas; están lo suficientemente cerca de eso). $n$ $\frac{1}{n}$

En el cómic, Randall describió 20 pruebas, por lo que este es sin duda su punto (que esperas obtener uno significativo incluso cuando no sucede nada). El artículo de periódico ficticio incluso enfatiza el problema con el subtítulo "¡Solo 5% de posibilidades de coincidencia!". (Si la única prueba que terminó en los documentos fue la única realizada, ese podría ser el caso).

Por supuesto, también existe el problema más sutil de que un investigador individual puede comportarse de manera mucho más razonable, pero el problema de la publicidad desenfrenada de los falsos positivos todavía ocurre. Digamos que estos investigadores solo realizan 5 pruebas, cada una al nivel del 1%, por lo que su probabilidad general de descubrir un resultado falso como ese es solo del cinco por ciento.

Hasta aquí todo bien. Pero ahora imagine que hay 20 grupos de investigación de este tipo, cada uno de los cuales prueba cualquier subconjunto aleatorio de colores que creen que tienen motivos para probar. O 100 grupos de investigación ... ¿qué posibilidades hay de un titular como el del cómic ahora?

En términos más generales, el cómic puede estar haciendo referencia al sesgo de publicación de manera más general. Si solo se anuncian resultados significativos, no escucharemos sobre las docenas de grupos que no encontraron nada para las gominolas verdes, solo el que sí lo hizo.

De hecho, ese es uno de los puntos principales que se hacen en este artículo , que ha estado en las noticias en los últimos meses ( por ejemplo , aquí , aunque es un artículo de 2005).

Una respuesta a ese artículo enfatiza la necesidad de replicación. Tenga en cuenta que si hubiera varias réplicas del estudio que se publicó, el resultado de "Gominolas verdes vinculadas al acné" sería muy poco probable que se mantenga.

(Y, de hecho, el texto emergente para el cómic hace una referencia inteligente al mismo punto).

— Glen_b
fuente

El efecto de las pruebas de hipótesis sobre la decisión de publicar se describió hace más de cincuenta años en las Decisiones de Publicación de 1959 en papel de JASA y sus posibles efectos sobre las inferencias extraídas de pruebas de importancia, o viceversa (perdón por el muro de pago).

Descripción general del documento El documento señala evidencia de que los resultados publicados de artículos científicos no son una muestra representativa de los resultados de todos los estudios. El autor revisó artículos publicados en cuatro revistas de psicología importantes. El 97% de los artículos revisados informaron resultados estadísticamente significativos para sus principales hipótesis científicas.

El autor presenta una posible explicación para esta observación: esa investigación que arroja resultados no significativos no se publica. Dicha investigación, desconocida para otros investigadores, puede repetirse de forma independiente hasta que finalmente se produzca un resultado significativo (un error de Tipo 1) y se publique. Esto abre la puerta a la posibilidad de que la literatura científica publicada pueda incluir una sobrerrepresentación de resultados incorrectos resultantes de errores de Tipo 1 en pruebas de significación estadística, exactamente el escenario en el que el cómic original de XKCD se estaba burlando.

Esta observación general ha sido verificada posteriormente y re-descubierta muchas veces en los años intermedios. Creo que el documento JASA de 1959 fue el primero en avanzar en la hipótesis. El autor de ese documento fue mi supervisor de doctorado. Actualizamos su artículo de 1959 35 años después y llegamos a las mismas conclusiones. Decisiones de publicación revisadas: el efecto del resultado de las pruebas estadísticas sobre la decisión de publicar y viceversa. Estadístico estadounidense, Vol. 49, No 1, febrero de 1995

— Wilf Rosenbaum
fuente

Claro, edité mi respuesta anterior para incluir una descripción general del documento.

— Wilf Rosenbaum

Relacionado: en.wikipedia.org/wiki/Half-life_of_knowledge

— kjetil b halvorsen

-2

Lo que la gente pasa por alto es que el valor p real para el caso del gominola verde no es .05 sino alrededor de .64. Solo el valor p simulado (nominal) es 0,05. Hay una diferencia entre los valores p reales y los simulados. La probabilidad de encontrar 1 en 20 que alcance el nivel nominal incluso si todos los valores nulos son verdaderos NO es .05, sino .64. Por otro lado, si evalúa la evidencia observando las probabilidades comparativas, la visión más popular, aparte de la estadística de error (dentro de la cual residen los valores p), DIRÁ que hay evidencia de H: las gominolas verdes están realmente correlacionadas con el acné. Eso es porque P (x; sin efecto) <P (x; H). El lado izquierdo es <0,05, mientras que el lado derecho es bastante alto: si las gominolas verdes causaran acné, entonces sería probable encontrar la asociación observada. Las probabilidades por sí solas no detectan las probabilidades de error porque condicionan los datos reales obtenidos. No hay diferencia en la evaluación que si hubiera sido esta una prueba de las gominolas verdes y el acné. Entonces, aunque esta caricatura a menudo se ve burlándose de los valores p, lo que es divertido demuestra por qué debemos considerar la probabilidad de error general (como lo hacen los valores p no simulados) y no simplemente las probabilidades. La inferencia bayesiana también está condicionada al resultado, ignorando las probabilidades de error. La única forma de evitar encontrar evidencia de H, para un bayesiano sería tener un bajo previo en H. Pero ajustaríamos el valor p sin importar el tema y sin depender de los anteriores, debido al procedimiento de caza utilizado para encontrar la hipótesis a probar. Incluso si el H que fue cazado fuera creíble, ' S sigue siendo una prueba pésima. Errorstatistics.com

— usuario48784
fuente

Es muy difícil decir exactamente lo que esta publicación está tratando de decir. Permítanme centrarme en una parte, esperando que una aclaración revele el significado del resto: ¿exactamente qué quiere decir con "la probabilidad de error general"?

— whuber

@whuber Creo que la publicación se refiere al problema de las comparaciones múltiples.

— Matt