Artículo sobre mal uso del método estadístico en NYTimes


20

Me refiero a este artículo: http://www.nytimes.com/2011/01/11/science/11esp.html

Considere el siguiente experimento. Supongamos que hay razones para creer que una moneda pesó ligeramente hacia las cabezas. En una prueba, la moneda sale cara 527 veces de cada 1,000.

¿Es esta evidencia significativa de que la moneda está ponderada?

El análisis clásico dice que sí. Con una moneda justa, las posibilidades de obtener 527 o más caras en 1,000 lanzamientos son menos de 1 en 20, o 5 por ciento, el límite convencional. Para decirlo de otra manera: el experimento encuentra evidencia de una moneda ponderada "con un 95 por ciento de confianza".

Sin embargo, muchos estadísticos no lo compran. Uno de cada 20 es la probabilidad de obtener cualquier número de cabezas por encima de 526 en 1,000 lanzamientos. Es decir, es la suma de la probabilidad de voltear 527, la probabilidad de voltear 528, 529 y así sucesivamente.

Pero el experimento no encontró todos los números en ese rango; encontró solo uno - 527. Por lo tanto, es más preciso, dicen estos expertos, calcular la probabilidad de obtener ese número - 527 - si la moneda está ponderada, y compararla con la probabilidad de obtener el mismo número si la moneda es justa.

Los estadísticos pueden mostrar que esta proporción no puede ser superior a aproximadamente 4 a 1, según Paul Speckman, un estadístico que, con Jeff Rouder, un psicólogo, dio el ejemplo.

Primera pregunta: esto es nuevo para mí. ¿Alguien tiene una referencia donde pueda encontrar el cálculo exacto y / o USTED puede ayudarme dándome el cálculo exacto usted mismo y / o puede indicarme algún material donde pueda encontrar ejemplos similares?

Bayes ideó una forma de actualizar la probabilidad de una hipótesis a medida que ingresa nueva evidencia.

Entonces, al evaluar la fuerza de un hallazgo dado, el análisis bayesiano (pronunciado BAYZ-ee-un) incorpora probabilidades conocidas, si están disponibles, fuera del estudio.

Podría llamarse el efecto "Sí, correcto". Si un estudio encuentra que los kumquats reducen el riesgo de enfermedad cardíaca en un 90 por ciento, que un tratamiento cura la adicción al alcohol en una semana, que los padres sensibles tienen el doble de probabilidades de dar a luz a una niña que a un niño, la respuesta bayesiana coincide con la de El escéptico nativo: Sí, claro. Los hallazgos del estudio se comparan con lo que se puede observar en el mundo.

En al menos un área de la medicina (pruebas de detección diagnósticas), los investigadores ya usan probabilidades conocidas para evaluar nuevos hallazgos. Por ejemplo, una nueva prueba de detección de mentiras puede ser 90 por ciento precisa, marcando correctamente 9 de cada 10 mentirosos. Pero si se administra a una población de 100 personas que ya se sabe que incluyen 10 mentirosos, la prueba es mucho menos impresionante.

Identifica correctamente 9 de los 10 mentirosos y pierde uno; pero identifica incorrectamente 9 de los otros 90 como mentirosos. Al dividir los llamados verdaderos positivos (9) por el número total de personas marcadas por la prueba (18) se obtiene una tasa de precisión del 50 por ciento. Los "falsos positivos" y los "falsos negativos" dependen de las tasas conocidas en la población.

Segunda pregunta: ¿Cómo juzga exactamente si un nuevo hallazgo es "real" o no con este método? Y: ¿No es esto tan arbitrario como la barrera del 5% debido al uso de alguna probabilidad previa preestablecida?


3
Para las monedas justas e injustas, esta es una lectura útil: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
mpiktas

Respuestas:


31

Contestaré la primera pregunta en detalle.

Con una moneda justa, las posibilidades de obtener 527 o más caras en 1,000 lanzamientos son menos de 1 en 20, o 5 por ciento, el límite convencional.

Para una moneda justa, el número de caras en 1000 ensayos sigue la distribución binomial con el número de ensayos y la probabilidad . La probabilidad de obtener más de 527 cabezas es entoncesn=1000p=1/2

P(B(1000,1/2)>=527)

Esto se puede calcular con cualquier paquete de software estadístico. R nos da

> pbinom(526,1000,1/2,lower.tail=FALSE)
   0.04684365

Entonces, la probabilidad de que con monedas justas obtengamos más de 526 caras es de aproximadamente 0.047, que es cerca del 5% de corte mencionado en el artículo.

La siguiente declaración

Para decirlo de otra manera: el experimento encuentra evidencia de una moneda ponderada "con un 95 por ciento de confianza".

Es discutible. Sería reacio a decirlo, ya que el 95% de confianza se puede interpretar de varias maneras.

A continuación pasamos a

Pero el experimento no encontró todos los números en ese rango; encontró solo uno - 527. Por lo tanto, es más preciso, dicen estos expertos, calcular la probabilidad de obtener ese número - 527 - si la moneda está ponderada, y compararla con la probabilidad de obtener el mismo número si la moneda es justa.

Aquí comparamos dos eventos - moneda justa, y - moneda ponderada. Sustituyendo las fórmulas por las probabilidades de estos eventos y observando que el coeficiente binomial se cancela, obtenemosB(1000,1/2)=527B(1000,p)=527

P(B(1000,p)=527)P(B(1000,1/2)=527)=p527(1p)473(1/2)1000.

Esta es una función de , por lo que podemos encontrar mínimos o máximos de ella. Del artículo podemos inferir que necesitamos máximos:p

Los estadísticos pueden mostrar que esta proporción no puede ser superior a aproximadamente 4 a 1, según Paul Speckman, un estadístico que, con Jeff Rouder, un psicólogo, dio el ejemplo.

Para facilitar la maximización, tome el logaritmo de la relación, calcule la derivada con respecto a y equípela a cero. La solución seráp

p=5271000.

Podemos verificar que es realmente un máximo usando una segunda prueba derivada, por ejemplo. Sustituyéndolo por la fórmula que obtenemos

(527/1000)527(473/1000)473(1/2)10004.3

Entonces, la relación es de 4.3 a 1, lo que concuerda con el artículo.


"Ahora maximice esta cantidad con respecto a p": creo que quiere decir minimizar.
Simon Byrne

@mpiktas (+1) Buena respuesta (actualizada).
chl

Creo que este ejemplo muestra exactamente qué es un intervalo de confianza. Me resulta más fácil interpretar un IC como UNA observación de una variable aleatoria distribuida de Bernouli con un parámetro de probabilidad igual al nivel de confianza. Para mí solo tiene sentido usar CI si estás haciendo el experimento de forma repetitiva. Otro problema es que ¿cuál es la hipótesis alternativa? ¿es p = 7/10, p> 0.5, p = 1050/2000? p = 527/1000? Otro problema es ¿qué queremos decir con p = ? ¿es EXACTAMENTE o es donde es un número pequeño. 112 p(112ϵp(12±ϵ)ϵ
probabilistico

@ Simon, ¿por qué es la corrección para minimizar? ¿El valor de P encontrado no maximiza la relación?

@statnovice: la versión original de la respuesta cambió el numerador y el denominador.
Simon Byrne
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.