¿Los investigadores anteriores no detectaron la mano caliente simplemente por una falacia estadística?

11

Muchos fanáticos / jugadores de baloncesto creen que después de haber hecho varios tiros seguidos, es más probable que el siguiente tiro entre. Esto a veces se llama la mano caliente.

Comenzando (creo) con Gilovich, Mallone y Tversky (1985) , se "demostró" que esto era de hecho una falacia. Incluso si se han efectuado varios disparos seguidos, no es más probable que el siguiente disparo se realice de lo que dicta el porcentaje promedio de disparos.

Miller y Sanjurjo (2015) argumentan que la mano ardiente de hecho existe y que los investigadores anteriores simplemente habían sido víctimas de una falacia estadística bastante básica. Su argumento es algo como esto:

Lanza una moneda cuatro veces. Calcule la probabilidad de que H siga a H. Para dar algunos ejemplos: HHTT tendría probabilidad 1/2, HTHT tendría probabilidad 0/2, TTHH tendría probabilidad ~~0/1~~ 1/1, y tanto TTTT como TTTH serían NA

El punto clave de Miller y Sanjurjo es que el valor esperado de esta probabilidad no es 0.5, sino ≈0.4. Y el error cometido por investigadores anteriores fue suponer incorrectamente que el valor esperado de esta probabilidad es 0.5. Entonces, si, por ejemplo, estos investigadores anteriores realizaron el experimento de lanzamiento de moneda anterior y encontraron que la probabilidad promedio era 0.497, concluyeron incorrectamente que no había evidencia de una mano caliente (no significativamente diferente de 0.5), cuando en realidad había muy Fuerte evidencia de una mano caliente (significativamente diferente de 0.4).

Mi pregunta es la siguiente: ¿Son correctos Miller y Sanjurjo porque los investigadores anteriores no detectaron la mano caliente simplemente por este error? Solo he leído uno o dos documentos sobre esto, así que quería obtener alguna confirmación de alguien aquí que podría conocer mejor esta literatura. Esto parece un error sorprendentemente tonto que ha persistido durante tres décadas o más.

academic-graduate statistics

— Kenny LJ
fuente

3

Esta es una pregunta peligrosa para este sitio en el sentido de que es bastante difícil de evaluar, especialmente para los extraños. Y así es como "determinamos" las mejores respuestas, por mayoría de votos. Asegúrese de leer todas las respuestas, y solo vote hacia arriba las que parezcan correctas después de leerlas, y vote hacia abajo las que lo dejan insatisfecho / sospechoso.

— FooBar

1

Esto se debe a que la respuesta correcta podría ser contra intuitiva. Si un sitio como este existiera hace 60 años, no creo que la respuesta correcta al problema de Monty Hall, que tiene propiedades similares, se convierta en el primero a través de la votación por mayoría.

— FooBar

@FooBar, para agregar a su punto, hay dos preguntas complicadas que ocurren a la vez aquí: (1) "¿Cuál es el efecto matemático que discuten Miller y Sanjuro" --- esta no es la pregunta que hizo Kenny LJ, pero es un buena pregunta porque requiere mucha lectura para entender y es relativamente objetivo. A continuación, (2) es "¿Esto invalida la investigación previa", que parece subjetiva y basada en opiniones ....

— usul

@usul: En algunos casos en economía, la segunda pregunta ("¿Esto invalida la investigación previa?") es de hecho más polémica y basada en opiniones, por ejemplo, la controversia sobre el documento Reinhart y Rogoff (2010). Pero creo que en este caso tenemos un problema matemático claramente definido. Y como he tratado de mostrar en mi respuesta a continuación (que acabo de reescribir una vez más por claridad y brevedad), Miller y Sanjurjo (2015) logran invalidar las conclusiones de Gilovich, Mallone y Tversky (1985).

— Kenny LJ

@KennyLJ, han demostrado que una de las pruebas del documento de 1985 no es válida. Esta es una pregunta muy diferente de mostrar que la conclusión no es válida, por ejemplo, mostrar que definitivamente existe un efecto de mano caliente.

— usul

6

(Esta respuesta se reescribió por completo para mayor claridad y legibilidad en julio de 2017).

Lanza una moneda 100 veces seguidas.

$\hat{p}(H|3T)$ $\hat{p}(H|3H)$

$x:=\hat{p}(H|3H)-\hat{p}(H|3T)$

Si los lanzamientos de monedas son iid, entonces "obviamente", en muchas secuencias de 100 lanzamientos de monedas,

$x>0$ $x<0$

$E(X)=0$

Generamos un millón de secuencias de 100 lanzamientos de monedas y obtenemos los siguientes dos resultados:

$x>0$ $x<0$

$\bar{x} \approx 0$ $\bar{x}$ $x$

Y así concluimos que los lanzamientos de monedas son en efecto iid y no hay evidencia de una mano caliente. Esto es lo que hizo GVT (1985) (pero con tiros de baloncesto en lugar de lanzamientos de monedas). Y así es como llegaron a la conclusión de que la mano caliente no existe.

Punchline: Sorprendentemente, (1) y (2) son incorrectos. Si los lanzamientos de monedas son iid, entonces debería ser que

$x>0$ $x<0$ $x=0$ $x$

$E(X) \approx -0.08$

La intuición (o contra-intuición) involucrada es similar a la de varios otros acertijos de probabilidad famosos: el problema de Monty Hall, el problema de los dos niños y el principio de elección restringida (en el puente del juego de cartas). Esta respuesta ya es lo suficientemente larga, por lo que omitiré la explicación de esta intuición.

Y así, los mismos resultados (I) y (II) obtenidos por GVT (1985) son en realidad una fuerte evidencia a favor de la mano caliente. Esto es lo que mostraron Miller y Sanjurjo (2015).

Análisis adicional de la tabla 4 de GVT.

Muchos (por ejemplo, @scerwin a continuación) han expresado, sin molestarse en leer GVT (1985), su incredulidad de que cualquier "estadista capacitado" tome un promedio de promedios en este contexto.

Pero eso es exactamente lo que hizo GVT (1985) en su Tabla 4. Vea su Tabla 4, columnas 2-4 y 5-6, fila inferior. Encuentran eso promediado en los 26 jugadores,

$\hat{p}(H|1M) \approx 0.47$ $\hat{p}(H|1H) \approx 0.48$

$\hat{p}(H|2M) \approx 0.47$ $\hat{p}(H|2H) \approx 0.49$

$\hat{p}(H|3M) \approx 0.45$ $\hat{p}(H|3H) \approx 0.49$

$k=1,2,3$ $\hat{p}(H|kH)>\hat{p}(H|kM)$

Pero si en lugar de tomar el promedio de promedios (un movimiento considerado increíblemente estúpido por algunos), rehacemos su análisis y agregamos los 26 jugadores (100 disparos para cada uno, con algunas excepciones), obtenemos la siguiente tabla de promedios ponderados.

Any                     1175/2515 = 0.4672

3 misses in a row       161/400 = 0.4025
3 hits in a row         179/313 = 0.5719

2 misses in a row       315/719 = 0.4381
2 hits in a row         316/581 = 0.5439        

1 miss in a row         592/1317 = 0.4495
1 hit in a row          581/1150 = 0.5052

La tabla dice, por ejemplo, que los 26 jugadores tomaron un total de 2,515 tiros, de los cuales 1,175 o 46.72% fueron realizados.

Y de las 400 instancias en las que un jugador falló 3 seguidas, 161 o 40.25% fueron seguidas inmediatamente por un golpe. Y de las 313 instancias en las que un jugador golpeó 3 seguidas, 179 o 57.19% fueron seguidas inmediatamente por un golpe.

Los promedios ponderados anteriores parecen ser una fuerte evidencia a favor de la mano caliente.

Tenga en cuenta que el experimento de tiro se creó para que cada jugador disparara desde donde se había determinado que podía hacer aproximadamente el 50% de sus disparos.

(Nota: "Extrañamente", en la Tabla 1 para un análisis muy similar con el tiro en el juego de los Sixers, GVT presenta los promedios ponderados. Entonces, ¿por qué no hicieron lo mismo para la Tabla 4? Supongo que ciertamente calculó los promedios ponderados para la Tabla 4: los números que presento arriba, no les gustó lo que vieron y decidieron suprimirlos. Este tipo de comportamiento es lamentablemente normal para el curso en la academia).

$HHHTTTHHHHH…H$ $\hat{p}(H|3T)=1/1=1$

$\hat{p}(H|3H)=91/92 \approx 0.989$

La tabla 4 de PS GVT (1985) contiene varios errores. Vi al menos dos errores de redondeo. Y también para el jugador 10, los valores entre paréntesis en las columnas 4 y 6 no suman uno menos que el de la columna 5 (contrario a la nota en la parte inferior). Me puse en contacto con Gilovich (Tversky está muerto y Vallone no estoy seguro), pero desafortunadamente ya no tiene las secuencias originales de aciertos y errores. La tabla 4 es todo lo que tenemos.

— Kenny LJ
fuente

Al observar la tabla 4 de GMT 1985, evaluaron a 26 estudiantes individuales y solo encontraron un ejemplo de una "mano caliente" estadísticamente significativa (verificaron cada caso con p <0.05). Este es el efecto de gominola verde . Por otro lado, si cada estudiante hubiera sido posicionado con precisión de manera que pudiera hacer alrededor del 50% de sus disparos, muchos menos de 7 de los estudiantes deberían haber tenido tasas de aciertos fuera de un rango de 40-60 de 100 (a menos que hay un efecto masivo de mano caliente)

— Henry

4

(Descargo de responsabilidad: no conozco esta literatura.) Me parece que Miller y Sanjurjo tienen una crítica válida de una medida estadística particular. No sé si esto debería considerarse para invalidar todo el trabajo previo sobre el efecto de la mano caliente, ya que se centran solo en esta medida en particular.

La medida es

M := P (make shot | made previous shot) - P (make shot | miss previous shot)

$M := P(\text{make shot }|\text{ made previous shot}) - P(\text{make shot }|\text{ miss previous shot})$

P (X)

$P(X)$

X

$X$

$M$ $\mathbb{E} M > 0$ $\mathbb{E} M = 0$

$\mathbb{E} M < 0$ $M$

$M$

— usul
fuente

3

Ninguno de los dos documentos es lo suficientemente claro en cuanto a sus aplicaciones de estadísticas, por lo que en esta respuesta intentaré una aclaración.

Gilovich, Mallone y Tversky (1985) en su Resumen definen el "efecto Mano Caliente" de la siguiente manera:

" Tanto los jugadores de baloncesto como los fanáticos tienden a creer que las posibilidades de un jugador de realizar un tiro son mayores después de un golpe que después de una falta en el tiro anterior " .

$k$ $H_k$ $k$ $M_k$

\begin{matrix} (1) & P (H ∣ H_{k}) > P (H ∣ M_{k}), k \geq 1 \end{matrix}

$P(H \mid H_k) > P(H\mid M_k),\;\;\; k\geq 1 \tag{1}$

donde por compacidad, se entiende que el disparo en cuestión es el que sigue inmediatamente a los aciertos o fallos secuenciales. Estas son probabilidades condicionales teóricas (es decir, constantes), no frecuencias empíricas relativas condicionales.

$\hat P(H \mid H_k) ,\; \hat P(H\mid M_k)$

H_{o} : P (H ∣ H_{k}) - P (H ∣ M_{k}) = 0

${\rm H_o:} P(H \mid H_k) - P(H\mid M_k) =0$

$P(H)$

$T\equiv \hat P(H \mid H_k) - \hat P(H\mid M_k)$

$T$

$T$

Por lo tanto, si hay un problema con Gilovich et al. artículo, no es la definición de la Mano Caliente, no es la formulación de la hipótesis nula, no es la selección de la estadística a utilizar: es la validez de los valores críticos utilizados para ejecutar las pruebas ( y, por lo tanto, del supuesto de distribución implícito), si de hecho la distribución finita de muestra pequeña (bajo la hipótesis nula) es visiblemente no centrada en cero y también asimétrica.

En tales casos, lo que se suele hacer es obtener por simulación valores críticos especiales para realizar la prueba (recuerde, por ejemplo, los valores críticos especiales para la prueba de Dickey-Fuller para una raíz unitaria). No pude ver tal enfoque en el artículo de Miller-Sanjurjo, en cambio, realizan un "ajuste de sesgo medio", y descubro que después de este ajuste se invierte la conclusión de la prueba. No estoy seguro de que este sea el camino a seguir.

$200$ $n=100$ $p=0.5$
$T_3 = \hat P(H \mid H_3) - \hat P(H\mid M_3)$ $-0.0807$ $-0.072$ $62.5\%$ de los valores son negativos. El histograma empírico es

ingrese la descripción de la imagen aquí

— Alecos Papadopoulos
fuente

1

En mi opinión, Miller y Sanjurjo simplemente calcularon incorrectamente las frecuencias relativas en la Tabla 1. Su tabla se muestra a continuación con dos nuevas columnas agregadas, que cuentan el número de subsecuencias HH y HT que ocurren dentro de cada secuencia de 4 lanzamientos de monedas. Para obtener la probabilidad condicional deseada p (H | H) uno debe sumar estos recuentos N (HH) y N (HT) y luego dividir como se muestra a continuación. Hacer esto da p (H | H) = 0.5, como se esperaba. Por alguna razón, Miller y Sanjurjo primero calcularon la frecuencia relativa para cada secuencia y luego promediaron las secuencias. Eso está mal.

Sequence     Subsequences       N(HH) N(HT)    p(H|H)
TTTT  ->  TT.. , .TT. , ..TT      0     0        -  
TTTH  ->  TT.. , .TT. , ..TH      0     0        -  
TTHT  ->  TT.. , .TH. , ..HT      0     1       0.0 
THTT  ->  TH.. , .HT. , ..TT      0     1       0.0 
HTTT  ->  HT.. , .TT. , ..TT      0     1       0.0 
TTHH  ->  TT.. , .TH. , ..HH      1     0       1.0 
THTH  ->  TH.. , .HT. , ..TH      0     1       0.0 
THHT  ->  TH.. , .HH. , ..HT      1     1       0.5 
HTTH  ->  HT.. , .TT. , ..TH      0     1       0.0 
HTHT  ->  HT.. , .TH. , ..HT      0     2       0.0 
HHTT  ->  HH.. , .HT. , ..TT      1     1       0.5 
THHH  ->  TH.. , .HH. , ..HH      2     0       1.0 
HTHH  ->  HT.. , .TH. , ..HH      1     1       0.5 
HHTH  ->  HH.. , .HT. , ..TH      1     1       0.5 
HHHT  ->  HH.. , .HH. , ..HT      2     1       0.66
HHHH  ->  HH.. , .HH. , ..HH      3     0       1.0 
                                 --    --       ----
                                 12    12       0.40
                            p(H|H)=N(HH)/N(H*)
                                  =12/(12+12)
                                  =0.5

— scerwin
fuente

Su argumento es que, en lugar de calcular las ocurrencias individuales de TT y TH (como lo hizo), las probabilidades p (H | H) deben promediarse (porque todas las secuencias son igualmente probables).

— Giskard

1

Tal vez una tabla más simple hará que su error sea más obvio. Permitamos solo dos secuencias particulares de 4 volteos: TTHT y HHHH. Estos dan las siguientes subsecuencias de 2 vueltas: TT, TH, HT, HH, HH, HH. De esta lista es bastante obvio que cuando la primera moneda arrojada muestra H, es muy probable que le siga otra H (esto ocurre 3 de 4 veces). ¡Toda una "moneda caliente" de hecho! Pero el método de Miller y Sanjurjo no predeciría ningún calor, porque el promedio de las frecuencias para TTHT y HHHH (0.0 y 1.0) es 0.5. Por otro lado, el método habitual da la respuesta correcta: p (H | H) = 3 / (3 + 1) = 0,75.

— scerwin

Creo que su punto es que este "error" que usted señala fue precisamente lo que hicieron los investigadores anteriores.

— Kenny LJ

1

Tal vez. ¿Pero es correcta esa afirmación sobre los investigadores anteriores? Ningún estadístico entrenado calcularía una probabilidad como lo hicieron Miller y Sanjurjo en la Tabla 1. Es análogo a calcular el promedio de bateo de un jugador de béisbol calculando primero su promedio para cada juego y luego promediando los juegos. Simplemente está mal.

— scerwin

"Pero, ¿es correcta esa afirmación sobre los investigadores anteriores? Ningún estadista entrenado calcularía una probabilidad como Miller y Sanjurjo lo hicieron en la Tabla 1". Quizás debería tomarse el tiempo de leer los documentos en cuestión. Especialmente GVT (1985).

— Kenny LJ

0

En cualquier secuencia observada, el último condicional "falta" en el sentido de que no hay valor después. Los autores se ocupan de esto simplemente ignorando los casos en que esto sucede, diciendo que no están definidos. Si la serie es corta, esta elección tendrá un impacto obvio en los cálculos. La figura 1 es una buena ilustración de esta idea.

-1

Voy a cambiar un comentario que hice arriba a una respuesta, y reclamar la respuesta a la pregunta original es que los documentos originales son correctos. Los autores del artículo de 2015 arrojan secuencias que lógicamente deberían incluirse en su análisis, como describo en el comentario, y por lo tanto introducen un sesgo que respalda sus afirmaciones. El mundo funciona como debería.

Addendum en respuesta al comentario: miramos la tabla 1 en el documento. Vemos que estamos arrojando 4 valores de la última columna, por lo que para obtener la diferencia esperada solo promediamos 12 de las 16 secuencias. Si consideramos estas probabilidades como frecuencias, y decimos, para la primera línea TTTT, cuál es la frecuencia a la que una cabeza sigue a una cabeza, entonces lógicamente siempre sucede, y deberíamos poner un 1 en la p (H, H ) columna, no un guión. Hacemos eso para las otras tres secuencias que descartamos, y concluimos que el valor esperado de la diferencia es 0, no -.33. No podemos simplemente arrojar datos como ese, cuando hay una interpretación lógica clara de los datos.

Tenga en cuenta que para que la deriva se desvanezca, tenemos que calcular las probabilidades correctamente, lo que no se hace en el documento. Se afirma que las probabilidades en la tabla son la "probabilidad de que una cabeza siga una cola, en esta secuencia dada de cuatro lanzamientos". Y vemos que para la fila TTTH, se supone que debemos creer que la probabilidad es 1/3. No es. Hay cuatro lanzamientos en la fila, y uno de los cuatro lanzamientos en esa fila es el evento "una cabeza sigue a una cola". La probabilidad es 1/4. Así que calcule las probabilidades correctamente, y use todas las filas, y obtendrá la respuesta que ha sido aceptada durante 30 años.

— usuario164740
fuente

La pregunta es si Miller y Sanjurjo (2015) están en lo correcto al señalar que los investigadores anteriores cometieron un error (y por lo tanto no pudieron detectar la mano caliente). Si es así, por favor explique. Si no, por favor explique también. La pregunta no es si podemos o no "simplemente arrojar datos como ese" o si "el mundo funciona como debería".

— Kenny LJ

Miller y Sanjuro no son correctos, porque arrojan datos que lógicamente pertenecen al análisis y, por lo tanto, introducen un sesgo que no existe en el mundo.

— user164740