Diseñando una prueba para un psíquico que dice que puede influir en los dados

Digamos que tengo un amigo (llamémosle "George") que dice que puede controlar el lanzamiento de dados usando su mente (es decir, hacer que los dados caigan en un número específico en el que está pensando).

¿Cómo puedo diseñar una prueba científicamente rigurosa para determinar si realmente puede hacer esto? (Realmente no creo que pueda, por supuesto, pero quiero que acepte los detalles de una prueba, al estilo Amazing Randi, antes de que comience la prueba). Quiero reducir las (muy probablemente) excusas posteriores a la prueba que se le ocurrirá.

Esto es lo que tengo hasta ahora:

Determine la técnica física de lanzamiento de dados (qué dados, copa agitadora, superficie de aterrizaje, etc.)
Defina una "sesión de prueba", que consiste en X tiradas de los dados. Esto debe ser lo suficientemente pequeño como para hacerlo de una vez, pero lo suficientemente grande como para determinar (después del análisis) con una confianza del 95% -99% si los dados cayeron bien o si favorecieron a un lado
Ejecute sesiones Y en los dados elegidos (sin influencia de George), como un "control" para asegurarse de que los dados muestren resultados "justos" por sí mismos
Ejecuta sesiones Z con George. Antes de cada uno, tira un dado por separado para determinar en qué número se "concentrará" George durante toda la sesión.
Compilar y analizar los resultados.
George inventa algunas excusas para su sombría actuación.

Entonces mis preguntas para ti:

¿Algún defecto o problema con mi metodología general? ¿Algo a lo que George se opondría?
¿Debo usar un D6? O un D20? ¿Importa? ¿Un dado con más caras requeriría más tiradas para producir resultados igualmente seguros? O lo contrario? Prefiero menos rollos que más, debido a consideraciones prácticas :)
¿Cuáles son los valores razonables para X , Y y Z ? No están del todo sin relación; Si mi valor elegido de X solo permite un 95% de confianza para una sola sesión, entonces 1 de cada 20 sesiones podría "fallar", incluso sin la influencia de George
¿Cómo defino "éxito" o "fracaso" para una sesión individual? (Encontré esta pregunta que pasa por los detalles de una prueba de ji cuadrado, así que creo que esa es mi metodología de evaluación, pero ¿cuáles son los umbrales de confianza razonables?)
¿Cómo defino "éxito" o "fracaso" para la prueba general? George podría "ganar" una sola sesión por pura casualidad, pero ¿cuántas de las sesiones Z tendría que pasar para aprobar toda la prueba?

Probablemente analizaré estos resultados en una hoja de cálculo de MS Excel, si eso hace alguna diferencia.

probability experiment-design dice

— BradC
fuente

Si solo está manipulando los dados con su mente, entonces alguien debería tirarlos. Creo que cosas como D6 o D20 deberían dejarse en manos de George. ¿Qué tipo de manipulación dijo George que podía hacer? ¿Dijo que podía hacer un número en particular que deseara? Si es así, los éxitos serían instancias de ese número, mientras que los fracasos serían cualquier otra cosa.

— John

@John: solo afirmó que puede hacer que ese número aparezca con más frecuencia de lo que lo haría de otro modo, no es que siempre aparezca ese número.

— BradC

(Originalmente solicité una versión de esta pregunta en math.stackexchange.com/q/57624/14626 )

— BradC

Sus respuestas sobre matemáticas de Michael Hardy y TonyK son bastante buenas.

— John

No estaría satisfecho con un nivel de confianza tan bajo como 95% o incluso 99%; Los reclamos extraordinarios tienden a requerir evidencia extraordinaria. O para ponerlo en un contexto más bayesiano, mi creencia previa de que él tenía tal habilidad es tan baja que requeriría una cantidad ridícula de evidencia para alterar significativamente mi creencia posterior.

— Michael McGowan

Respuestas:

Recomendaría analizar esto de la siguiente manera:

Cuente cada papel en el que George predice con éxito el resultado como un éxito, y cada uno como un fracaso. Luego, puede calcular fácilmente una probabilidad de éxito para George y un intervalo de confianza del 95% o 99%. ¿Afirma que puede predecir el resultado "dos veces mejor" que tirar los dados al azar? Entonces:

H0: p> = 1/3

H1: p <1/3

(suponiendo un dado de 6 lados).

A partir de ahí, es bastante sencillo hacer la prueba de hipótesis. Además, puede calcular la potencia a priori con bastante facilidad (incluso en algo como Excel). Elija un número de rollos (como 10), y luego haga una tabla con los posibles éxitos como filas (0-10). Luego, para cada éxito, calcule la probabilidad de que tenga tantos éxitos (si solo estuviera adivinando, que es lo que suponemos que está haciendo). Además, para cada valor, determine si conduciría a un rechazo o aceptación del valor nulo. Luego, para encontrar el poder, simplemente puede sumar todas las probabilidades donde se rechazaría el nulo.

— random_forest_fanatic
fuente

Un D20 requerirá más tiradas para el mismo nivel de significación para que George tenga éxito si necesita ejecutar la prueba de chi-cuadrado. Sin embargo, no creo que necesites ejecutar la prueba completa de chis-square. Solo necesita verificar si los dados arrojan el número "elegido" más a menudo que al azar. Simplemente usaría el cdf del binomio para calcular el valor p de tirar el número elegido con más frecuencia que casualidad con como parámetro binomial para D6. Creo que es fácil determinar el número función del valor p que necesita para que George tenga éxito. Ni siquiera estoy seguro de que necesites sesiones Z. ¿Por qué no simplemente ejecutar una sesión para cada lado del dado? ¿Aleatorizar el lado elegido es importante para las hipótesis que le interesan? $\theta=\frac{1}{6}$ $X$

— highBandWidth
fuente

Aleatorizar el lado elegido probablemente no importa, solo estaba preocupado por A) Tener en cuenta cualquier posible sesgo verdadero en los dados y B) Asegurarme de que una sola sesión anómala (que 1 de cada 20 debido a la aleatoriedad verdadera de la que hablé) no sea No se toma como una confirmación de su capacidad psíquica. Probablemente 6 sesiones, una para cada número, serían suficientes, siempre y cuando mi X (y nivel de confianza) sea lo suficientemente alto.

— BradC