Digamos que tengo un amigo (llamémosle "George") que dice que puede controlar el lanzamiento de dados usando su mente (es decir, hacer que los dados caigan en un número específico en el que está pensando).
¿Cómo puedo diseñar una prueba científicamente rigurosa para determinar si realmente puede hacer esto? (Realmente no creo que pueda, por supuesto, pero quiero que acepte los detalles de una prueba, al estilo Amazing Randi, antes de que comience la prueba). Quiero reducir las (muy probablemente) excusas posteriores a la prueba que se le ocurrirá.
Esto es lo que tengo hasta ahora:
Determine la técnica física de lanzamiento de dados (qué dados, copa agitadora, superficie de aterrizaje, etc.)
Defina una "sesión de prueba", que consiste en X tiradas de los dados. Esto debe ser lo suficientemente pequeño como para hacerlo de una vez, pero lo suficientemente grande como para determinar (después del análisis) con una confianza del 95% -99% si los dados cayeron bien o si favorecieron a un lado
Ejecute sesiones Y en los dados elegidos (sin influencia de George), como un "control" para asegurarse de que los dados muestren resultados "justos" por sí mismos
Ejecuta sesiones Z con George. Antes de cada uno, tira un dado por separado para determinar en qué número se "concentrará" George durante toda la sesión.
Compilar y analizar los resultados.
George inventa algunas excusas para su sombría actuación.
Entonces mis preguntas para ti:
¿Algún defecto o problema con mi metodología general? ¿Algo a lo que George se opondría?
¿Debo usar un D6? O un D20? ¿Importa? ¿Un dado con más caras requeriría más tiradas para producir resultados igualmente seguros? O lo contrario? Prefiero menos rollos que más, debido a consideraciones prácticas :)
¿Cuáles son los valores razonables para X , Y y Z ? No están del todo sin relación; Si mi valor elegido de X solo permite un 95% de confianza para una sola sesión, entonces 1 de cada 20 sesiones podría "fallar", incluso sin la influencia de George
¿Cómo defino "éxito" o "fracaso" para una sesión individual? (Encontré esta pregunta que pasa por los detalles de una prueba de ji cuadrado, así que creo que esa es mi metodología de evaluación, pero ¿cuáles son los umbrales de confianza razonables?)
¿Cómo defino "éxito" o "fracaso" para la prueba general? George podría "ganar" una sola sesión por pura casualidad, pero ¿cuántas de las sesiones Z tendría que pasar para aprobar toda la prueba?
Probablemente analizaré estos resultados en una hoja de cálculo de MS Excel, si eso hace alguna diferencia.