Estoy leyendo las diapositivas "Doing Bayesian Data Analysis" de John Kruschke , pero en realidad tengo una pregunta sobre su interpretación de las pruebas t y / o el marco completo de pruebas de significación de hipótesis nulas. Argumenta que los valores p están mal definidos porque dependen de las intenciones del investigador.
En particular, da un ejemplo (páginas 3-6) de dos laboratorios que recopilan conjuntos de datos idénticos que comparan dos tratamientos. Un laboratorio se compromete a recolectar datos de 12 sujetos (6 por condición), mientras que el otro recolecta datos por una duración fija, lo que también produce 12 sujetos. Según las diapositivas, el valor crítico para p < 0.05 difiere entre estos dos esquemas de recolección de datos: t crit = 2.33 para el primero, pero t crit = 2.45 para el último.
Una publicación de blog, que ahora no puedo encontrar, sugirió que el escenario de duración fija tiene más grados de libertad, ya que podrían haber recopilado datos de 11, 13 o cualquier otro número de temas, mientras que el escenario de N fijo, por definición, tiene .
¿Podría alguien explicarme por favor?
¿Por qué el valor crítico diferiría entre estas condiciones?
(Suponiendo que es un problema) ¿Cómo se corregirá / comparará los efectos de diferentes criterios de detención?
Sé que establecer los criterios de detención en función de la significación (p. Ej., Muestra hasta ) puede aumentar las posibilidades de un error de Tipo I, pero eso no parece estar sucediendo aquí, ya que ninguna regla de detención depende del resultado de el analisis.