No puede tener una regla de detención sin tener una idea de su distribución y el tamaño de su efecto, que no conoce a priori.
También sí, debemos centrarnos en el tamaño del efecto, y nunca se ha considerado correcto considerar solo los valores p, y ciertamente no deberíamos mostrar tablas o gráficos que muestren valores p o valores F en lugar del tamaño del efecto.
Hay problemas con la prueba de inferencia de hipótesis estadística tradicional (que Cohen dice que es digna de sus siglas, y Fisher y Pearson se volcarían en las tumbas si vieran todo lo que se está haciendo en sus nombres violentamente opuestos hoy).
Para determinar N, debe haber determinado un significado objetivo y un umbral de potencia, así como hacer muchas suposiciones sobre la distribución y, en particular, también debe haber determinado el tamaño del efecto que desea establecer. La intrusión es exactamente correcta en que este debería ser el punto de partida: ¡qué tamaño de efecto mínimo sería rentable!
La "Nueva estadística" aboga por mostrar los tamaños del efecto (como diferencia pareada cuando corresponda), junto con las desviaciones o varianzas estándar asociadas (porque necesitamos entender la distribución) y las desviaciones estándar o intervalos de confianza (pero esto último ya es bloqueando un valor p y una decisión sobre si está prediciendo una dirección o una apuesta en cada sentido). Pero establecer un efecto mínimo del signo especificado con una predicción científica lo deja claro, aunque el valor predeterminado precientífico es hacer prueba y error y solo buscar diferencias. Pero, de nuevo, ha hecho suposiciones sobre la normalidad si sigue este camino.
Otro enfoque es usar diagramas de caja como un enfoque no paramétrico, pero las convenciones sobre bigotes y valores atípicos varían ampliamente e incluso entonces se originan en supuestos de distribución.
El problema de detención no es un problema de un investigador individual o no N, sino que tenemos una comunidad completa de miles de investigadores, donde 1000 es mucho más que 1 / alfa para el nivel tradicional de 0.05. Actualmente se propone que la respuesta sea proporcionar estadísticas de resumen (media, stddev, stderr, o "versiones no paramétricas correspondientes, mediana, etc., como con el diagrama de caja) para facilitar el metanálisis y presentar resultados combinados de todos los experimentos, si ocurren haber alcanzado un nivel alfa particular o no.
Estrechamente relacionado está el problema de las pruebas múltiples, que está lleno de dificultades y donde los experimentos se mantienen demasiado simplistas en nombre de preservar el poder, mientras que se proponen metodologías demasiado complejas para analizar los resultados.
No creo que pueda haber un capítulo de libro de texto que aborde esto definitivamente todavía, ya que todavía tenemos poca idea de lo que estamos haciendo ...
Por el momento, el mejor enfoque es probablemente continuar usando las estadísticas tradicionales más apropiadas para el problema, combinadas con mostrar las estadísticas de resumen: el efecto y el error estándar y N son los más importantes. El uso de intervalos de confianza es básicamente equivalente a la prueba T correspondiente, pero permite comparar los nuevos resultados con los publicados de manera más significativa, así como también permite un ethos que fomenta la reproducibilidad y la publicación de experimentos reproducidos y metanálisis.
En términos de teorías de la información o enfoques bayesianos, utilizan diferentes herramientas y hacen diferentes suposiciones, pero tampoco tienen todas las respuestas, y al final enfrentan los mismos problemas, o peores, porque la inferencia bayesiana se aleja de hacer una decisión definitiva. responde y solo aduce evidencia relativa previa asumida o ausente.
El aprendizaje automático al final también tiene resultados que debe tener en cuenta para su importancia, a menudo con CI o prueba T, a menudo con gráficos, con suerte emparejamiento en lugar de simplemente comparar, y usando versiones compensadas adecuadamente cuando las distribuciones no coinciden. También tiene sus controversias sobre bootstrapping y validación cruzada, y sesgos y variaciones. Lo peor de todo es que tiene la propensión a generar y probar miles de modelos alternativos simplemente parametrizando a fondo todos los algoritmos en una de las muchas cajas de herramientas, aplicadas a los conjuntos de datos cuidadosamente archivados para permitir múltiples pruebas desenfrenadas. Lo peor es que todavía está en la Edad Media utilizando la precisión, o peor aún, la medida F, para la evaluación, en lugar de los métodos de corrección por azar.
He leído docenas de documentos sobre estos temas, pero no he podido encontrar nada totalmente convincente, excepto la encuesta negativa o los documentos de metanálisis que parecen indicar que la mayoría de los investigadores no manejan e interpretan las estadísticas correctamente con respecto a cualquier "estándar". ", viejo o nuevo. Potencia, pruebas múltiples, dimensionamiento y parada temprana, interpretación de errores estándar e intervalos de confianza, ... estos son solo algunos de los problemas.
Por favor, bájame. ¡Me gustaría que me demuestren que estoy equivocado! En mi opinión, hay mucha agua de baño, ¡pero todavía no hemos encontrado al bebé! En esta etapa, ninguno de los puntos de vista extremos o enfoques de marca se ve prometedor como la respuesta, y aquellos que quieren deshacerse de todo lo demás probablemente hayan perdido al bebé.