En lo que respecta a las pruebas de significación (o cualquier otra cosa que haga esencialmente lo mismo que las pruebas de significación), siempre he pensado que el mejor enfoque en la mayoría de las situaciones es estimar un tamaño de efecto estandarizado, con un intervalo de confianza del 95% sobre eso tamaño del efecto. No hay nada realmente nuevo allí: matemáticamente puede barajarlos de un lado a otro entre ellos, si el valor p para un nulo 'nulo' es <.05, entonces 0 estará fuera de un IC del 95%, y viceversa. La ventaja de esto, en mi opinión, es psicológica.; es decir, genera información relevante que existe pero que las personas no pueden ver cuando solo se informan los valores de p. Por ejemplo, es fácil ver que un efecto es tremendamente 'significativo', pero ridículamente pequeño; o 'no significativo', pero solo porque las barras de error son enormes, mientras que el efecto estimado es más o menos lo que esperaba. Estos se pueden combinar con valores brutos y sus CI.
Ahora, en muchos campos, los valores brutos son intrínsecamente significativos, y reconozco que plantea la pregunta de si todavía vale la pena calcular las medidas del tamaño del efecto dado que ya tenemos valores como medias y pendientes. Un ejemplo podría ser mirar el crecimiento atrofiado; sabemos lo que significa para un hombre blanco de 20 años ser 6 +/- 2 pulgadas más corto (es decir, 15 +/- 5 cm), de lo que lo harían de otro modo, entonces, ¿por qué mencionar ? Tiendo a pensar que aún puede ser valioso informar ambos, y se pueden escribir funciones para calcularlos de modo que sea muy poco trabajo extra, pero reconozco que las opiniones variarán. En cualquier caso, sostengo que las estimaciones puntuales con intervalos de confianza reemplazan los valores p como la primera parte de mi respuesta. d=−1.6±.5
Por otro lado, creo que una pregunta más importante es '¿es lo que las pruebas de significado hacen lo que realmente queremos?' Creo que el verdadero problema es que para la mayoría de las personas que analizan datos (es decir, profesionales no estadísticos), las pruebas de significación pueden convertirse en la totalidad del análisis de datos. Me parece que lo más importante es tener una forma basada en principios para pensar sobre lo que está sucediendo con nuestros datos, y las pruebas de significado de hipótesis nulas son, en el mejor de los casos, una parte muy pequeña de eso. Permítanme dar un ejemplo imaginario (reconozco que se trata de una caricatura, pero desafortunadamente, me temo que es algo plausible):
Bob lleva a cabo un estudio, recopilando datos sobre algo u otro. Él espera que los datos se distribuyan normalmente, agrupados estrechamente alrededor de algún valor, y tiene la intención de realizar una prueba t de una muestra para ver si sus datos son 'significativamente diferentes' de algún valor preespecificado. Después de recolectar su muestra, verifica si sus datos están distribuidos normalmente y descubre que no lo están. En cambio, no tienen un bulto pronunciado en el centro, pero son relativamente altos en un intervalo determinado y luego se arrastran con una larga cola izquierda. Bob se preocupa por lo que debe hacer para asegurarse de que su prueba sea válida. Termina haciendo algo (por ejemplo, una transformación, una prueba no paramétrica, etc.), y luego informa una estadística de prueba y un valor p.
Espero que esto no salga tan desagradable. No quiero burlarme de nadie, pero creo que algo como esto sucede de vez en cuando. Si ocurriera este escenario, todos podemos estar de acuerdo en que es un análisis deficiente de datos. Sin embargo, el problema no es que el estadístico de prueba o el valor p sean incorrectos; podemos afirmar que los datos se manejaron correctamente a ese respecto. Yo diría que el problema es que Bob está involucrado en lo que Cleveland llamó "análisis de datos de memoria". Parece creer que el único punto es obtener el valor p correcto, y piensa muy poco acerca de sus datos fuera de perseguir ese objetivo. Incluso podría haber cambiado a mi sugerencia anterior e informar un tamaño de efecto estandarizado con un intervalo de confianza del 95%, y no habría cambiado lo que veo como el problema más grande (esto es lo que quise decir al hacer "esencialmente lo mismo "por un medio diferente). En este caso específico, el hecho de que los datos no se vean como él esperaba (es decir, no eran normales) es información real, es interesante, y muy posiblemente importante, pero esa información se descarta esencialmente. Bob no reconoce esto, debido al enfoque en las pruebas de significación. En mi opinión, ese es el verdadero problema con las pruebas de significación.
Permítanme abordar algunas otras perspectivas que se han mencionado, y quiero dejar muy claro que no estoy criticando a nadie.
- A menudo se menciona que muchas personas realmente no entienden los valores p (por ejemplo, pensar que son la probabilidad de que el nulo sea verdadero), etc. A veces se argumenta que, si solo las personas usaran el enfoque bayesiano, estos problemas podrían vete. Creo que las personas pueden abordar el análisis de datos bayesianos de una manera igual de incómoda y mecánica. Sin embargo, creo que malinterpretar el significado de los valores p sería menos dañino si nadie pensara que el objetivo es obtener un valor p.
- La existencia de 'big data' generalmente no está relacionada con este problema. Los grandes datos solo hacen obvio que organizar el análisis de datos en torno a la 'importancia' no es un enfoque útil.
- No creo que el problema sea con la hipótesis que se está probando. Si las personas solo quisieran ver si el valor estimado está fuera de un intervalo, en lugar de si es igual a un valor en puntos, podrían surgir muchos de los mismos problemas. (Nuevamente, quiero ser claro , sé que no eres 'Bob' ).
- Para que conste, quiero mencionar que mi propia sugerencia del primer párrafo no aborda el problema, como intenté señalar.
Para mí, este es el tema central: lo que realmente queremos es una forma de pensar con principios sobre lo que sucedió . Lo que eso significa en cualquier situación no es cortar y secar. Cómo impartir eso a los estudiantes en una clase de métodos no es claro ni fácil. Las pruebas de significación tienen mucha inercia y tradición detrás. En una clase de estadísticas, está claro qué se debe enseñar y cómo. Para los estudiantes y profesionales es posible desarrollar un esquema conceptual para comprender el material y una lista de verificación / diagrama de flujo (¡he visto algunos!) Para realizar el análisis. Las pruebas de importancia pueden evolucionar naturalmente en análisis de datos de memoria sin que nadie sea tonto, perezoso o malo. Ese es el problema