Permítanme comenzar definiendo los términos de la discusión tal como los veo. Un valor p es la probabilidad de obtener un estadístico de muestra (por ejemplo, una media de muestra) tan lejos o más lejos de algún valor de referencia que su estadístico de muestra, si el valor de referencia fuera el parámetro de población real. Por ejemplo, un valor p responde a la pregunta: ¿cuál es la probabilidad de obtener una muestra con un coeficiente intelectual más alto quepuntos lejos de 100, si 100 es realmente la media de la población de la cual se extrajo su muestra. Ahora el problema es, ¿cómo debería emplearse ese número para hacer una inferencia estadística? |x¯−100|
Fisher pensó que el valor p podría interpretarse como una medida continua de evidencia contra la hipótesis nula . No existe un valor fijo particular en el que los resultados se vuelvan "significativos". La forma en que generalmente trato de transmitir esto a las personas es señalar que, a todos los efectos, p = .049 y p = .051 constituyen una cantidad idéntica de evidencia contra la hipótesis nula (véase la respuesta de @ Henrik aquí ) .
Por otro lado, Neyman & Pearson pensó que podría usar el valor p como parte de un proceso formal de toma de decisiones . Al final de su investigación, debe rechazar la hipótesis nula o no rechazar la hipótesis nula. Además, la hipótesis nula podría ser verdadera o no verdadera. Por lo tanto, hay cuatro posibilidades teóricas (aunque en cualquier situación dada, solo hay dos): podría tomar una decisión correcta (no rechazar una hipótesis nula verdadera o rechazar una falsa), o podría hacer un tipo I o error tipo II (al rechazar un nulo verdadero o al no rechazar una hipótesis nula falsa, respectivamente). (Tenga en cuenta que el valor p no es lo mismo que la tasa de error de tipo I, que discuto aquí.) El valor p permite que el proceso de decidir si se rechaza o no la hipótesis nula se formalice. Dentro del marco de Neyman-Pearson, el proceso funcionaría de esta manera: existe una hipótesis nula de que las personas creerán por defecto en ausencia de evidencia suficiente de lo contrario, y una hipótesis alternativa que usted cree que puede ser cierta. Hay algunas tasas de error a largo plazo con las que estará dispuesto a vivir (tenga en cuenta que no hay razón para que sean del 5% y del 20%). Teniendo en cuenta estas cosas, diseñas tu estudio para diferenciar entre esas dos hipótesis mientras mantienes, como máximo, esas tasas de error, realizando un análisis de potencia y realizando tu estudio en consecuencia. (Por lo general, esto significa tener datos suficientes). Después de completar su estudio, compara su valor p conp < ααy rechazar la hipótesis nula si ; si no es así, no puede rechazar la hipótesis nula. De cualquier manera, su estudio está completo y usted ha tomado su decisión. p<α
Los enfoques Fisherian y Neyman-Pearson no son lo mismo . La opinión central del marco de Neyman-Pearson es que al final de su estudio, debe tomar una decisión y retirarse. Supuestamente, un investigador una vez se acercó a Fisher con resultados 'no significativos', preguntándole qué debería hacer, y Fisher dijo: 've a buscar más datos'.
Personalmente, me parece muy atractiva la elegante lógica del enfoque de Neyman-Pearson. Pero no creo que siempre sea apropiado. En mi opinión, se deben cumplir al menos dos condiciones antes de considerar el marco de Neyman-Pearson:
- Debe haber alguna hipótesis alternativa específica ( magnitud del efecto ) que le interese por alguna razón. (No me importa cuál es el tamaño del efecto, cuál es su razón, si está bien fundado o es coherente, etc., solo que tiene uno).
- Debería haber alguna razón para sospechar que el efecto será "significativo", si la hipótesis alternativa es cierta. (En la práctica, esto generalmente significará que realizó un análisis de potencia y que tiene suficientes datos).
Cuando no se cumplen estas condiciones, el valor p aún se puede interpretar de acuerdo con las ideas de Fisher. Además, me parece probable que la mayoría de las veces estas condiciones no se cumplen. Aquí hay algunos ejemplos fáciles que vienen a la mente, donde se ejecutan las pruebas, pero no se cumplen las condiciones anteriores:
- el ANOVA omnibus para un modelo de regresión múltiple (es posible descubrir cómo se unen todos los parámetros hipotéticos de pendiente distintos de cero para crear un parámetro de no centralidad para la distribución F , pero no es remotamente intuitivo, y dudo de nadie lo hace)
- el valor de una prueba de Shapiro-Wilk de la normalidad de sus residuos en un análisis de regresión (¿qué magnitud de le interesa y por qué? ¿cuánta potencia tiene para rechazar el valor nulo cuando esa magnitud es correcta?) W
- El valor de una prueba de homogeneidad de varianza (por ejemplo, la prueba de Levene ; los mismos comentarios que arriba)
- cualquier otra prueba para verificar supuestos, etc.
- Pruebas t de covariables distintas de la variable explicativa de interés primario en el estudio
- investigación inicial / exploratoria (p. ej., estudios piloto)