Contexto
Esto es algo similar a esta pregunta , pero no creo que sea un duplicado exacto.
Cuando busca instrucciones sobre cómo realizar una prueba de hipótesis de bootstrap, generalmente se indica que está bien usar la distribución empírica para intervalos de confianza, pero que necesita arrancar correctamente desde la distribución bajo la hipótesis nula para obtener una p- valor. Como ejemplo, vea la respuesta aceptada a esta pregunta . Una búsqueda general en Internet parece tener respuestas similares.
La razón para no usar un valor p basado en la distribución empírica es que la mayoría de las veces no tenemos invariancia de traducción.
Ejemplo
Déjame darte un breve ejemplo. Tenemos una moneda y queremos hacer una prueba unilateral para ver si la frecuencia de las caras es mayor que 0.5
Realizamos intentos y obtenemos cabezas. El verdadero valor p para esta prueba sería .
Por otro lado, si arrancamos nuestras 14 de 20 cabezas, tomaremos muestras de la distribución binomial con y . Cambiando esta distribución restando 0.2 obtendremos un resultado apenas significativo cuando probamos nuestro valor observado de 0.7 contra la distribución empírica obtenida.
En este caso, la discrepancia es muy pequeña, pero aumenta cuando la tasa de éxito con la que probamos se acerca a 1.
Pregunta
Ahora déjenme llegar al punto real de mi pregunta: el mismo defecto también es válido para los intervalos de confianza. De hecho, si un intervalo de confianza tiene el nivel de confianza establecido entonces el intervalo de confianza que no contiene el parámetro bajo la hipótesis nula es equivalente a rechazar la hipótesis nula en un nivel de significancia de .
¿Por qué es que los intervalos de confianza basados en la distribución empírica son ampliamente aceptados y el valor p no?
¿Existe una razón más profunda o las personas simplemente no son tan conservadoras con los intervalos de confianza?
En esta respuesta, Peter Dalgaard da una respuesta que parece estar de acuerdo con mi argumento. Él dice:
No hay nada particularmente malo en esta línea de razonamiento, o al menos no (mucho) peor que el cálculo de CI.
¿De dónde viene el (mucho)? Implica que generar valores p de esa manera es un poco peor, pero no da más detalles.
Pensamientos finales
También en Una Introducción a Bootstrap por Efron y Tibshirani, dedican mucho espacio a los intervalos de confianza, pero no a los valores p, a menos que se generen bajo una distribución de hipótesis nula adecuada, con la excepción de una línea de descarte sobre la equivalencia general de intervalos de confianza y valores p en el capítulo sobre pruebas de permutación.
Volvamos también a la primera pregunta que vinculé. Estoy de acuerdo con la respuesta de Michael Chernick, pero nuevamente argumenta que tanto los intervalos de confianza como los valores p basados en la distribución empírica de arranque son igualmente poco confiables en algunos escenarios. No explica por qué encuentras a muchas personas diciéndote que los intervalos están bien, pero los valores p no lo están.