Advertencia: esta respuesta supone que la pregunta es sobre la interpretación de valores p y CIs de bootstrapped. Una comparación entre un valor p tradicional (no bootstrapped) y un CI bootstrapped sería un problema diferente.
Con una prueba t tradicional (no bootstrapped), el IC del 95% y la posición del valor p en relación con el corte de significancia de .05 siempre le dirá lo mismo. Esto se debe a que ambos se basan en la misma información: la distribución t para sus grados de libertad y el error medio y estándar observado en su muestra (o la diferencia entre las medias y el error estándar, en el caso de un t- de dos muestras prueba). Si su CI no se superpone con 0, entonces su valor p será necesariamente <.05 --- a menos, por supuesto, que haya un error en el software o un error del usuario en la implementación o interpretación de la prueba.
Con una prueba t bootstrapped, el valor de CI y p se calculan directamente a partir de la distribución empírica generada por el bootstrapping: el valor p es simplemente qué porcentaje de las diferencias del grupo bootstrapped son más extremas que la diferencia original observada; el IC del 95% es el 95% medio de las diferencias de grupo de arranque. No es imposible que el valor p y el IC no estén de acuerdo sobre la importancia en una prueba de arranque.
¿Aceptas o rechazas la hipótesis nula?
En el contexto de una prueba bootstrapped, el valor p (en comparación con el IC) refleja más directamente el espíritu de la prueba de hipótesis, por lo que tiene más sentido confiar en ese valor para decidir si rechazar o no el valor nulo en su alfa deseado (generalmente .05). Entonces, en su caso, donde el valor p es menor que 0.05 pero el IC del 95% contiene cero, recomiendo rechazar la hipótesis nula .
Todo esto pasa por alto las grandes ideas sobre cuán importante debería ser realmente la "importancia" y si las pruebas de significado de hipótesis nulas son realmente útiles para una herramienta. Brevemente, siempre recomiendo complementar cualquier análisis de prueba de significación con la estimación de los tamaños del efecto (para una prueba t de dos muestras, la mejor estimación del tamaño del efecto probablemente sea la d de Cohen ), que puede proporcionar un contexto adicional para ayudarlo a comprender sus resultados.
Publicación útil relacionada: ¿Cuál es el significado de un intervalo de confianza tomado de resamples de bootstrapped?