después de realizar una selección por pasos basada en el criterio AIC, es engañoso observar los valores p para probar la hipótesis nula de que cada coeficiente de regresión verdadero es cero.
De hecho, los valores p representan la probabilidad de ver una estadística de prueba al menos tan extrema como la que tiene, cuando la hipótesis nula es verdadera. SiH0 0 es verdadero, el valor p debe tener una distribución uniforme.
Pero después de la selección por pasos (o de hecho, después de una variedad de otros enfoques para la selección del modelo), los valores p de los términos que permanecen en el modelo no tienen esa propiedad, incluso cuando sabemos que la hipótesis nula es verdadera.
Esto sucede porque elegimos las variables que tienen o tienden a tener valores p pequeños (según los criterios precisos que utilizamos). Esto significa que los valores p de las variables que quedan en el modelo suelen ser mucho más pequeños de lo que serían si hubiéramos ajustado un solo modelo. Tenga en cuenta que, en promedio, la selección elegirá modelos que parecen ajustarse incluso mejor que el modelo verdadero, si la clase de modelos incluye el modelo verdadero, o si la clase de modelos es lo suficientemente flexible como para aproximarse al modelo verdadero.
[Además y básicamente por la misma razón, los coeficientes que quedan están sesgados lejos de cero y sus errores estándar son bajos; esto a su vez afecta los intervalos de confianza y las predicciones también: nuestras predicciones serán demasiado limitadas, por ejemplo.]
Para ver estos efectos, podemos tomar una regresión múltiple donde algunos coeficientes son 0 y otros no, realizar un procedimiento paso a paso y luego, para aquellos modelos que contienen variables que tenían coeficientes cero, observar los valores p que resultan.
(En la misma simulación, puede ver las estimaciones y las desviaciones estándar de los coeficientes y descubrir las que corresponden a coeficientes distintos de cero también se ven afectados).
En resumen, no es apropiado considerar los valores p habituales como significativos.
Escuché que uno debería considerar todas las variables que quedan en el modelo como significativas en su lugar.
En cuanto a si todos los valores en el modelo después de paso a paso deben ser 'considerados como significativos', no estoy seguro de hasta qué punto es una forma útil de verlo. ¿Qué significa "significación" entonces?
Este es el resultado de ejecutar R stepAIC
con la configuración predeterminada en 1000 muestras simuladas con n = 100 y diez variables candidatas (ninguna de las cuales está relacionada con la respuesta). En cada caso se contó el número de términos restantes en el modelo:
Solo el 15.5% del tiempo fue el modelo correcto elegido; El resto del tiempo, el modelo incluía términos que no eran diferentes de cero. Si en realidad es posible que haya variables de coeficiente cero en el conjunto de variables candidatas, es probable que tengamos varios términos en los que el coeficiente verdadero sea cero en nuestro modelo. Como resultado, no está claro que sea una buena idea considerarlos a todos como no nulos.