Regresión escalonada en R - Valor p crítico

¿Cuál es el valor p crítico utilizado por la step()función en R para la regresión por pasos? Supongo que es 0.15, pero ¿es correcta mi suposición? ¿Cómo puedo cambiar el valor p crítico?

r regression p-value stepwise-regression

— Jason Samuels
fuente

La función 'paso' de R está basada en AIC.

— Michael M

Es mejor no utilizar rutinas de selección de modelo por pasos. Para entender por qué, puede ayudarlo leer mi respuesta aquí: Algoritmos para la selección automática de modelos .

— gung - Restablece a Monica

Además del comentario de @ MichaelMayer: la Descriptionparte de la página de ayuda ?stepdice, en su totalidad: Seleccione un modelo basado en fórmulas de AIC.

— Stephan Kolassa

Respuestas:

Como expliqué en mi comentario sobre su otra pregunta, stepusa AIC en lugar de valores p.

Sin embargo, para una sola variable a la vez, AIC hace corresponden al uso de un valor de p de 0,15 (o para ser más precisos, 0,1573):

Considere comparar dos modelos, que difieren en una sola variable. Llame a los modelos (modelo más pequeño) y (modelo más grande), y deje que sus AIC sean y respectivamente. $\cal{M}_0$ $\cal{M}_1$ $\text{AIC}_0$ $\text{AIC}_1$

Usando el criterio AIC, usaría el modelo más grande si . Este será el caso si . $\text{AIC}_1<\text{AIC}_0$ $-2\log\cal{L_0}-(-2\log\cal{L_1})>2$

Pero esta es simplemente la estadística en una prueba de razón de probabilidad. Del teorema de Wilks, rechazaremos el nulo si el estadístico excede el cuantil superior de a . Entonces, si usamos una prueba de hipótesis para elegir entre el modelo más pequeño y el más grande, elegimos el modelo más grande cuando . $\alpha$ $\chi^2_1$ $-2\log\cal{L_0}-(-2\log\cal{L_1})>C_\alpha$

Ahora encuentra en el percentil 84.27 de un . Por lo tanto, si elegimos el modelo más grande cuando tiene un AIC más pequeño, esto corresponde a rechazar la hipótesis nula para una prueba del término adicional con un valor p de , o $2$ $\chi^2_1$ $1-0.843=0.157$ $15.7\%$

Entonces, ¿cómo lo modificas?

Fácil. Cambie el kparámetro stepde 2 a otra cosa. ¿Quieres un 10% en su lugar? Hazlo 2.7:

qchisq(0.10,1,lower.tail=FALSE)
[1] 2.705543

¿Quieres un 2,5%? Conjunto k=5:

qchisq(0.025,1,lower.tail=FALSE)
[1] 5.023886

y así.

Sin embargo, a pesar de que eso resuelve su pregunta, le aconsejo que preste mucha atención a la respuesta de Frank Harrell sobre su otra pregunta, y que busque respuestas de muchos estadísticos sobre otras preguntas relacionadas con la regresión gradual aquí, qué consejo tiende a ser muy consistentemente para evitar procedimientos escalonados en general.

— Glen_b -Reinstate a Monica
fuente

Buena explicación ¿Sabe si esto sería aproximadamente cierto para los valores p de las pruebas t de regresión ordinarias?

— Ben Ogorek

α = 0.05

$\alpha=0.05$

(ctd) ... una serie de problemas serios con stepwise. Otros incluyen estimaciones sesgadas y errores estándar que son demasiado pequeños.

— Glen_b -Reinstate Monica

Dejando de lado momentáneamente los problemas con la selección de modelo por pasos, estoy interesado en generalizar la regla de valor p AIC => .1573 más pequeña. El valor p de la razón de probabilidad que describe está bien, pero en rutinas como R's lm, el estimado / std.err se compara con una distribución t. Esta es una prueba diferente, y me preguntaba si su resultado de .1573 podría mantenerse aproximadamente.

— Ben Ogorek

t

$t$

k

$k$

Como se dijo anteriormente, la stepfunción en R se basa en criterios AIC. Pero supongo que por valor p quieres decir alfa para entrar y alfa para salir. Lo que puede hacer es usar la función stepwiseescrita por Paul Rubin y disponible aquí . Como puede ver, tiene los argumentos de alpha.to.enter y alpha.to.leave que puede cambiar. Tenga en cuenta que esta función utiliza la prueba F o una prueba t equivalente para seleccionar los modelos. Además, puede manejar no solo la regresión por pasos, sino también la selección hacia adelante y la eliminación hacia atrás, si define correctamente los argumentos.

— Stat
fuente