¿Qué es exactamente la "selección de modelo por pasos"?

Aunque los méritos de la selección de modelos por pasos se han discutido anteriormente, no me queda claro qué es exactamente " selección de modelos por pasos " o " regresión por pasos ". Pensé que lo entendía, pero ya no estoy tan seguro.

Entiendo que estos dos términos son sinónimos (al menos en un contexto de regresión), y que se refieren a la selección del mejor conjunto de variables predictoras en un modelo "óptimo" o "mejor" , dados los datos. (Puede encontrar la página de Wikipedia aquí y otra descripción general potencialmente útil aquí ).

Según varios subprocesos anteriores (por ejemplo, aquí: Algoritmos para la selección automática de modelos ), parece que la selección de modelos por pasos se considera un pecado capital. Y, sin embargo, parece ser utilizado todo el tiempo, incluso por lo que parecen ser estadísticos muy respetados. ¿O estoy mezclando la terminología?

Mis preguntas principales son:

Por "selección de modelo por pasos" o "regresión por pasos", nos referimos a:
A ) ¿hacer pruebas de hipótesis secuenciales como pruebas de razón de probabilidad o mirar valores p? (Aquí hay una publicación relacionada: ¿Por qué los valores p son engañosos después de realizar una selección por pasos? ) ¿Es esto lo que significa y por qué es malo?
O
B ) ¿también consideramos que la selección basada en AIC (o criterio de información similar) es igualmente mala? De la respuesta en Algoritmos para la selección automática de modelos , parece que esto también es criticado. Por otro lado, Whittingham et al. (2006; pdf ) ¹ parece sugerir que la selección de variables basada en el enfoque de la información teórica (IT) es diferente de la selección por pasos (y parece ser un enfoque válido) ...?

Y esta es la fuente de toda mi confusión.

Para el seguimiento, si la selección basada en AIC cae dentro de "paso a paso" y se considera inapropiada, entonces aquí hay preguntas adicionales:
Si este enfoque es incorrecto, ¿por qué se enseña en libros de texto, cursos universitarios, etc.? ¿Está todo mal?
¿Cuáles son buenas alternativas para seleccionar qué variables deben permanecer en el modelo? He encontrado recomendaciones para usar conjuntos de datos de validación cruzada y pruebas de capacitación, y LASSO.
Creo que todos pueden estar de acuerdo en que arrojar indiscriminadamente todas las variables posibles en un modelo y luego hacer una selección por pasos es problemático. Por supuesto, un juicio sensato debería guiar lo que entra inicialmente. Pero, ¿qué sucede si ya comenzamos con un número limitado de posibles variables predictoras basadas en algún conocimiento (digamos biológico), y todos estos predictores podrían estar explicando nuestra respuesta? ¿Seguiría siendo defectuoso este enfoque de selección de modelo? También reconozco que la selección del "mejor" modelo podría no ser apropiada si los valores de AIC entre los diferentes modelos son muy similares (y la inferencia multimodelo puede aplicarse en tales casos). Pero, ¿sigue siendo problemático el problema subyacente del uso de la selección por pasos basada en AIC?

Si estamos buscando ver qué variables parecen explicar la respuesta y de qué manera, ¿por qué este enfoque es incorrecto, ya que sabemos que "todos los modelos están equivocados, pero algunos son útiles"?

_{1. Whittingham, MJ, Stephens, PA, Bradbury, RB y Freckleton, RP (2006). ¿Por qué todavía utilizamos modelos paso a paso en ecología y comportamiento? Journal of Animal Ecology, 75, págs. 1182–1189.}

— Tilen
fuente

¡tanto el AIC como el valor p son engañosos usando la regresión gradual! Puede encontrar una explicación intuitiva aquí con un ejemplo de regresión gradual usando AIC aquí: metariat.wordpress.com/2016/12/19/…

— Metariat

¿Podría aclarar qué es exactamente lo que no está claro para usted en los Algoritmos para el hilo de selección automática de modelo al que se refiere ...? Parece que responde a todas sus preguntas, dando una respuesta bastante detallada. Respondiendo a la pregunta básica: la selección de modelo por pasos consiste en hacer una regresión con varios predictores y luego soltar uno a la vez (o agregar uno a la vez) según algunos criterios de mejora del modelo hasta encontrar el "mejor" modelo.

— Tim

@Tim, disculpas por la respuesta tardía. Bueno, no, no creo que responda todas mis preguntas y varios problemas siguen sin estar claros (para mí). 1), quería aclarar la terminología, ya que varias fuentes usan términos diferentes, por lo que quería entender a fondo si los términos a los que me refiero son sinónimos o no. 2) Si bien podría entender a partir de ese hilo que los problemas son los mismos independientemente de los criterios utilizados, hay inconsistencia en eso en la literatura. 3) al leer documentos y libros, parece haber desacuerdo sobre qué es apropiado y qué no (o cuándo).

— Tilen

4) una de mis preguntas también fue por qué entonces esto se sigue enseñando (con nombres aparentemente informados), si se considera incorrecto. Quería entender si esto es cosa del pasado (pero no parece serlo, dado el momento de publicación de ciertos libros), diferentes escuelas de pensamiento o simplemente ignorancia. 5) Quería entender si este enfoque es incorrecto, incluso si el conjunto inicial de variables predictoras candidatas ya es limitado. En otras palabras, mi interés personal es encontrar el mejor conjunto de predictores, dado un conjunto ya reducido y bien pensado.

— Tilen

En pocas palabras, aunque el hilo en Algoriths para la selección automática de modelos fue muy informativo y útil, todavía me dejó con muchas preguntas y confusión.

— Tilen

Respuestas:

1) La razón por la que está confundido es que el término "paso a paso" se usa de manera inconsistente. A veces significa procedimientos bastante específicos en los que $p$ -los valores de los coeficientes de regresión, calculados de manera ordinaria, se utilizan para determinar qué covariables se agregan o eliminan de un modelo, y este proceso se repite varias veces. Puede referirse a (a) una variación particular de este procedimiento en el que las variables pueden agregarse o eliminarse en cualquier paso (creo que esto es lo que SPSS llama "paso a paso"), o puede referirse a (b) esta variación junto con otras variaciones tales como solo agregar variables o solo eliminar variables. En términos más generales, "paso a paso" se puede utilizar para referirse a (c) cualquier procedimiento en el que se agregan o eliminan características de un modelo de acuerdo con algún valor que se calcula cada vez que se agrega o elimina una característica (o conjunto de características).

Estas diferentes estrategias han sido criticadas por varias razones. Yo diría que la mayoría de las críticas son sobre (b), la parte clave de esa crítica es que $p$ -los valores están mal equipados para la selección de características (las pruebas de significación aquí realmente prueban algo muy diferente de "¿debería incluir esta variable en el modelo?"), y los estadísticos más serios lo recomiendan en todas las circunstancias. (c) es más controvertido.

2) Porque la educación estadística es realmente mala. Para dar solo un ejemplo: por lo que puedo deducir de mi propia educación, aparentemente se considera una parte clave de la educación estadística para estudiantes de psicología para decirles a los estudiantes que usen la corrección de Bessel para obtener estimaciones imparciales de la población SD. Es cierto que la corrección de Bessel hace que la estimación de la varianza sea imparcial, pero es fácil demostrar que la estimación de la SD todavía está sesgada. Mejor aún, la corrección de Bessel puede aumentar el MSE de estas estimaciones.

3) La selección de variables es prácticamente un campo en sí misma. La validación cruzada y las divisiones de prueba de tren son formas de evaluar un modelo, posiblemente después de la selección de características; ellos mismos no proporcionan sugerencias sobre qué funciones usar. El lazo es a menudo una buena opción. Así son los mejores subconjuntos.

4) En mi opinión, todavía no tiene sentido usar (b), especialmente cuando podrías hacer algo más en (c), como usar AIC. No tengo objeciones a la selección gradual basada en AIC, pero tenga en cuenta que será sensible a la muestra (en particular, a medida que las muestras crecen arbitrariamente grandes, AIC, como el lazo, siempre elige el modelo más complejo), así que no Presente la selección del modelo en sí como si fuera una conclusión generalizable.

Si estamos buscando ver qué variables parecen explicar la respuesta y de qué manera

Finalmente, si desea observar los efectos de todas las variables, debe incluir todas las variables, y si su muestra es demasiado pequeña para eso, necesita una muestra más grande. Recuerde, las hipótesis nulas nunca son ciertas en la vida real. No habrá un montón de variables que estén asociadas con un resultado y un montón de otras variables que no lo estén . Cada variable se asociará con el resultado: las preguntas son en qué grado, en qué dirección, en qué interacciones con otras variables, etc.

— Kodiólogo
fuente

Re (4): @gung tiene 220 votos a favor por sus críticas a los procedimientos paso a paso en stats.stackexchange.com/questions/20836 , pero creo que tal crítica se aplicaría a los procedimientos basados en AIC exactamente de la misma manera que a p-value- los basados.

— ameba

Los puntos numerados de @amoeba Frank Harrell parecen aplicarse principalmente a (b) (y su punto 9 es una ventaja, no una desventaja). La descripción de Gung de cómo la selección de modelos puede sobreajustar es correcta, pero para eso sirve la validación de modelos, y el problema se aplica a todos los escenarios de selección de

— modelos

Creo que la respuesta de Gung, así como los puntos de Frank citados, se refieren a la selección por pasos sin ninguna validación de modelo externo. Claramente, si una selección por pasos se coloca en un bucle de validación cruzada, entonces no hay ningún problema de principios, incluso si se basa en valores p. Si se sobrepasa, lo veremos en el rendimiento con validación cruzada. Las críticas como "Produce valores de R al cuadrado que están sesgados para que sean altos" solo tienen sentido si se realiza sin validación cruzada.

— ameba

@amoeba, supongo, pero en línea con lo que dije en mi respuesta, parece poco probable que

p

$p$ Los métodos basados en valores superarían a los basados en, por ejemplo, AIC. Simplemente no hay motivación matemática para ellos.

— Kodiólogo

@Kodiologist, gracias por la respuesta, es muy útil. 1) Los comentarios que siguieron fueron una revelación para mí: no me había dado cuenta de que toda esta discusión en el otro hilo se basaba en una premisa de no validación del modelo. En cualquier caso, consideraba que la validación del modelo era una parte esencial, independientemente del método de selección variable. 2) Con respecto a la mala enseñanza, todavía estoy perplejo, ya que las personas / universidades / libros aparentemente respetados parecen enseñarlo o usarlo. Por ejemplo, Zuur et al. 2009 (Modelos de efectos mixtos y extensiones en ecología con R), así como otros (Faraway 2005, 2006 si no me equivoco).

— Tilen

En cuanto a stepwise vs. AIC

Paso a paso es un término que describe la forma en que se construye una secuencia de modelos y posiblemente la forma en que se selecciona un modelo dentro de la secuencia.

En la construcción de modelos por etapas , las variables se agregan o eliminan una por una o en grupos de acuerdo con alguna regla para definir cuál de las variables se agregará / eliminará. Esto está en línea con el punto de Kodiologist (c).
En la selección de modelos por pasos , uno compara los modelos vecinos en la secuencia y se detendrá cuando el modelo considerado parezca superior a sus dos vecinos (el anterior y el siguiente). Esto se puede hacer mirando diferentes propiedades de los modelos, por ejemplo, sus valores AIC, valores p, etc.

Mientras tanto,

AIC es una medida de la calidad relativa de los modelos estadísticos para un conjunto dado de datos. ( Wikipedia )

AIC se puede aplicar para seleccionar un modelo de un grupo de candidatos. Puede usarse como criterio de selección en la selección por pasos, pero no solo.

Entonces, paso a paso y AIC son dos aspectos diferentes de la selección del modelo que se pueden usar juntos o por separado, y dependiendo de eso y de otras consideraciones puede o no ser apropiado.

— Richard Hardy
fuente

Gracias por su útil respuesta también. Sí, soy consciente de que AIC se puede usar por separado de paso a paso. Sin embargo, en mi campo (biología), a menudo me enfrento a varios predictores candidatos para la respuesta. En consecuencia, construir un pequeño conjunto de unos pocos modelos predeterminados y compararlos (sin hacer una selección progresiva hacia adelante o hacia atrás, o todas las combinaciones posibles (dragado)) a menudo es imposible, incluso con el mejor conocimiento biológico disponible y un pensamiento cuidadoso. ¿Algún otro consejo sobre cuál sería la mejor manera en tales casos?

— Tilen

@ Tilen, la estimación regularizada suele ser una buena idea; Por ejemplo, la red elástica o sus casos especiales (lazo y cresta) pueden ser útiles. Los mínimos cuadrados parciales son otra forma.

— Richard Hardy

Gracias, los investigaré. ¿Son estos métodos mucho más complicados de, por ejemplo, los procedimientos paso a paso basados en AIC, o son simplemente más nuevos? La razón por la que pregunto es para entender por qué los cursos y libros de modelado estadístico (al menos introductorios o básicos, pero evn aplicados) parecen contener procedimientos paso a paso (tanto de valor p como basados en AIC), en lugar de los métodos a los que se refirió.

— Tilen

@ Tilen, probablemente ambos.

— Richard Hardy

Veo. Me pregunto si tiene alguna idea sobre una pregunta directamente relacionada, pero diferente: stats.stackexchange.com/questions/265572/… ?

— Tilen