¿En qué configuración esperaría que el modelo encontrado por LARS difiera más del modelo encontrado por búsqueda exhaustiva?

Un poco más de información; suponer que

usted sabe de antemano cuántas variables seleccionar y que establece la penalización de complejidad en el procedimiento LARS, como tener exactamente tantas variables con coeficientes distintos de 0,
los costos de cálculo no son un problema (el número total de variables es pequeño, digamos 50),
que todas las variables (y, x) son continuas.

¿En qué contexto el modelo LARS (es decir, el ajuste OLS de aquellas variables que tienen coeficientes distintos de cero en el ajuste LARS) sería más diferente de un modelo con el mismo número de coeficientes pero encontrado a través de una búsqueda exhaustiva (a la regsubsets ())?

Editar: estoy usando 50 variables y 250 observaciones con los coeficientes reales extraídos de un gaussiano estándar, excepto 10 de las variables que tienen coeficientes 'reales' de 0 (y todas las características están fuertemente correlacionadas entre sí). Obviamente, esta configuración no es buena ya que las diferencias entre los dos conjuntos de variables seleccionadas son mínimas. Esta es realmente una pregunta sobre qué tipo de configuración de datos se debe simular para obtener la mayor cantidad de diferencias.

regression model-selection

— usuario603
fuente

Respuestas:

Aquí está la descripción del algoritmo LARS: http://www-stat.stanford.edu/~tibs/lasso/simple.html Ignora la correlación entre los regresores, por lo que me aventuraría a suponer que podría perderse El ajuste en caso de multicolinealidad.

— Alex
fuente

eso es lo que motiva mi pregunta en realidad. He simulado configuraciones con 50 variables donde el valor más grande de vif es superior a 30 y todavía veo muy pocas diferencias (por ejemplo, en términos de R ^ 2 de los modelos seleccionados) entre los dos enfoques.

— usuario603

Yo mismo he encontrado diferentes respuestas con stepAIC y lars y me imagino que mi problema debe ser tratado con el grupo LASSO: no se trata del VIF de toda la matriz, sino de varios grupos de variables correlacionadas.

— Alex

Interesante ... ¿cómo se generan esos datos? (es decir, con grupos de variables correlacionadas)

— usuario603

Apila una serie de grupos independientes con correlación dentro de ellos. Yo mismo tengo un montón de preguntas sobre una serie de marcas: a las personas les gusta la marca de su elección y no les gustan los demás.

— Alex

Cuantas más funciones tenga, en relación con el número de muestras, es más probable que tenga un ajuste excesivo con el método de búsqueda exhaustivo que con LARS. El término de penalización utilizado en LARS impone una estructura anidada de modelos cada vez más complejos, indexados por un único parámetro de regularización, por lo que los "grados de libertad" de selección de características con LARS son bastante bajos. Para la búsqueda exhaustiva, existe efectivamente un grado (binario) de libertad por característica, lo que significa que la búsqueda exhaustiva es más capaz de explotar la variabilidad aleatoria en el criterio de selección de características debido al muestreo aleatorio de los datos. Como resultado, es probable que el modelo de búsqueda exhaustivo se ajuste severamente al criterio de selección de características, ya que la "clase de hipótesis" es más grande.

— Dikran Marsupial
fuente

Su respuesta parece no estar relacionada con mi pregunta. Para que quede claro: estoy realmente interesado en generar situaciones en las que el subconjunto de variables seleccionadas como activas por LARS sería más diferente de las seleccionadas por búsqueda exhaustiva, con esto medido, por ejemplo, por la diferencia en R ^ 2 entre el modelo LARS y el modelo de búsqueda exhaustivo con el mismo número de variables activas . ¿Puedes pensar en algún caso adverso en el que esta diferencia sea grande? ¿Puedes reformular tu respuesta en estos términos?

— user603

Mi respuesta está directamente relacionada con tu pregunta. El grado de sobreajuste no se controla solo por el número de características, sino por los valores de los pesos. Por lo tanto, es posible realizar un ajuste excesivo sin usar más funciones. LARS impone una penalización a la magnitud de los pesos, por lo que no elige características que solo reducen la pérdida al cuadrado a expensas de los pesos de gran magnitud, por lo que es menos propenso a un ajuste excesivo. Los métodos de búsqueda exactos son básicamente una receta para un ajuste excesivo, por lo que obtendrá soluciones muy diferentes en situaciones en las que es probable que ocurra un ajuste excesivo.

— Dikran Marsupial

Ok, entiendo tu punto: proviene de algo que pasé por alto en mi pregunta original (y espero haber dejado más claro ahora). Realmente estoy comparando manzana con manzanas aquí (es decir, los modelos seleccionados), o en otras palabras, el (R ^ 2 del) ajuste OLS usando las variables seleccionadas por LARS y el (R ^ 2 del) ajuste OLS usando esos variables seleccionadas por búsqueda exhaustiva. No estoy usando directamente los coeficientes LARS ...

— user603

No es ortogonal, es poco probable que un modelo sea mejor que otro sin ser diferente. En situaciones en las que es probable un ajuste excesivo, es probable que un modelo basado en búsquedas exhaustivas sea inestable, es decir, si recolecta 500 muestras diferentes, es probable que obtenga un conjunto diferente de características. LARS, por otro lado, es probable que sea más estable. Si 50 características y 500 muestras es probable que resulten en un sobreajuste depende de la naturaleza del conjunto de datos, pero ciertamente es posible. La búsqueda exhaustiva puede seleccionar características que explican la variabilidad peculiar de esta muestra; LARS menos.

— Dikran Marsupial

Podría ayudar si pudiera explicar por qué querría hacer eso. Sospecho que lo que hay que tener en cuenta es la magnitud de los pesos del modelo verdadero, así como la distribución de los datos. Los modelos de regresión penalizados (LASSO, LARS, Elaris net, regresión de cresta) tienen una distribución previa de los pesos esperados, por lo que si tiene un conjunto de datos donde esto no es válido, ese podría ser un buen lugar para comenzar.

— Dikran Marsupial