Un poco más de información; suponer que
- usted sabe de antemano cuántas variables seleccionar y que establece la penalización de complejidad en el procedimiento LARS, como tener exactamente tantas variables con coeficientes distintos de 0,
- los costos de cálculo no son un problema (el número total de variables es pequeño, digamos 50),
- que todas las variables (y, x) son continuas.
¿En qué contexto el modelo LARS (es decir, el ajuste OLS de aquellas variables que tienen coeficientes distintos de cero en el ajuste LARS) sería más diferente de un modelo con el mismo número de coeficientes pero encontrado a través de una búsqueda exhaustiva (a la regsubsets ())?
Editar: estoy usando 50 variables y 250 observaciones con los coeficientes reales extraídos de un gaussiano estándar, excepto 10 de las variables que tienen coeficientes 'reales' de 0 (y todas las características están fuertemente correlacionadas entre sí). Obviamente, esta configuración no es buena ya que las diferencias entre los dos conjuntos de variables seleccionadas son mínimas. Esta es realmente una pregunta sobre qué tipo de configuración de datos se debe simular para obtener la mayor cantidad de diferencias.