La regresión de LASSO reduce los coeficientes hacia cero, proporcionando así una selección de modelo efectiva. Creo que en mis datos hay interacciones significativas entre covariables nominales y continuas. No necesariamente, sin embargo, son los 'efectos principales' del verdadero modelo significativo (distinto de cero). Por supuesto, no sé esto ya que el verdadero modelo es desconocido. Mis objetivos son encontrar el modelo verdadero y predecir el resultado lo más cerca posible.
Aprendí que el enfoque clásico para la construcción de modelos siempre incluiría un efecto principal antes de incluir una interacción. Por lo tanto, no puede haber un modelo sin un efecto principal de dos covariables y si hay una interacción de las covariables en el mismo modelo. En consecuencia, la función selecciona cuidadosamente los términos del modelo (por ejemplo, basados en AIC hacia atrás o hacia adelante) de acuerdo con esta regla.step
R
LASSO parece funcionar de manera diferente. Dado que todos los parámetros están penalizados, sin duda puede suceder que un efecto principal se reduzca a cero, mientras que la interacción del mejor modelo (por ejemplo, con validación cruzada) no es cero. Esto lo encuentro en particular para mis datos cuando uso R
el glmnet
paquete.
Recibí críticas basadas en la primera regla citada anteriormente, es decir, mi modelo Lasso final con validación cruzada no incluye los términos de efecto principal correspondientes de alguna interacción distinta de cero. Sin embargo, esta regla parece algo extraña en este contexto. A lo que se reduce es a la pregunta de si el parámetro en el modelo verdadero es cero. Supongamos que sí, pero la interacción no es cero, entonces LASSO lo identificará quizás, encontrando así el modelo correcto. De hecho, parece que las predicciones de este modelo serán más precisas porque el modelo no contiene el efecto principal de cero verdadero, que es efectivamente una variable de ruido.
¿Puedo refutar las críticas basadas en este motivo o debo tomar precauciones de alguna manera para que LASSO incluya el efecto principal antes del término de interacción?