Introducción:
Tengo un conjunto de datos con un clásico "problema grande p, pequeño n". El número de muestras disponibles n = 150, mientras que el número de posibles predictores p = 400. El resultado es una variable continua.
Quiero encontrar los descriptores más "importantes", es decir, aquellos que son los mejores candidatos para explicar el resultado y ayudar a construir una teoría.
Después de investigar sobre este tema, descubrí que LASSO y Elastic Net se usan comúnmente para el caso de p grande, n pequeña. Algunos de mis predictores están altamente correlacionados y quiero preservar sus agrupaciones en la evaluación de importancia, por lo tanto, opté por Elastic Net . Supongo que puedo usar valores absolutos de coeficientes de regresión como una medida de importancia (corríjame si estoy equivocado; mi conjunto de datos está estandarizado).
Problema:
Como mi número de muestras es pequeño, ¿cómo puedo lograr un modelo estable?
Mi enfoque actual es encontrar los mejores parámetros de ajuste (lambda y alfa) en una búsqueda de cuadrícula en el 90% del conjunto de datos con un promedio de validación cruzada de MSE de 10 veces. Luego entreno el modelo con los mejores parámetros de ajuste en todo el 90% del conjunto de datos. Puedo evaluar mi modelo usando R al cuadrado en el 10% del conjunto de datos (que representan solo 15 muestras).
Al ejecutar repetidamente este procedimiento, encontré una gran variación en las evaluaciones R al cuadrado. Además, el número de predictores no puestos a cero varía, así como sus coeficientes.
¿Cómo puedo obtener una evaluación más estable de la importancia de los predictores y una evaluación más estable del desempeño del modelo final?
¿Puedo ejecutar repetidamente mi procedimiento para crear una serie de modelos y luego coeficientes de regresión promedio? ¿O debería usar el número de ocurrencias de un predictor en los modelos como su puntaje de importancia?
Actualmente, obtengo alrededor de 40-50 predictores no cero. ¿Debería penalizar más el número de predictores para una mejor estabilidad?