Cómo interpretar los resultados cuando tanto la cresta como el lazo funcionan bien por separado pero producen coeficientes diferentes

Estoy ejecutando un modelo de regresión con Lasso y Ridge (para predecir una variable de resultado discreta que va de 0 a 5). Antes de ejecutar el modelo, utilizo el SelectKBestmétodo de scikit-learnreducir el conjunto de características de 250 a 25 . Sin una selección inicial de características, tanto Lasso como Ridge rinden a puntuaciones de precisión más bajas [lo que podría deberse al pequeño tamaño de la muestra, 600]. Además, tenga en cuenta que algunas características están correlacionadas.

Después de ejecutar el modelo, observo que la precisión de predicción es casi la misma con Lasso y Ridge. Sin embargo, cuando verifico las primeras 10 características después de ordenarlas por el valor absoluto de los coeficientes, veo que hay como máximo un 50% de superposición.

Es decir, dado que cada método asignaba una importancia diferente a las características, podría tener una interpretación totalmente diferente basada en el modelo que elijo.

Normalmente, las características representan algunos aspectos del comportamiento del usuario en un sitio web. Por lo tanto, quiero explicar los resultados destacando las características (comportamientos del usuario) con una capacidad predictiva más fuerte frente a características más débiles (comportamientos del usuario). Sin embargo, no sé cómo avanzar en este momento. ¿Cómo debo abordar la interpretación del modelo? Por ejemplo, ¿debería combinar ambos y resaltar el que se superpone, o debería ir con Lasso ya que proporciona más interpretabilidad?

— Renakre
fuente

(+1) Se puede ver que la regularización empeora las estimaciones de coeficientes individuales al tiempo que mejora su desempeño colectivo al predecir nuevas respuestas. ¿Qué es exactamente lo que estás tratando de lograr con tu interpretación?

— Scortchi - Restablece a Monica

@Scortchi gracias por responder.

Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .

— Agregué

+1 AFAIK la relación entre los coeficientes de cresta y lambda no tiene que ser monótona, mientras que en lazo lo es. Por lo tanto, a ciertos niveles de contracción, el valor absoluto de los coeficientes en cresta y lazo puede variar mucho. Habiendo dicho eso, agradecería que alguien pueda esbozar una prueba de esto o en breve explicarlo matemáticamente

— --ukasz Grad

Asegúrese de ordenar los coeficientes "beta". Consulte stats.stackexchange.com/a/243439/70282 . Puede obtenerlos entrenando sobre variables estandarizadas o mediante ajustes posteriores, tal como se describe en el enlace.

— Chris

λ

$\lambda$

La regresión de cresta alienta a todos los coeficientes a ser pequeños. Lasso alienta a muchos / la mayoría de los coeficientes [**] a convertirse en cero, y algunos no distintos a cero. Ambos reducirán la precisión en el conjunto de entrenamiento, pero mejorarán la predicción de alguna manera:

La regresión de cresta intenta mejorar la generalización del conjunto de pruebas, reduciendo el sobreajuste
el lazo reducirá el número de coeficientes distintos de cero, incluso si esto penaliza el rendimiento tanto en el entrenamiento como en los conjuntos de prueba

Puede obtener diferentes opciones de coeficientes si sus datos están altamente correlacionados. Entonces, puede tener 5 características que están correlacionadas:

Al asignar coeficientes pequeños pero distintos de cero a todas estas características, la regresión de cresta puede lograr una baja pérdida en el conjunto de entrenamiento, lo que podría generalizarse al conjunto de prueba
lazo podría elegir solo uno de estos, que se correlaciona bien con los otros cuatro. y no hay ninguna razón por la que debería elegir la función con el coeficiente más alto en la versión de regresión de cresta

[*] para una definición de significado de 'elegir': asigna un coeficiente distinto de cero, que todavía se mueve un poco, ya que los coeficientes de regresión de cresta tenderán a ser distintos de cero, pero, por ejemplo, algunos podrían ser como 1e-8 , y otros podrían ser, por ejemplo, 0.01

$\lambda$

— Hugh Perkins
fuente

Buenas sugerencias Una buena opción es hacer una matriz de correlación. Las variables no superpuestas pueden estar altamente correlacionadas.

— Chris

¡Buena respuesta! Sin embargo, no estoy seguro de que sea justo sugerir que la cresta intenta universalmente mejorar el rendimiento de la prueba sin decir lo mismo para el lazo. Por ejemplo, si el modelo verdadero es escaso (y en el subconjunto de nuestros predictores), podemos esperar de inmediato que el lazo tenga un mejor rendimiento de prueba que la cresta

— user795305

Este es el principio de 'apostar por la escasez'. Por ejemplo, ver la primera trama aquí: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html

— user795305

Las comparaciones de opciones variables (LASSO) y los coeficientes de regresión entre múltiples muestras de arranque de los datos pueden ilustrar muy bien estos problemas. Con predictores correlacionados, los elegidos por LASSO de diferentes bootstraps pueden ser bastante diferentes mientras proporcionan un rendimiento predictivo similar. Idealmente, todo el proceso de construcción del modelo, incluida la reducción inicial del conjunto de características, debe repetirse en múltiples bootstraps para documentar la calidad del proceso.

— EdM

λ

$\lambda$