Estoy ejecutando un modelo de regresión con Lasso y Ridge (para predecir una variable de resultado discreta que va de 0 a 5). Antes de ejecutar el modelo, utilizo el SelectKBest
método de scikit-learn
reducir el conjunto de características de 250 a 25 . Sin una selección inicial de características, tanto Lasso como Ridge rinden a puntuaciones de precisión más bajas [lo que podría deberse al pequeño tamaño de la muestra, 600]. Además, tenga en cuenta que algunas características están correlacionadas.
Después de ejecutar el modelo, observo que la precisión de predicción es casi la misma con Lasso y Ridge. Sin embargo, cuando verifico las primeras 10 características después de ordenarlas por el valor absoluto de los coeficientes, veo que hay como máximo un 50% de superposición.
Es decir, dado que cada método asignaba una importancia diferente a las características, podría tener una interpretación totalmente diferente basada en el modelo que elijo.
Normalmente, las características representan algunos aspectos del comportamiento del usuario en un sitio web. Por lo tanto, quiero explicar los resultados destacando las características (comportamientos del usuario) con una capacidad predictiva más fuerte frente a características más débiles (comportamientos del usuario). Sin embargo, no sé cómo avanzar en este momento. ¿Cómo debo abordar la interpretación del modelo? Por ejemplo, ¿debería combinar ambos y resaltar el que se superpone, o debería ir con Lasso ya que proporciona más interpretabilidad?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .