¿Por qué R Squared no es una buena medida para que las regresiones encajen con LASSO?

He leído en varios lugares que R Squared no es una medida ideal cuando un modelo se ajusta usando LASSO. Sin embargo, no tengo claro exactamente por qué es eso.

Además, ¿podría recomendar la mejor alternativa?

— Dave
fuente

El objetivo de usar LASSO es obtener una representación dispersa (de una cantidad predicha) en el sentido de no tener muchas covariables. La comparación de modelos con tiende a favorecer modelos con muchas covariables: de hecho, agregar covariables no relacionadas con el resultado nunca disminuirá y casi siempre aumenta al menos un poco. El modelo LASSO identificará el modelo con la probabilidad logarítmica penalizada óptima (una probabilidad logarítmica sin potencializar está relacionada monotónicamente con el ). Las estadísticas de validación que se utilizan más ampliamente para comparar modelos LASSO con otros tipos de modelos son, por ejemplo, el BIC o validación cruzada . $R^2$ $R^2$ $R^2$ $R^2$

— AdamO
fuente

+1 para presentar claramente el motivo y proporcionar una alternativa

— Haitao Du

Muchas gracias por la gran respuesta! ¿Le importaría elaborar en "El modelo LASSO identificará el modelo con la probabilidad de registro penalizada óptima (una probabilidad de registro nopenalizada está relacionada monotónicamente con el R2)". ¿Considero que la primera parte significa que elegirá el modelo con la menor cantidad de error (en la predicción y mediante la penalización)? Pero no tengo claro qué significa el bit entre paréntesis. ¿Significa eso que LL sin potencializar aumenta a medida que R2 desciende? Además, ¿el R2 con validación cruzada debe estar en un conjunto de datos completamente nuevo? ¿O puede basarse en los datos de entrenamiento?

— Dave

@ Dave Creo que tienes la idea correcta. El modelo de regresión lineal es un LASSO sin penalización, y la probabilidad de registro es solo mientras que R2 es solo . La penalización contribuye al error indirectamente, es un precio que paga para imponer la escasez. El modelo sin convertir siempre tendrá un error inferior (interno). Las personas generalmente hacen validación cruzada con el mismo conjunto de datos. Probar modelos en nuevos conjuntos de datos es otra cosa (no se necesita la parte "cruzada") y no se hace lo suficiente.

\log (2 π) N + 1 - \log (N) + \log (\sum_{i = 1}^{n} r_{i}^{2})

$\log(2\pi)N+1−\log(N)+\log(\sum_{i=1}^n r_i^2)$

1 - \sum_{i = 1}^{n} r_{i}^{2} / \sum_{i = 1}^{n} y_{i}^{2}

$1 - \sum_{i=1}^n r_i^2/\sum_{i=1}^ny_i^2$

— AdamO

@AdamO Creo que sería una buena idea editar tu comentario en tu respuesta, es muy bueno.

— Matthew Drury

Hola @ Adam una última pregunta de seguimiento. Ahora entiendo por qué R2 tradicional es una mala medida. Pero, no estoy claro por qué el R2 con validación cruzada (dentro del mismo conjunto de datos) está bien.

— Dave