Estoy usando el paquete R penalizado para obtener estimaciones reducidas de coeficientes para un conjunto de datos donde tengo muchos predictores y poco conocimiento de cuáles son importantes. Después de haber elegido los parámetros de ajuste L1 y L2 y estoy satisfecho con mis coeficientes, ¿hay una forma estadísticamente sólida de resumir el ajuste del modelo con algo como R-cuadrado?
Además, estoy interesado en probar la importancia general del modelo (es decir, R² = 0, o hacer todo el = 0).
He leído las respuestas sobre una pregunta similar que se hizo aquí , pero no respondió a mi pregunta. Hay un excelente tutorial sobre el paquete R que estoy usando aquí , y la autora Jelle Goeman tenía la siguiente nota al final del tutorial sobre los intervalos de confianza de los modelos de regresión penalizados:
Es una pregunta muy natural pedir errores estándar de coeficientes de regresión u otras cantidades estimadas. En principio, estos errores estándar se pueden calcular fácilmente, por ejemplo, utilizando el bootstrap.
Aún así, este paquete deliberadamente no los proporciona. La razón de esto es que los errores estándar no son muy significativos para estimaciones fuertemente sesgadas, como las que surgen de los métodos de estimación penalizados. La estimación penalizada es un procedimiento que reduce la varianza de los estimadores al introducir un sesgo sustancial. Por lo tanto, el sesgo de cada estimador es un componente principal de su error cuadrático medio, mientras que su varianza puede contribuir solo con una pequeña parte.
Desafortunadamente, en la mayoría de las aplicaciones de regresión penalizada es imposible obtener una estimación suficientemente precisa del sesgo. Cualquier cálculo basado en bootstrap solo puede dar una evaluación de la varianza de las estimaciones. Las estimaciones confiables del sesgo solo están disponibles si se cuenta con estimaciones imparciales confiables, lo que generalmente no es el caso en situaciones en las que se utilizan estimaciones penalizadas.
Por lo tanto, informar un error estándar de una estimación penalizada solo cuenta una parte de la historia. Puede dar una impresión errónea de gran precisión, ignorando por completo la inexactitud causada por el sesgo. Ciertamente es un error hacer declaraciones de confianza que solo se basan en una evaluación de la varianza de las estimaciones, como lo hacen los intervalos de confianza basados en bootstrap.