Creo que boostrap sería la mejor opción para obtener SE robustas. Esto se realizó en algunos trabajos aplicados utilizando métodos de contracción, por ejemplo, Análisis de datos del Consorcio de Artritis Reumatoide de América del Norte utilizando un enfoque de regresión logística penalizado (BMC Proceedings 2009). También hay un buen artículo de Casella sobre cálculo SE con modelo penalizado, regresión penalizada , errores estándar y lazos bayesianos (Bayesian Analysis 2010 5 (2)). Pero están más preocupados con la penalización de lazo y elástico .
Siempre pensé en la regresión de cresta como una forma de obtener mejores predicciones que la OLS estándar, donde el modelo generalmente no es indiferente. Para la selección de variables, los criterios de lazo o elasticnet son más apropiados, pero luego es difícil aplicar un procedimiento de arranque (dado que las variables seleccionadas cambiarían de una muestra a otra, e incluso en el bucle de plegado en interno utilizado para optimizar el / ); Este no es el caso con la regresión de cresta, ya que siempre considera todas las variables.kℓ1ℓ2
No tengo idea de los paquetes R que darían esta información. No parece estar disponible en el paquete glmnet (consulte el documento de Friedman en JSS, Rutas de regularización para modelos lineales generalizados a través de descenso coordinado ). Sin embargo, Jelle Goeman, autor del paquete penalizado , también discute este punto. No puedo encontrar el PDF original en la web, así que simplemente cito sus palabras:
Es una pregunta muy natural pedir errores estándar de coeficientes de regresión u otras cantidades estimadas. En principio, estos errores estándar se pueden calcular fácilmente, por ejemplo, utilizando el bootstrap.
Aún así, este paquete deliberadamente no los proporciona. La razón de esto es que los errores estándar no son muy significativos para estimaciones fuertemente sesgadas, como las que surgen de los métodos de estimación penalizados. La estimación penalizada es un procedimiento que reduce la varianza de los estimadores al introducir un sesgo sustancial. Por lo tanto, el sesgo de cada estimador es un componente principal de su error cuadrático medio, mientras que su varianza puede contribuir solo con una pequeña parte.
Desafortunadamente, en la mayoría de las aplicaciones de regresión penalizada es imposible obtener una estimación suficientemente precisa del sesgo. Cualquier cálculo basado en bootstrap solo puede dar una evaluación de la varianza de las estimaciones. Las estimaciones confiables del sesgo solo están disponibles si se cuenta con estimaciones imparciales confiables, lo que generalmente no es el caso en situaciones en las que se utilizan estimaciones penalizadas.
Por lo tanto, informar un error estándar de una estimación penalizada solo cuenta una parte de la historia. Puede dar una impresión errónea de gran precisión, ignorando por completo la inexactitud causada por el sesgo. Ciertamente es un error hacer declaraciones de confianza que solo se basan en una evaluación de la varianza de las estimaciones, como lo hacen los intervalos de confianza basados en bootstrap.