Estimación de la significación estadística y R cuadrado a partir del modelo de regresión penalizado

Estoy usando el paquete R penalizado para obtener estimaciones reducidas de coeficientes para un conjunto de datos donde tengo muchos predictores y poco conocimiento de cuáles son importantes. Después de haber elegido los parámetros de ajuste L1 y L2 y estoy satisfecho con mis coeficientes, ¿hay una forma estadísticamente sólida de resumir el ajuste del modelo con algo como R-cuadrado?

Además, estoy interesado en probar la importancia general del modelo (es decir, R² = 0, o hacer todo el = 0).

He leído las respuestas sobre una pregunta similar que se hizo aquí , pero no respondió a mi pregunta. Hay un excelente tutorial sobre el paquete R que estoy usando aquí , y la autora Jelle Goeman tenía la siguiente nota al final del tutorial sobre los intervalos de confianza de los modelos de regresión penalizados:

Es una pregunta muy natural pedir errores estándar de coeficientes de regresión u otras cantidades estimadas. En principio, estos errores estándar se pueden calcular fácilmente, por ejemplo, utilizando el bootstrap.

Aún así, este paquete deliberadamente no los proporciona. La razón de esto es que los errores estándar no son muy significativos para estimaciones fuertemente sesgadas, como las que surgen de los métodos de estimación penalizados. La estimación penalizada es un procedimiento que reduce la varianza de los estimadores al introducir un sesgo sustancial. Por lo tanto, el sesgo de cada estimador es un componente principal de su error cuadrático medio, mientras que su varianza puede contribuir solo con una pequeña parte.

Desafortunadamente, en la mayoría de las aplicaciones de regresión penalizada es imposible obtener una estimación suficientemente precisa del sesgo. Cualquier cálculo basado en bootstrap solo puede dar una evaluación de la varianza de las estimaciones. Las estimaciones confiables del sesgo solo están disponibles si se cuenta con estimaciones imparciales confiables, lo que generalmente no es el caso en situaciones en las que se utilizan estimaciones penalizadas.

Por lo tanto, informar un error estándar de una estimación penalizada solo cuenta una parte de la historia. Puede dar una impresión errónea de gran precisión, ignorando por completo la inexactitud causada por el sesgo. Ciertamente es un error hacer declaraciones de confianza que solo se basan en una evaluación de la varianza de las estimaciones, como lo hacen los intervalos de confianza basados en bootstrap.

— Stephen Turner
fuente

Por supuesto, una forma en que puedo obtener rápidamente una estimación de R cuadrado es ajustando un modelo lineal que prediga los valores ajustados de los datos originales y tomando el R cuadrado de eso. Pero parece que sería una estimación de R-cuadrado enormemente sobreajustada y sesgada.

— Stephen Turner

Agrego esto como un comentario, ya que estoy haciendo una pregunta "similar" en una publicación cercana (por lo que no sé si califico para dar una respuesta ), pero para su pregunta específicamente parece que puede calcular R-cuadrado sin requerir ningún supuestos de distribución (sin embargo, son necesarios para las pruebas de hipótesis de la manera ordinaria). ¿No puede usar un conjunto de espera para calcular r-cuadrado o usar una validación de k-fold si no tiene suficientes datos (en cada pliegue ejecute su proceso penalizado completo y promedie los r-squares de cada uno de los pliegues no usado en el accesorio)?

— B_Miner

k

$k$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

Respuestas:

Mi primera reacción a los comentarios de Jelle es "bias-schmias". Debe tener cuidado con lo que quiere decir con "gran cantidad de predictores". Esto podría ser "grande" con respecto a:

El número de puntos de datos ("big p small n")
La cantidad de tiempo que tiene para investigar las variables.
El costo computacional de invertir una matriz gigante

Mi reacción se basó en "grande" con respecto al punto 1. Esto se debe a que en este caso, por lo general, vale la pena compensar el sesgo por la reducción de la varianza que se obtiene. El sesgo solo es importante "a largo plazo". Entonces, si tiene una pequeña muestra, ¿a quién le importa el "largo plazo"?

$R^2$ $R^2$

Idealmente, este "error de predicción" debería basarse en el contexto de su situación de modelado. Básicamente, desea responder la pregunta "¿Qué tan bien reproduce mi modelo los datos?". El contexto de su situación debería poder decirle qué significa "qué tan bien" en el mundo real. Luego debe traducir esto en algún tipo de ecuación matemática.

P R E S S = \sum_{i = 1}^{N} (Y_{i} - {\hat{Y}}_{i, - i})^{2}

$PRESS=\sum_{i=1}^{N} (Y_{i}-\hat{Y}_{i,-i})^2$

{\hat{Y}}_{i, - i}

$\hat{Y}_{i,-i}$

Y_{i}

$Y_{i}$

Y_{i}

$Y_i$

N

$N$

T

$T$

M

$M$

G = \frac{T}{M}

$G=\frac{T}{M}$

N_{g} = \frac{N \times M}{T}

$N_{g}=\frac{N\times M}{T}$

P R E S S = \sum_{g = 1}^{G} \sum_{i = 1}^{N_{g}} (Y_{i g} - {\hat{Y}}_{i g, - g})^{2}

$PRESS=\sum_{g=1}^{G}\sum_{i=1}^{N_{g}} (Y_{ig}-\hat{Y}_{ig,-g})^2$

\frac{β_{L A S S O}}{β_{U N C O N S T R A I N E D}}

$\frac{\beta_{LASSO}}{\beta_{UNCONSTRAINED}}$

— probabilidadislogica
fuente

todo lo que parece haber hecho anteriormente es describir la validación cruzada de dejar uno fuera y la validación cruzada pliegue. El primero rara vez se usa en estos días debido a la alta varianza y generalmente a los altos costos computacionales (algunas configuraciones de regresión son la excepción). En cuanto a sus comentarios sobre la influencia, si no hay estimaciones únicas de mínimos cuadrados, lo cual es una complicación. Además, los signos de las estimaciones de los parámetros también pueden ser diferentes. No soy positivo, pero incluso cuando existen las estimaciones de OLS, todavía puede haber situaciones en las que su relación podría ser para algunos parámetros.

k

$k$

p > n

$p > n$

> 1

$> 1$

— cardenal

El paquete R hdm y el paquete Stata lassopack admiten una prueba de significación conjunta para el lazo. La teoría permite que el número de predictores sea grande en relación con el número de observaciones. La teoría detrás de la prueba y cómo aplicarla se explica brevemente en la documentación de hdm . En resumen, se basa en un marco para la penalización basada en la teoría (desarrollado por Belloni, Chernozhukov y Hansen, et al.). Este documento es un buen punto de partida si desea saber más sobre la teoría subyacente. El único inconveniente es que la prueba solo funciona para el lazo y (lazo de raíz cuadrada). No para otros métodos de regresión penalizados.

Belloni, A., Chen, D., Chernozhukov, V. y Hansen, C. (2012), Modelos y métodos dispersos para instrumentos óptimos con una aplicación al dominio eminente. Econometrica, 80: 2369-2429.

— aahr1
fuente

agregue la referencia completa del documento (un enlace puede morir)

— Antoine