PRESIONE la estadística para la regresión de cresta

En mínimos cuadrados ordinarios, regresando un vector objetivo $y$ contra un conjunto de predictores $X$ , la matriz del sombrero se calcula como

H = X (X^{t} X)^{- 1} X^{t}

$H = X (X^tX)^{-1} X^t$

y la PRENSA (suma residual de cuadrados prevista) se calcula mediante

S S_{P} = \sum_{i} {(\frac{e_{i}}{1 - h_{i i}})}^{2}

$SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2$

dónde $e_i$ es el $i$ th residual y el $h_{ii}$ son los elementos diagonales de la matriz del sombrero.

En regresión de cresta con coeficiente de penalización $\lambda$ , la matriz del sombrero se modifica para ser

H = X (X^{t} X + λ I)^{- 1} X^{t}

$H = X (X^t X + \lambda I)^{-1} X^t$

¿Se puede calcular la estadística PRESS de la misma manera, utilizando la matriz de sombrero modificada?

regression cross-validation ridge-regression

— Chris Taylor
fuente

Respuestas:

Sí, uso mucho este método para la regresión de la cresta del núcleo, y es una buena forma de seleccionar el parámetro de la cresta (ver, por ejemplo, este documento [doi , preprint] ).

La búsqueda del parámetro de cresta óptimo puede hacerse muy eficiente si los cálculos se realizan en forma canónica (véase, por ejemplo, este documento ), donde el modelo se vuelve a parametrizar de modo que se requiere la inversa de una matriz diagonal.

— Dikran Marsupial
fuente

Gracias. En su experiencia, si usa PRESS para seleccionar el parámetro de cresta, ¿cómo se compara su error de predicción real en un conjunto de prueba con su PRESS medida en el conjunto de entrenamiento? Presumiblemente (PRESS / n) es una subestimación del error de predicción, pero ¿es confiable en la práctica?

— Chris Taylor

PRESS es aproximadamente imparcial, el verdadero problema es la varianza, lo que significa que hay mucha variabilidad dependiendo de la muestra particular de datos en la que se evalúa. Esto significa que si optimiza la PRENSA en la selección del modelo, puede sobrepasar el criterio de selección del modelo y terminar con un modelo deficiente. Sin embargo, para el tipo de modelo en el que estoy interesado (métodos de aprendizaje del kernel) es bastante efectivo y el problema de la varianza no parece ser mucho peor que otro criterio que podría funcionar mejor.

— Dikran Marsupial

En caso de duda, siempre puede usar el embolsado además de la regresión de cresta como una especie de enfoque de "cinturón y tirantes" para evitar el ajuste excesivo.

— Dikran Marsupial

¡Gracias por tu ayuda! Yo tenía la impresión de que el embolsado no dio ninguna mejora en los modelos lineales, por ejemplo, de acuerdo con el artículo de Wikipedia ? ¿Puedes aclarar?

— Chris Taylor

No hay problema. Sospecho que el artículo de Wikipedia es incorrecto, la selección de subconjuntos en regresión lineal es uno de los ejemplos que Brieman usa en el documento original sobre Bagging. Es posible que la regresión lineal de mínimos cuadrados sin selección de subconjunto no se vea afectada asintóticamente por el embolsado, pero incluso entonces dudo que se aplique a modelos lineales de manera más general (como la regresión logística).

— Dikran Marsupial

Se puede tomar el siguiente enfoque para aplicar la regularización L2 y obtener la estadística PRENSA. El método utiliza un enfoque de aumento de datos.

Suponga que tiene N muestras de Y y K variables explicativas X1, X2 ... Xk .... XK

Agregue la variable adicional X0 que tiene 1 sobre las N muestras
Aumentar con K muestras adicionales donde:
- El valor Y es 0 para cada una de las K muestras
- El valor X0 es 0 para cada una de las K muestras
- El valor Xk es SQRT (Lambda * N) * [STDEV (Xk) sobre N muestras] si está en diagonal, y 0 en caso contrario
Ahora hay muestras N + K y variables K + 1. Una regresión lineal normal se puede resolver con estas entradas.
Como esta es una regresión realizada en un solo paso, la estadística de PRENSA puede calcularse como normal.
La entrada de regularización Lambda tiene que decidirse. Revisar la estadística de PRENSA para diferentes entradas de Lambada puede ayudar a determinar un valor adecuado.

— James65
fuente