La regresión de cresta estima los parámetros en un modelo lineal by dondeß λ = ( X ⊤ X + λ I ) - 1 X ⊤ y , λ
Un teorema de existencia para la regresión de crestas dice que siempre existe un parámetro tal que el error cuadrático medio de es estrictamente más pequeño que el error cuadrático medio de la MCO estimación . En otras palabras, un valor óptimo de siempre es distinto de cero. Aparentemente, esto se demostró por primera vez en Hoerl y Kennard, 1970, y se repite en muchas notas de conferencias que encuentro en línea (por ejemplo, aquí y aquí ). Mi pregunta es sobre los supuestos de este teorema:β λ β O L S = β 0 λ
¿Hay alguna suposición sobre la matriz de covarianza ?
¿Hay alguna suposición sobre la dimensionalidad de ?
En particular, ¿el teorema sigue siendo cierto si los predictores son ortogonales (es decir, es diagonal), o incluso si \ mathbf X ^ \ top \ mathbf X = \ mathbf I ? ¿Y sigue siendo cierto si solo hay uno o dos predictores (por ejemplo, un predictor y una intercepción)?X ⊤ X = I
Si el teorema no hace tales suposiciones y sigue siendo cierto incluso en estos casos, entonces ¿por qué la regresión de cresta generalmente se recomienda solo en el caso de predictores correlacionados, y nunca (?) Se recomienda para una regresión simple (es decir, no múltiple)?
Esto está relacionado con mi pregunta sobre la visión unificada sobre la contracción: ¿cuál es la relación (si la hay) entre la paradoja de Stein, la regresión de cresta y los efectos aleatorios en modelos mixtos? , pero no hay respuestas que aclaren este punto hasta ahora.