Tengo varias preguntas sobre la penalización de cresta en el contexto de mínimos cuadrados:
1) La expresión sugiere que la matriz de covarianza de X se reduce hacia una matriz diagonal, lo que significa que (suponiendo que las variables estén estandarizadas antes del procedimiento) se reducirá la correlación entre las variables de entrada. ¿Es correcta esta interpretación?
2) Si se trata de una aplicación de contracción, ¿por qué no se formula en las líneas de , suponiendo que de alguna manera podamos restringir lambda al rango [0,1] con una normalización .
3) ¿Qué puede ser una normalización para para que pueda restringirse a un rango estándar como [0,1].
4) Agregar una constante a la diagonal afectará a todos los valores propios. ¿Sería mejor atacar solo los valores singulares o casi singulares? ¿Es esto equivalente a aplicar PCA a X y retener los componentes principales N principales antes de la regresión o tiene un nombre diferente (ya que no modifica el cálculo de covarianza cruzada)?
5) ¿Podemos regularizar la covarianza cruzada, o tiene algún uso, lo que significa
donde una pequeña reducirá la covarianza cruzada. Obviamente, esto reduce todos s por igual, pero tal vez haya una forma más inteligente como el umbral duro / blando dependiendo del valor de covarianza.