La regresión de crestas regulariza la regresión lineal imponiendo una penalización sobre el tamaño de los coeficientes. Por lo tanto, los coeficientes se reducen hacia cero y uno hacia el otro. Pero cuando esto sucede y si las variables independientes no tienen la misma escala, la reducción no es justa. Dos variables independientes con diferentes escalas tendrán diferentes contribuciones a los términos penalizados, porque el término penalizado es una suma de cuadrados de todos los coeficientes. Para evitar este tipo de problemas, muy a menudo, las variables independientes se centran y escalan para tener varianza 1.
[Más tarde editar para responder al comentario]
h e i gh t . Ahora, la altura humana podría medirse en pulgadas, metros o kilómetros. Si se mide en kilómetros, que en la regresión lineal estándar, creo que dará un término de coeficiente mucho mayor que si se mide en milímetros.
El término de penalización con lambda es el mismo que expresar la función de pérdida cuadrada con respecto a la suma de coeficientes cuadrados menores o iguales a una constante dada. Eso significa que una lambda más grande le da mucho espacio a la suma al cuadrado de los coeficientes, y una lambda más baja un espacio más pequeño. Espacio mayor o menor significa valores absolutos mayores o menores de los coeficientes.
Al no utilizar la estandarización, para ajustar el modelo puede requerir grandes valores absolutos de los coeficientes. Por supuesto, podríamos tener un valor de coeficiente grande naturalmente, debido al papel de la variable en el modelo. Lo que afirmo es que este valor podría tener un valor inflado artificialmente debido a la no escala. Entonces, la escala también disminuye la necesidad de grandes valores de coeficientes. Por lo tanto, el valor óptimo de lambda suele ser menor, lo que corresponde a una suma menor de valores cuadrados de coeficientes.