La estabilidad numérica y el sobreajuste están en cierto sentido relacionados pero son cuestiones diferentes.
El clásico problema OLS:
Considere el clásico problema de mínimos cuadrados:
minimize(over b)(y−Xb)T(y−Xb)
La solución es el clásico . Una idea es que según la ley de los grandes números:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
Por lo tanto, la estimación de OLS también converge en . (En términos de álgebra lineal, esta es la proyección lineal de la variable aleatoria sobre el alcance lineal de las variables aleatorias .)b^E[xx′]−1E[xy]yx1,x2,…,xk
¿Problemas?
Mecánicamente, ¿qué puede salir mal? ¿Cuáles son los posibles problemas?
- Para muestras pequeñas, nuestras estimaciones de muestra de y pueden ser pobres.E[xx′]E[xy]
- Si las columnas de son colineales (ya sea debido a la colinealidad inherente o al pequeño tamaño de la muestra), ¡el problema tendrá un continuo de soluciones! La solución puede no ser única.
X
- Esto ocurre si tiene un rango deficiente.E[xx′]
- Esto también ocurre si tiene un rango deficiente debido al pequeño tamaño de la muestra en relación con el número de problemas de regresores.X′X
El problema (1) puede conducir a un sobreajuste a medida que la estimación comience a reflejar patrones en la muestra que no existen en la población subyacente. La estimación puede reflejar patrones en y que en realidad no existen en yb^1nX′X1nX′yE[xx′]E[xy]
El problema (2) significa que una solución no es única. Imagine que estamos tratando de estimar el precio de los zapatos individuales, pero los pares de zapatos siempre se venden juntos. Este es un problema mal planteado, pero digamos que lo estamos haciendo de todos modos. Podemos creer que el precio del zapato izquierdo más el precio del zapato derecho es igual a $ 50, pero ¿cómo podemos obtener precios individuales? ¿Está bien establecer los precios del zapato izquierdo y el precio del zapato derecho ? ¿Cómo podemos elegir entre todas las posibilidades?pl=45pr=5
Introducir penalización :L2
Ahora considere:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
Esto puede ayudarnos con ambos tipos de problemas. La penalización empuja nuestra estimación de hacia cero. Esto funciona efectivamente como un Bayesiano antes de que la distribución sobre los valores del coeficiente se centre alrededor de . Eso ayuda con el sobreajuste. Nuestra estimación reflejará tanto los datos como nuestras creencias iniciales de que está cerca de cero.L2b0b
L2 regularización de también siempre nos permite encontrar una solución única a problemas mal planteados. Si conocemos el precio de los zapatos izquierdo y derecho en total a , la solución que también minimiza el norma es elegir .$50L2pl=pr=25
¿Es esto mágico? No. La regularización no es lo mismo que agregar datos que realmente nos permitirían responder la pregunta. regularización en cierto sentido adopta la opinión de que si carece de datos, elija estimaciones más cercanas a .L20