La pregunta original preguntaba si la función de error debe ser convexa. No, no lo hace. El análisis presentado a continuación tiene la intención de proporcionar una idea e intuición sobre esto y la pregunta modificada, que pregunta si la función de error podría tener múltiples mínimos locales.
Intuitivamente, no tiene que haber ninguna relación matemáticamente necesaria entre los datos y el conjunto de entrenamiento. Deberíamos poder encontrar datos de entrenamiento para los cuales el modelo inicialmente es pobre, mejora con cierta regularización y luego empeora nuevamente. La curva de error no puede ser convexa en ese caso, al menos no si hacemos que el parámetro de regularización varíe de a ∞ .0∞
¡Tenga en cuenta que convexo no es equivalente a tener un mínimo único! Sin embargo, ideas similares sugieren que son posibles múltiples mínimos locales: durante la regularización, primero el modelo ajustado podría mejorar para algunos datos de entrenamiento sin cambiar apreciablemente para otros datos de entrenamiento, y luego mejorará para otros datos de entrenamiento, etc. La combinación de dichos datos de entrenamiento debería producir múltiples mínimos locales. Para mantener el análisis simple, no intentaré mostrar eso.
Editar (para responder a la pregunta modificada)
Tenía tanta confianza en el análisis presentado a continuación y la intuición detrás de esto que empecé a buscar un ejemplo de la manera más cruda posible: generé pequeños conjuntos de datos aleatorios, ejecuté un Lazo sobre ellos, calculé el error cuadrado total para un pequeño conjunto de entrenamiento, y trazó su curva de error. Algunos intentos produjeron uno con dos mínimos, que describiré. Los vectores están en la forma para las características x 1 y x 2 y la respuesta y .(x1,x2,y)x1x2y
Datos de entrenamiento
(1,1,−0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)
Datos de prueba
(1,1,0.2), (1,2,0.4)
glmnet::glmmet
R
λ1/λ
Una curva de error con mínimos locales múltiples
Análisis
β=(β1,…,βp)xiyi
λ∈[0,∞)λ=0
β^λβ^
λ→∞β^→0
xβ^→0y^(x)=f(x,β^)→0
yy^L(y,y^)|y^−y|L(|y^−y|)
(4)
β^(0)(x0,y0)f(x0,β^(0))≠0x0y0=f(x0,β^(0))/2
e:λ→L(y0,f(x0,β^(λ))
e(0)=L(y0,f(x0,β^(0))=L(y0,2y0)=L(|y0|)y0
limλ→∞e(λ)=L(y0,0)=L(|y0|)ß ( λ ) → 0 y ( x 0 ) → 0λ→∞β^(λ)→0y^(x0)→0
Por lo tanto, su gráfico conecta continuamente dos puntos finales igualmente altos (y finitos).
Cualitativamente, hay tres posibilidades:
La predicción para el conjunto de entrenamiento nunca cambia. Esto es poco probable: casi cualquier ejemplo que elija no tendrá esta propiedad.
Algunas predicciones intermedias para son peores que al inicio o en el límite . Esta función no puede ser convexa.λ = 0 λ → ∞0<λ<∞λ=0λ→∞
Todas las predicciones intermedias se encuentran entre y . La continuidad implica que habrá al menos un mínimo de , cerca del cual debe ser convexo. Pero dado que aproxima a una constante finita asintóticamente, no puede ser convexo para suficientemente grande .2 y 0 e e e ( λ ) λ02y0eee(λ)λ
La línea discontinua vertical en la figura muestra dónde cambia el gráfico de convexo (a su izquierda) a no convexo (a la derecha). (También hay una región de no convexidad cerca de en esta figura, pero este no será necesariamente el caso en general).λ≈0