Definición matemática / algorítmica para sobreajuste

¿Existe una definición matemática o algorítmica de sobreajuste?

Las definiciones que se proporcionan a menudo son el gráfico clásico de puntos en 2-D con una línea que pasa por cada punto y la curva de pérdida de validación que sube repentinamente.

¿Pero hay una definición matemáticamente rigurosa?

mathematical-statistics optimization overfitting

— Brian Ko
fuente

Sí, hay una definición (un poco más) rigurosa:

Dado un modelo con un conjunto de parámetros, se puede decir que el modelo está sobreajustando los datos si después de un cierto número de pasos de entrenamiento, el error de entrenamiento continúa disminuyendo mientras que el error fuera de la muestra (prueba) comienza a aumentar.

^{En este ejemplo, el error fuera de la muestra (prueba / validación) primero disminuye en sincronización con el error del tren, luego comienza a aumentar alrededor de la época 90, es decir, cuando comienza el sobreajuste}

Otra forma de verlo es en términos de sesgo y varianza. El error de falta de muestra para un modelo se puede descomponer en dos componentes:

Sesgo: error debido a que el valor esperado del modelo estimado es diferente del valor esperado del modelo verdadero.
Variación: error debido a que el modelo es sensible a pequeñas fluctuaciones en el conjunto de datos.

$X$

$Y = f(X) + \epsilon$ $\epsilon$ $E(\epsilon)=0$ $Var(\epsilon) = \sigma_{\epsilon}$

y el modelo estimado es:

$\hat{Y} = \hat{f}(X)$

$x_t$

$Err(x_t) = \sigma_{\epsilon} + Bias^2 + Variance$

$Bias^2 = E[f(x_t)- \hat{f}(x_t)]^2$ $Variance = E[\hat{f}(x_t)- E[\hat{f}(x_t)]]^2$

(Hablando estrictamente, esta descomposición se aplica en el caso de regresión, pero una descomposición similar funciona para cualquier función de pérdida, es decir, también en el caso de clasificación).

Ambas definiciones anteriores están vinculadas a la complejidad del modelo (medido en términos de la cantidad de parámetros en el modelo): cuanto mayor es la complejidad del modelo, más probable es que ocurra un sobreajuste.

Vea el capítulo 7 de Elementos de aprendizaje estadístico para un tratamiento matemático riguroso del tema.

^{El equilibrio de sesgo-varianza y la varianza (es decir, sobreajuste) aumentan con la complejidad del modelo. Tomado de ESL Capítulo 7}

— Skander H. - Restablece a Monica
fuente

¿Es posible que disminuyan tanto el error de entrenamiento como el de prueba, pero el modelo aún se sobreajusta? En mi opinión, la divergencia del entrenamiento y el error de prueba demuestra un sobreajuste, pero el sobreajuste no implica necesariamente la divergencia. Por ejemplo, una NN que aprende a distinguir a los delincuentes de los no delincuentes al reconocer el fondo blanco de las fotos de la prisión es demasiado adecuada, pero los errores de entrenamiento y prueba probablemente no sean divergentes.

— dice

@yters en ese caso, no creo que haya alguna forma de medir el sobreajuste que ocurre. Todo lo que tiene acceso es a datos de entrenamiento y prueba, y si ambos conjuntos de datos exhiben la misma característica de la que se aprovecha el NN (fondo blanco), entonces esa es simplemente una característica válida que debe aprovecharse y no necesariamente sobreajustarse. Si no deseaba esa característica, tendría que incluir variaciones en ella en sus conjuntos de datos.

— Calvin Godfrey

@yters su ejemplo es lo que yo considero como "sobreajuste social": matemáticamente, el modelo no está sobreajustado, pero hay algunas consideraciones sociales externas que conducen a que el predictor no funcione bien. Un ejemplo más interesante son algunas competiciones de Kaggle y varios conjuntos de datos abiertos como Boston Housing, MNIST, etc. El modelo en sí podría no ajustarse demasiado (en términos de sesgo, variación, etc.), pero hay muchos conocimiento sobre el problema en la comunidad en general (resultados de equipos anteriores y trabajos de investigación, núcleos compartidos públicamente, etc.) que conducen a un sobreajuste.

— Skander H. - Restablece a Monica el

@yters (continuación) es por eso que, en teoría, un conjunto de datos de validación separado (además del conjunto de datos de prueba) debe permanecer en una "bóveda" y no utilizarse hasta la validación final.

— Skander H. - Restablece a Monica el

@CalvinGodfrey aquí hay un ejemplo más técnico. Digamos que tengo un conjunto de datos de clasificación binaria que se divide uniformemente entre las dos clases, y luego agrego ruido a la clasificación de una distribución de Bernoulli bastante desequilibrada para que el conjunto de datos se sesgue hacia una de las clases. Dividí el conjunto de datos en un tren y lo probé, y logré una alta precisión en ambos, en parte debido a la distribución desequilibrada. Sin embargo, la precisión del modelo no es tan alta en la verdadera clasificación del conjunto de datos porque el modelo aprendió la distribución sesgada de Bernoulli.

— dice