En pocas palabras, sobreajustar significa tener en cuenta demasiada información de sus datos y / o conocimientos previos, y utilizarla en un modelo. Para hacerlo más sencillo, considere el siguiente ejemplo: algunos científicos lo contratan para proporcionarles un modelo para predecir el crecimiento de algún tipo de planta. Los científicos le han brindado información recopilada de su trabajo con tales plantas durante todo un año, y le brindarán continuamente información sobre el desarrollo futuro de su plantación.
Entonces, ejecuta los datos recibidos y construye un modelo a partir de ellos. Ahora suponga que, en su modelo, consideró tantas características como sea posible para descubrir siempre el comportamiento exacto de las plantas que vio en el conjunto de datos inicial. Ahora, a medida que la producción continúa, siempre tendrá en cuenta esas características y producirá resultados muy precisos . Sin embargo, si la plantación finalmente sufre algún cambio estacional, los resultados que recibirá pueden ajustarse a su modelo de tal manera que sus predicciones comenzarán a fallar (ya sea diciendo que el crecimiento se ralentizará, mientras que en realidad se acelerará, o lo contrario).
Además de no ser capaz de detectar variaciones tan pequeñas y, por lo general, de clasificar incorrectamente sus entradas, el grano fino del modelo, es decir, la gran cantidad de variables, puede hacer que el procesamiento sea demasiado costoso. Ahora, imagine que sus datos ya son complejos. El ajuste excesivo de su modelo a los datos no solo hará que la clasificación / evaluación sea muy compleja, sino que probablemente hará que confunda la predicción con la menor variación que pueda tener en la entrada.
Editar : Esto también podría ser útil, tal vez agregando dinámica a la explicación anterior: D