Cuidado con el sobreajuste . Un modelo más preciso de datos recopilados de un sistema puede no ser un mejor predictor del comportamiento futuro de un sistema.
La imagen de arriba muestra dos modelos de algunos datos.
La línea lineal es algo precisa en los datos de entrenamiento (los puntos en el gráfico), y (uno esperaría) será algo precisa en los datos de prueba (donde los puntos probablemente sean para x <5 y x> -5 )
Por el contrario, el polinomio es 100% preciso para los datos de entrenamiento, pero (a menos que tenga alguna razón para creer que el polinomio de noveno grado es razonable por alguna razón física), supondría que este será un predictor extremadamente pobre para x> 5 y x <-5.
El modelo lineal es "menos preciso", basado en cualquier comparación de errores con los datos que hemos reunido. Pero es más generalizable.
Además, los ingenieros tienen que preocuparse menos por su modelo y más por lo que la gente hará con el modelo.
Si te digo que vamos a caminar en un día caluroso y se espera que dure 426 minutos. Es probable que traiga menos agua que si le digo que la caminata durará 7 horas, e incluso menos que si digo que la caminata durará de 4 a 8 horas. Esto se debe a que está respondiendo a mi nivel implícito de confianza en mi pronóstico, en lugar del punto medio de mis tiempos establecidos.
Si le da a la gente un modelo preciso, la gente reducirá su margen de error. Esto lleva a mayores riesgos.
Tomar la caminata en un ejemplo de día caluroso, si sé que la caminata tomará de 4 a 8 horas en el 95% de los casos, con cierta incertidumbre sobre la navegación y la velocidad de caminata. Conocer perfectamente nuestra velocidad para caminar disminuirá la incertidumbre de la figura 4-8, pero no afectará significativamente la 'posibilidad de que tomemos tanto tiempo que el agua se convierta en un problema', porque eso es impulsado casi por completo por la navegación incierta, no La velocidad incierta de caminar.