¿Cómo puede uno objetivamente (leer "algorítmicamente") seleccionar un modelo apropiado para hacer una simple regresión lineal de mínimos cuadrados con dos variables?
Por ejemplo, digamos que los datos parecen mostrar una tendencia cuadrática, y se genera una parábola que se ajusta bastante bien a los datos. ¿Cómo justificamos hacer de esto la regresión? ¿O cómo eliminamos la posibilidad de que exista un modelo mejor?
Lo que realmente me preocupa es esto: podríamos seguir agregando términos polinómicos hasta que tengamos un ajuste perfecto para el conjunto de datos (una interpolación de los puntos), sin ningún tipo de error. Pero esto sería inútil en cuanto a predecir o extrapolar, porque no habría razón para pensar que el "modelo" era realmente apropiado. Entonces, ¿cómo se equilibran las necesidades de precisión y atractivo intuitivo?
(Además, avísenme si esto se ha preguntado antes, supuse que habría sido pero no encontré nada).