Para agregar una explicación visual a esto: consideremos algunos puntos que planea modelar.
Parece que podrían describirse bien con una línea recta, por lo que ajusta una regresión lineal a ellos:
Esta línea de regresión le permite interpolar (generar valores esperados entre sus puntos de datos) y extrapolar (generar valores esperados fuera del rango de sus puntos de datos). He destacado la extrapolación en rojo y la mayor región de interpolación en azul. Para ser claros, incluso las pequeñas regiones entre los puntos están interpoladas, pero solo estoy destacando la grande aquí.
¿Por qué la extrapolación es generalmente más preocupante? Porque generalmente estás mucho menos seguro sobre la forma de la relación fuera del rango de tus datos. Considere lo que podría suceder cuando recopile algunos puntos de datos más (círculos huecos):
Resulta que la relación no fue capturada bien con su relación hipotética después de todo. Las predicciones en la región extrapolada están muy lejos. Incluso si hubiera adivinado la función precisa que describe esta relación no lineal correctamente, sus datos no se extendieron en un rango suficiente para que pueda capturar bien la no linealidad, por lo que aún puede haber estado bastante lejos. Tenga en cuenta que este es un problema no solo para la regresión lineal, sino también para cualquier relación; es por eso que la extrapolación se considera peligrosa.
Las predicciones en la región interpolada también son incorrectas debido a la falta de no linealidad en el ajuste, pero su error de predicción es mucho menor. No hay garantía de que no tendrá una relación inesperada entre sus puntos (es decir, la región de interpolación), pero generalmente es menos probable.
Agregaré que la extrapolación no siempre es una idea terrible: si extrapola un poco fuera del rango de sus datos, probablemente no se equivocará (¡aunque es posible!). Los antiguos que no tenían un buen modelo científico del mundo no se habrían equivocado si pronosticaran que el sol volvería a salir al día siguiente y al día siguiente (aunque un día en el futuro, incluso esto fallará).
Y a veces, la extrapolación incluso puede ser de carácter informativo - por ejemplo, simples extrapolaciones a corto plazo del aumento exponencial de CO atmosférico han sido razonablemente precisa en los últimos decenios. Si fueras un estudiante que no tenía experiencia científica pero quería un pronóstico aproximado a corto plazo, esto te habría dado resultados bastante razonables. Pero cuanto más lejos de sus datos extrapola, más probable es que su predicción falle y falle desastrosamente, como se describe muy bien en este gran hilo: ¿Qué tiene de malo la extrapolación? (Gracias a @JMisnotastatistician por recordarme eso).2
Edición basada en comentarios: ya sea interpolando o extrapolando, siempre es mejor tener algo de teoría para fundamentar las expectativas. Si se debe realizar un modelado sin teoría , el riesgo de la interpolación suele ser menor que el de la extrapolación. Dicho esto, a medida que la brecha entre los puntos de datos aumenta en magnitud, la interpolación también se vuelve cada vez más cargada de riesgos.