@whuber te ha señalado tres buenas respuestas, pero quizás aún puedo escribir algo de valor. Su pregunta explícita, según tengo entendido, es:
Dado mi modelo ajustado,y^yo= m^Xyo+ b^ N(0, σ 2 e )ynewxnew( y -σe, y +σe) (observe que agregué 'sombreros') , y suponiendo que mis residuos se distribuyen normalmente, , ¿puedo predecir que una respuesta aún no observada, , con un valor predictivo conocido, , se encontrará dentro del intervalo , con una probabilidad del 68%?norte( 0 , σ^2mi)yn e wXn e w( y^- σmi, y^+ σmi)
Intuitivamente, la respuesta parece ser 'sí', pero la respuesta verdadera es quizás . Este será el caso cuando los parámetros (es decir, & ) sean conocidos y sin error. Como estimó estos parámetros, debemos tener en cuenta su incertidumbre. σm , b ,σ
Primero pensemos en la desviación estándar de sus residuos. Debido a que esto se estima a partir de sus datos, puede haber algún error en la estimación. Como resultado, la distribución que debe usar para formar su intervalo de predicción debe ser , no la normal. Sin embargo, dado que la converge rápidamente a la normalidad, es menos probable que esto sea un problema en la práctica. tterror dft
Entonces, ¿podemos usar , en lugar de , y seguir nuestro camino alegre? Lamentablemente no. El problema mayor es que existe incertidumbre acerca de su estimación de la media condicional de la respuesta en esa ubicación debido a la incertidumbre en sus estimaciones & . Por lo tanto, la desviación estándar de sus predicciones necesita incorporar más que solo . Debido a que las variaciones se suman , la variación estimada de las predicciones será:
Observe que la " y nuevo±z(1-α/2)s m b serrors 2 predicciones (nuevo) =s 2 error +Var( m xnuevo+ b )xs2xsy^nuevo± t( 1 - α / 2 , error de df ) sy^nuevo± z( 1 - α / 2 )smetro^si^serror
s2predicciones (nuevo)= s2error+ Var ( m^Xnuevo+ b^)
X"está suscrito para representar el valor específico de la nueva observación, y que la" "está correspondientemente suscrita. Es decir, su intervalo de predicción depende de la ubicación de la nueva observación a lo largo del eje . La desviación estándar de su las predicciones se pueden estimar más convenientemente con la siguiente fórmula:
Como nota al margen interesante, podemos inferir algunos hechos sobre los intervalos de predicción a partir de esta ecuación. Primero, los intervalos de predicción serán más estrechos cuanto más datos tengamos cuando construimos el modelo de predicción (esto se debe a que hay menos incertidumbre en &
s2Xmbx0xspredicciones (nuevo)= s2error( 1 + 1norte+ ( xnuevo- x¯)2∑ ( xyo- x¯)2)------------------------√
metro^si^) En segundo lugar, las predicciones serán más precisas si se realizan a la media de los valores de que utilizó para desarrollar su modelo, ya que el numerador para el tercer término será . La razón es que, en circunstancias normales, no hay incertidumbre acerca de la pendiente estimada en la media de
X0 0X, solo cierta incertidumbre sobre la verdadera posición vertical de la línea de regresión. Por lo tanto, algunas lecciones que se pueden aprender para construir modelos de predicción son: que más datos sean útiles, no para encontrar 'importancia', sino para mejorar la precisión de las predicciones futuras; y que debe centrar sus esfuerzos de recopilación de datos en el intervalo en el que deberá hacer predicciones en el futuro (para minimizar ese numerador), pero difundir las observaciones lo más ampliamente posible desde ese centro (para maximizar ese denominador).
Habiendo calculado el valor correcto de esta manera, podemos usarlo con la distribución adecuada como se indicó anteriormente. t