Lo discutiré en términos intuitivos.
Tanto los intervalos de confianza como los intervalos de predicción en la regresión tienen en cuenta el hecho de que la intersección y la pendiente son inciertas: usted estima los valores de los datos, pero los valores de la población pueden ser diferentes (si toma una nueva muestra, obtendrá diferentes estimaciones valores).
Pasará una línea de regresión , y es mejor centrar la discusión sobre los cambios en el ajuste alrededor de ese punto, es decir, pensar en la línea (en esta formulación, ).(x¯,y¯)y=a+b(x−x¯)a^=y¯
Si la línea pasara por ese punto , pero la pendiente fuera un poco más alta o más baja (es decir, si la altura de la línea en la media fuera fija pero la pendiente fuera un poco diferente), ¿qué sería eso? ¿parece?(x¯,y¯)
Vería que la nueva línea se alejaría más de la línea actual cerca de los extremos que cerca del medio, formando una especie de X inclinada que se cruzó en la media (como cada una de las líneas púrpuras a continuación lo hacen con respecto a la línea roja ; las líneas moradas representan la pendiente estimada dos errores estándar de la pendiente).±
Si dibujó una colección de tales líneas con la pendiente que varía un poco de su estimación, vería la distribución de los valores pronosticados cerca de los extremos 'abanicos' (imagine la región entre las dos líneas moradas sombreadas en gris, por ejemplo, porque tomamos muestras de nuevo y dibujamos muchas de esas pendientes cerca de la estimada; podemos darnos una idea de esto mediante el arranque de una línea a través del punto ( )). Aquí hay un ejemplo usando 2000 resamples con un bootstrap paramétrico:x¯,y¯
Si, en cambio, tiene en cuenta la incertidumbre en la constante (hacer que la línea pase cerca pero no del todo ), eso mueve la línea hacia arriba y hacia abajo, por lo que los intervalos para la media en cualquier serán sentarse por encima y por debajo de la línea ajustada.(x¯,y¯)x
(Aquí las líneas moradas son dos errores estándar del término constante a ambos lados de la línea estimada).±
Cuando haces las dos cosas a la vez (la línea puede estar un poco más arriba o más abajo, y la pendiente puede ser un poco más pronunciada o menos profunda), entonces obtienes cierta extensión en la media, , debido a la incertidumbre en el constante, y obtienes un abanico adicional debido a la incertidumbre de la pendiente, entre ellos produciendo la forma hiperbólica característica de tus parcelas.x¯
Esa es la intuición.
Ahora, si lo desea, podemos considerar un poco de álgebra (pero no es esencial):
En realidad, es la raíz cuadrada de la suma de los cuadrados de esos dos efectos; puede verlo en la fórmula del intervalo de confianza. Vamos a construir las piezas:
El error estándar de conocido es (recuerda aquí es el valor esperado de en la media de , no la intersección de costumbre, es sólo un error estándar de la media). Ese es el error estándar de la posición de la línea en la media ( ).abσ/n−−√ayxx¯
El error estándar con conocido es . El efecto de la incertidumbre en la pendiente en algún valor se multiplica por qué tan lejos está de la media ( ) (porque el cambio en el nivel es el cambio en la pendiente por la distancia que se mueve), dando .baσ/∑ni=1(xi−x¯)2−−−−−−−−−−−√x∗x∗−x¯(x∗−x¯)⋅σ/∑ni=1(xi−x¯)2−−−−−−−−−−−√
Ahora bien, el efecto general es la raíz cuadrada de la suma de los cuadrados de las dos cosas (¿por qué? Porque varianzas de las cosas no correlacionados se suman, y si usted escribe su línea en el forma , las estimaciones de y no están correlacionados Así que el error estándar global es la raíz cuadrada de la varianza total, y la varianza es la suma de las varianzas de los componentes. - es decir, tenemosy=a+b(x−x¯)ab
(σ/n−−√)2+[(x∗−x¯)⋅σ/∑ni=1(xi−x¯)2−−−−−−−−−−−√]2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
Una pequeña manipulación simple da el término habitual para el error estándar de la estimación del valor medio en :x∗
σ1n+(x∗−x¯)2∑ni=1(xi−x¯)2−−−−−−−−−−−−√
Si dibujas eso en función de , verás que forma una curva (parece una sonrisa) con un mínimo en , que se hace más grande a medida que te mueves. Eso es lo que se agrega / resta de la línea ajustada (bueno, es un múltiplo para obtener el nivel de confianza deseado).x∗x¯
[Con intervalos de predicción, también existe la variación en la posición debido a la variabilidad del proceso; esto agrega otro término que desplaza los límites hacia arriba y hacia abajo, haciendo una extensión mucho más amplia, y debido a que ese término generalmente domina la suma debajo de la raíz cuadrada, la curvatura es mucho menos pronunciada.]