La banda gris es una banda de confianza para la línea de regresión. No estoy lo suficientemente familiarizado con ggplot2 para saber con certeza si es una banda de confianza 1 SE o una banda de confianza del 95%, pero creo que es la primera ( Editar: evidentemente, es un IC del 95% ). Una banda de confianza proporciona una representación de la incertidumbre sobre su línea de regresión. En cierto sentido, se podría pensar que la verdadera línea de regresión es tan alta como la parte superior de esa banda, tan baja como la parte inferior o que se mueve de manera diferente dentro de la banda. (Tenga en cuenta que esta explicación pretende ser intuitiva, y no es técnicamente correcta, pero la explicación correcta es difícil de seguir para la mayoría de las personas).
Debe usar la banda de confianza para ayudarlo a comprender / pensar sobre la línea de regresión. No debe usarlo para pensar en los puntos de datos sin procesar. Recuerde que la línea de regresión representa la media de en cada punto de X (si necesita comprender esto más completamente, puede ayudarlo a leer mi respuesta aquí: ¿Cuál es la intuición detrás de las distribuciones gaussianas condicionales? ). Por otro lado, ciertamente no espera que todos los puntos de datos observados sean iguales a la media condicional. En otras palabras, no debe usar la banda de confianza para evaluar si un punto de datos es un valor atípico. YX
( Editar: esta nota es periférica a la pregunta principal, pero busca aclarar un punto para el OP ) .
Una regresión polinómica no es una regresión no lineal, aunque lo que obtienes no parece una línea recta. El término 'lineal' tiene un significado muy específico en un contexto matemático, específicamente, que los parámetros que está estimando, las betas, son todos coeficientes. Una regresión polinómica solo significa que sus covariables son , X 2 , X 3 , etc., es decir, tienen una relación no lineal entre sí, pero sus betas siguen siendo coeficientes, por lo que sigue siendo un modelo lineal. Si sus betas fueran, por ejemplo, exponentes, entonces tendría un modelo no lineal. XX2X3
En resumen, si una línea parece recta o no tiene nada que ver con si un modelo es lineal o no. Cuando ajusta un modelo polinomial (digamos con y X 2 ), el modelo no 'sabe' que, por ejemplo, X 2 es en realidad solo el cuadrado de X 1 . "Piensa" que estas son solo dos variables (aunque puede reconocer que existe cierta multicolinealidad). Así, en verdad conviene una regresión (recto / plana) plano en un espacio de tres dimensiones en lugar de una regresión (curva) de línea en un espacio de dos dimensiones. No es útil para nosotros pensar y, de hecho, es extremadamente difícil de ver desde X 2XX2X2X1X2es una función perfecta de . Como resultado, no nos molestamos en pensarlo de esta manera y nuestras gráficas son realmente proyecciones bidimensionales en el plano ( X , Y ) . No obstante, en el espacio apropiado, la línea es en realidad "recta" en algún sentido. X( X, Y )
Desde una perspectiva matemática, un modelo es lineal si los parámetros que intenta estimar son coeficientes. Para aclarar más, considere la comparación entre el modelo de regresión lineal estándar (MCO) y un modelo de regresión logística simple presentado en dos formas diferentes:
ln ( π ( Y )
Y= β0 0+ β1X+ ε
En( π( Y)1 - π( Y)) = β0 0+ β1X
π( Y) = exp( β0 0+ β1X)1 + exp( β0 0+ β1X)
βββDiferencia entre modelos logit y probit .)