¿Cómo entender los residuos estandarizados en el análisis de regresión?

De acuerdo con el Análisis de regresión por ejemplo , el residuo es la diferencia entre la respuesta y el valor pronosticado, luego se dice que cada residuo tiene una varianza diferente, por lo que debemos considerar los residuos estandarizados.

Pero la varianza es para un grupo de valores, ¿cómo podría un solo valor tener varianza?

regression residuals

— ccshao
fuente

Sería útil citar el libro de texto directamente o (si está disponible en línea) proporcionar un enlace a él. Se puede perder mucho si incluso una sola palabra se saca de orden o fuera de contexto. (Por ejemplo, los residuos se definen generalmente como la diferencia entre la predicción y la respuesta, no la forma en sí alrededor.)

— whuber

Las variables aleatorias individuales tienen variaciones. Los residuos son variables aleatorias, son funciones de los datos. Entonces, los residuos individuales (estandarizados o no) tienen variaciones.

— invitado

#whuber El libro de texto es "Regresión.Análisis.por.Ejemplo", página, 89. Discutió tipos de residuos. El residuo ordinario es la predicción de respuesta. @guest "Las variables aleatorias individuales tienen variaciones", esto es lo que no entiendo, las variables son una propiedad de una muestra, ¿no? ¿Por qué el valor único en una muestra (como un residual) tiene varianza?

— ccshao

¿El libro tiene un autor ...? Eso generalmente hace que sea más fácil de encontrar. Creo que se está confundiendo la varianza de la muestra y la varianza de la población. El residuo se desconoce antes de que se lleve a cabo el experimento. La respuesta es aleatoria y también lo es el residual, ya que es una función de la respuesta. Cuando hablamos de la varianza del residual, hablamos de la varianza de la variable aleatoria subyacente.

— MånsT

disculpe las molestias, los autores son SAMPRIT CHATTEFUEE y ALI S. HADI, Análisis de regresión por ejemplo, cuarta edición.

— ccshao

Diría que un número individual (como un residual), que resultó de un sorteo aleatorio de una distribución de probabilidad, es un valor realizado , no una variable aleatoria . Del mismo modo, diría que el conjunto de residuos, calculados a partir de sus datos y su ajuste de modelo usando , es un conjunto de valores realizados. Este conjunto de números se puede conceptualizar libremente como sorteos independientes de una distribución subyacente ~ . (Desafortunadamente, hay varias complejidades adicionales aquí. Por ejemplo, en realidad no tiene $N$ $\bf{e}=\bf{y}-\bf{\hat{y}}$ $\epsilon$ $\mathcal{N}(\mu,\sigma^2)$ $N$ piezas de información independientes, porque los residuos, , deben cumplir dos condiciones: y ) $\bf{e}$ $\sum e_i=0$ $\sum x_ie_i=0$

$\sum(e_i-\bar{e})^2/N$ $N$ $x$

$x$

— gung - Restablece a Monica
fuente

¡Gracias! El apalancamiento es lo que no entiendo antes. No existe o tiene poco efecto de regresión para los datos que tienen x cerca de avg (x), por lo tanto, una gran varianza.

— ccshao