¿Qué significa tener "varianza constante" en un modelo de regresión lineal?

¿Qué significa tener "varianza constante" en el término de error? A mi entender, tenemos datos con una variable dependiente y una variable independiente. La varianza constante es uno de los supuestos de la regresión lineal. Me pregunto qué significa la homocedasticidad. Dado que incluso si tengo 500 filas, tendría un solo valor de varianza que obviamente es constante. ¿Con qué variable debo comparar la varianza?

regression heteroscedasticity

— Mukul
fuente

Significa que cuando traza el error individual contra el valor predicho, la varianza del valor predicho del error debe ser constante. Vea las flechas rojas en la imagen de abajo, la longitud de las líneas rojas (un proxy de su varianza) es la misma.

ingrese la descripción de la imagen aquí

— Penguin_Knight
fuente

Entendido.!! Pero dado que es una suposición, no necesitamos validar la suposición antes de ejecutar el modelo. ¿Y por qué necesitamos esta suposición

— Mukul

Algunas suposiciones solo se pueden probar después de ejecutar el modelo. Calcular un modelo es solo matemática y no es lo mismo que interpretar un modelo.

— John

El rango no es igual a la variación Penguin Knight, por lo que es posible que desee actualizar su redacción aquí.

— John

Si su suposición de varianza es incorrecta, generalmente significará que los errores estándar son incorrectos y cualquier prueba de hipótesis podría sacar conclusiones erróneas. (Un John diferente)

— John

Yo difiero un poco. No diría que la heterocedasticidad necesariamente significa que los errores estándar de sus betas están equivocados, sino que el estimador OLS ya no es el estimador imparcial más eficiente. Es decir, podría obtener más potencia / precisión si tuviera una varianza constante (tal vez debido a una transformación de Y) o si tuviera en cuenta con precisión la no constancia (tal vez a través del estimador de mínimos cuadrados generalizado).

— gung - Restablece a Monica

Este es un lugar donde he encontrado que mirar algunas fórmulas ayuda, incluso para personas con cierta ansiedad matemática (no estoy sugiriendo que lo hagas, necesariamente). El modelo de regresión lineal simple es este: Lo que es importante tener en cuenta aquí es que este modelo explícitamente Una vez que haya estimado la información significativa en los datos (que es " ") no queda más que ruido blanco. Además, los errores se distribuyen como Normal con una varianza de .

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ_{ε}^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2_\varepsilon)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

σ_{ε}^{2}

$\sigma^2_\varepsilon$

Es importante darse cuenta de que no es una variable (aunque en álgebra de secundaria, lo llamaríamos así). No varía varía. varía. El término de error, , varía al azar ; es decir, es una variable aleatoria . Sin embargo, los parámetros ( son marcadores de posición para valores que no conocemos, no varían. En cambio, son constantes desconocidas . El resultado de este hecho para esta discusión es que no importa qué es (es decir, qué valor está conectado allí), $\sigma^2_\varepsilon$ $X$ $Y$ $\varepsilon$ $\beta_0,~\beta_1,~\sigma^2_\varepsilon)$ $X$ $\sigma^2_\varepsilon$ sigue siendo el mismo. En otras palabras, la varianza de los errores / residuos es constante. En aras del contraste (y quizás una mayor claridad), considere este modelo: En este caso, conectamos un valor para (comenzando en la tercera línea) , pasarla a través de la función y obtener la varianza del error que se obtiene en ese valor exacto de . Luego nos movemos por el resto de la ecuación como de costumbre.

Y = β_{0} + β_{1} X + ε where ε \sim N (0, f (X)) where f (X) = \exp (γ_{0} + γ_{1} X) and γ_{1} \neq 0

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, f(X)) \\ ~ \\ \text{where } f(X)=\exp(\gamma_0+\gamma_1 X) \\ \text{and }\gamma_1\ne 0$

X

$X$

f (X)

$f(X)$

X

$X$

La discusión anterior debería ayudar a comprender la naturaleza del supuesto; la pregunta también pregunta cómo evaluarla . Básicamente hay dos enfoques: pruebas formales de hipótesis y examen de parcelas. Las pruebas de heteroscedasticidad se pueden usar si tiene datos experimentales (es decir, que solo ocurren a valores fijos de ) o un ANOVA. Discuto algunas de estas pruebas aquí: ¿Por qué la prueba de Levene de igualdad de varianzas en lugar de la relación F $X$ . Sin embargo, tiendo a pensar que mirar parcelas es lo mejor. @Penquin_Knight ha hecho un buen trabajo al mostrar cómo se ve la variación constante al trazar los residuos de un modelo donde se obtiene la homocedasticidad frente a los valores ajustados. La heterocedasticidad también puede detectarse en un gráfico de los datos sin procesar, o en un gráfico de ubicación de escala (también llamado nivel de dispersión). R convenientemente traza este último para usted con una llamada a plot.lm(model, which=2); es la raíz cuadrada de los valores absolutos de los residuos contra los valores ajustados, con una curva de baja superposición útil. Desea que el ajuste lowess sea plano, no inclinado.

Considere las gráficas a continuación, que comparan cómo podrían verse los datos homoscedastic vs.heteroscedastic en estos tres tipos diferentes de figuras. Tenga en cuenta la forma del embudo para las dos parcelas heteroscedásticas superiores, y la línea de pendiente inferior ascendente en la última.

ingrese la descripción de la imagen aquí

Para completar, aquí está el código que utilicé para generar estos datos:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

— gung - Restablece a Monica
fuente

gracias es muy útil ¿Puede explicar también por qué necesitamos esta suposición en un lenguaje laico

— Mukul

De nada, @Mukul. Se requiere el supuesto de homocedasticidad (varianza constante) para hacer que el estimador OLS (es decir, el software de procedimiento predeterminado utiliza para estimar betas) sea el procedimiento de estimación que producirá distribuciones de muestreo de betas que tienen los errores estándar más estrechos de todos los procedimientos de estimación que producen distribuciones de muestreo que se centran en el valor verdadero. Es decir, es necesario que el estimador OLS sea el estimador imparcial de varianza mínima .

— gung - Restablece a Monica

Si su variable de respuesta es binaria , se distribuirá como un binomio. Es decir, muchas partes del modelo de regresión lineal descrito anteriormente son inapropiadas. Uno de esos problemas es que, dado que la varianza de un binomio es una función de la media (media: , varianza: ), se viola el supuesto de homocedasticidad. Para comprender mejor estas cosas, puede ser útil leer mi respuesta aquí: diferencia entre modelos logit y probit , aunque fue escrita en un contexto diferente.

p

$p$

(p (1 - p)) / n)

$(p(1-p))/n)$

— gung - Restablece a Monica

@gung en su comentario, pone cursiva en todas las palabras en la frase estimador imparcial de varianza mínima. Entiendo que con la heterocedasticidad el estimador será menos eficiente (más varianza), pero ¿también se sesgará?

— user1205901 - Reinstale a Monica

@ user1205901, sigue siendo imparcial.

— gung - Restablece a Monica