¿La regresión funciona en datos que normalmente no se distribuyen?

histograma de mis datos

Estoy tratando de ver si las variables x e y juntas o por separado afectan significativamente Q_7 (el histograma para el cual está arriba). He realizado una prueba de normalidad de Shapiro-Wilk y obtuve lo siguiente

shapiro.test(Q_7)
## data:  Q_7
## W = 0.68439, p-value < 2.2e-16

Con esta distribución, ¿funcionará la siguiente regresión? ¿O hay otra prueba que debería hacer?

lm(Q_7 ~ x*y)

regression assumptions

— kjetil b halvorsen
fuente

verificar residuos, no datos

— 李哲源

Intenta transformar el registro Q_7. Por el momento está muy sesgada a la derecha. Verifique también las distribuciones de los predictores.

— Joe

Busque el teorema de Gauss Markov.

— G. Grothendieck

Prueba con la transformación de raíz cuadrada. Si tiene muchos ceros, la transformación del registro puede no funcionar bien. Además, dado que se trata de recuentos, la regresión binomial negativa de Poisson son opciones más naturales.

— utobi

¿Qué significa "sin datos"?

— Silverfish

Respuestas:

Un análisis de regresión supone que los datos se distribuyen normalmente condicionados a las variables en el modelo de regresión . Es decir, si este es el modelo de regresión: donde es su matriz de variables regresoras, es el (vector de) datos a explicar, es un vector de coeficientes en los regresores y es una variabilidad aleatoria (típicamente considerada ruido), entonces el supuesto de Normalidad se aplica estrictamente a , no a (editar: bueno, estrictamente hablando, se aplica a la distribución condicional

y = X β + ε

$y=X\beta+\varepsilon$

X

$X$

y

$y$

β

$\beta$

ε

$\varepsilon$

ε

$\varepsilon$

y

$y$

y | X

$y|X$ (que es lo mismo que la distribución de ), pero no a la distribución marginal de ). En otras palabras, los datos deben distribuirse normalmente una vez que se han tenido en cuenta los efectos de los regresores, pero no (necesariamente) antes.

ε

$\varepsilon$

y

$y$

Lo que está probando aquí es la distribución de , donde lo que desea probar es la distribución de . Por supuesto, no conoce , pero puede estimarlo ejecutando la regresión y examinando la distribución de los residuos (donde son los coeficientes estimados de la regresión) . Estos residuos son una estimación de , por lo que su distribución será una aproximación de la distribución de . $y$ $\varepsilon$ $\varepsilon$ $\hat\varepsilon=y-X\hat\beta$ $\hat\beta$ $\hat\varepsilon$ $\varepsilon$ $\varepsilon$

— Ruben van Bergen
fuente

Este es un buen resumen rápido de cosas estándar, pero parece perder una característica clave de esta pregunta, que es que con una respuesta sesgada pero no nula, es poco probable que esta forma funcional sea una buena idea. Para evitar predicciones negativas, y por otros motivos, la regresión de Poisson parece un mejor punto de partida.

— Nick Cox

La respuesta corta es sí.

En primer lugar (como señala Ruben van Bergen), la distribución de (o , para el caso) no es relevante. Si tuviera que hacer una suposición de distribución, estaría en sus residuos , así que eso es lo que debe verificar. $y$ $X$ $\varepsilon$

Pero lo que es más importante, no necesita la suposición de normalidad para que su estimación funcione. Está utilizando la lmfunción de R , que estima su modelo utilizando mínimos cuadrados ordinarios (MCO) . Ese método le dará una estimación correcta de la expectativa de condicional en siempre que: $Y$ $X$

$\mathbb{E}[\varepsilon|X] = 0$ (no existe un factor externo que afecte tanto su resultado como sus variables explicativas).
$\mathrm{Var}(\varepsilon) < \infty$ (sus residuos tienen una variación finita).

Si además asume que sus residuos no están correlacionados y que todos tienen la misma varianza, entonces se aplica el teorema de Gauss-Markov y el MCO es el mejor estimador imparcial lineal (AZUL).

Si sus residuos están correlacionados o tienen diferentes variaciones, entonces OLS aún funciona, pero puede ser menos preciso, lo que debe reflejarse en la forma en que informa los intervalos de confianza de sus estimaciones (usando, por ejemplo , errores estándar robustos ).

Si también supone que sus residuos se distribuyen normalmente, entonces OLS se vuelve asintóticamente eficiente porque es equivalente a la máxima probabilidad.

Por lo tanto, la regresión puede funcionar mejor si sus datos se distribuyen normalmente, pero seguirá funcionando si no lo están.

— Thomas
fuente