La respuesta corta es sí.
En primer lugar (como señala Ruben van Bergen), la distribución de (o , para el caso) no es relevante. Si tuviera que hacer una suposición de distribución, estaría en sus residuos , así que eso es lo que debe verificar.yXε
Pero lo que es más importante, no necesita la suposición de normalidad para que su estimación funcione. Está utilizando la lm
función de R , que estima su modelo utilizando mínimos cuadrados ordinarios (MCO) . Ese método le dará una estimación correcta de la expectativa de condicional en siempre que:YX
- E[ε|X]=0 (no existe un factor externo que afecte tanto su resultado como sus variables explicativas).
- Var(ε)<∞ (sus residuos tienen una variación finita).
Si además asume que sus residuos no están correlacionados y que todos tienen la misma varianza, entonces se aplica el teorema de Gauss-Markov y el MCO es el mejor estimador imparcial lineal (AZUL).
Si sus residuos están correlacionados o tienen diferentes variaciones, entonces OLS aún funciona, pero puede ser menos preciso, lo que debe reflejarse en la forma en que informa los intervalos de confianza de sus estimaciones (usando, por ejemplo , errores estándar robustos ).
Si también supone que sus residuos se distribuyen normalmente, entonces OLS se vuelve asintóticamente eficiente porque es equivalente a la máxima probabilidad.
Por lo tanto, la regresión puede funcionar mejor si sus datos se distribuyen normalmente, pero seguirá funcionando si no lo están.