'Y debe estar normalmente distribuido'
¿debe?
En los casos que usted menciona, es un lenguaje descuidado (abreviando 'el error en Y debe estar distribuido normalmente' ), pero en realidad no dicen (fuertemente) que la respuesta debe estar distribuida normalmente, o al menos no parece yo que sus palabras fueron pensadas así.
El material del curso de Penn State
YYiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
YYi
YiY
La página web de statssolutions
es una descripción extremadamente breve, simplificada y estilizada. No estoy seguro de que deba tomar esto en serio. Por ejemplo, habla de
... requiere que todas las variables sean multivariadas normales ...
entonces esa no es solo la variable de respuesta,
y también el descriptor 'multivariante' es vago. No estoy seguro de cómo interpretar eso.
El artículo de wikipedia
tiene un contexto adicional explicado entre paréntesis:
La regresión lineal ordinaria predice el valor esperado de una cantidad desconocida dada (la variable de respuesta, una variable aleatoria) como una combinación lineal de un conjunto de valores observados (predictores) . Esto implica que un cambio constante en un predictor conduce a un cambio constante en la variable de respuesta (es decir, un modelo de respuesta lineal). Esto es apropiado cuando la variable de respuesta tiene una distribución normal (intuitivamente, cuando una variable de respuesta puede variar esencialmente indefinidamente en cualquier dirección sin un "valor cero" fijo, o más generalmente para cualquier cantidad que solo varía en una cantidad relativamente pequeña, por ejemplo, humana alturas).
y+ϵϵ∼N(0,σ)
La línea particular se agregó el 8 de marzo de 2012 , pero tenga en cuenta que la primera línea del artículo de Wikipedia todavía dice "una generalización flexible de la regresión lineal ordinaria que permite variables de respuesta que tienen modelos de distribución de errores distintos de una distribución normal" y no es tanto (no en todas partes) mal.
Conclusión
Entonces, en base a estos tres ejemplos (que de hecho podrían generar conceptos erróneos, o al menos podrían malinterpretarse), no diría que "este concepto erróneo se ha extendido" . O al menos no me parece que la intención de esos tres ejemplos sea argumentar que Y debe estar normalmente distribuido (aunque sí recuerdo que este problema ha surgido antes aquí en stackexchange, el intercambio entre los errores normalmente distribuidos y la variable de respuesta normalmente distribuida es fácil de hacer)
Por lo tanto, la suposición de que 'Y debe distribuirse normalmente' no me parece una creencia / idea errónea generalizada (como en algo que se propaga como un arenque rojo), sino más bien un error común (que no se propaga sino que se hace de forma independiente cada vez )
Comentario adicional
Un ejemplo del error en este sitio web está en la siguiente pregunta
¿Qué pasa si los residuos se distribuyen normalmente, pero y no?
Consideraría esto como una pregunta para principiantes. No está presente en los materiales como el material del curso de Penn State, el sitio web de Wikipedia, y recientemente señaló en los comentarios el libro 'Extendiendo la regresión lineal con R'.
Los escritores de esas obras entienden correctamente el material. De hecho, usan frases como 'Y debe estar distribuido normalmente', pero según el contexto y las fórmulas utilizadas, puede ver que todas significan 'Y, condicional a X, deben estar distribuidas normalmente' y no 'el Y marginal debe estar normalmente distribuido ". No están malinterpretando la idea ellos mismos, y al menos la idea no está muy extendida entre los estadísticos y las personas que escriben libros y otros materiales del curso. Pero leer mal sus palabras ambiguas puede causar la idea errónea.