Asisto a una clase de análisis de datos y algunas de mis ideas bien enraizadas están siendo sacudidas. A saber, la idea de que el error (épsilon), así como cualquier otro tipo de variación, solo se aplica (por lo que pensé) a un grupo (una muestra o población completa). Ahora, se nos enseña que uno de los supuestos de regresión es que la varianza es "la misma para todos los individuos". Esto es de alguna manera impactante para mí. Siempre pensé que se suponía que era la varianza en Y entre todos los valores de X que era constante.
Tuve una conversación con el profesor, quien me dijo que cuando hacemos una regresión, asumimos que nuestro modelo es verdadero. Y creo que esa es la parte difícil. Para mí, el término de error (épsilon) siempre significó algo así como "cualquier elemento que no conozcamos y que pueda afectar nuestra variable de resultado, más algún error de medición". En la forma en que se enseña la clase, no existe tal cosa como "otras cosas"; Se supone que nuestro modelo es verdadero y completo. Esto significa que toda variación residual debe considerarse como un producto del error de medición (por lo tanto, se espera que medir a un individuo 20 veces produzca la misma variación que medir 20 individuos una vez).
Siento que algo está mal en alguna parte, me gustaría tener una opinión experta sobre esto ... ¿Hay algún lugar para la interpretación de cuál es el término de error, conceptualmente hablando?