El análisis de regresión responde a la pregunta, "¿Cuál es el valor PROMEDIO Y para aquellos que han dado valores X?" o, equivalentemente, "¿Cuánto se predice que Y cambiará EN PROMEDIO si cambiamos X por una unidad?" El error de medición aleatorio no cambia los valores promedio de una variable, o los valores promedio para subconjuntos de individuos, por lo que el error aleatorio en la variable dependiente no sesgará las estimaciones de regresión.
Digamos que tiene datos de altura en una muestra de individuos. Estas alturas se miden con mucha precisión y reflejan con exactitud la verdadera estatura de todos. Dentro de la muestra, el promedio para los hombres es de 175 cm y el promedio para las mujeres es de 162 cm. Si usa la regresión para calcular qué tan bien el género predice la altura, estima el modelo
HEIGHT=CONSTANT+β∗GENDER+RESIDUAL
Si las mujeres se codifican como 0 y los hombres como 1, es el promedio femenino, o 162 cm. El coeficiente de regresión muestra cuánto cambia la altura EN PROMEDIO cuando cambia en una unidad (de 0 a 1). es igual a 13 porque las personas cuyo valor para es 0 (mujeres) tienen una altura media de 162 cm, mientras que las personas cuyo valor para es 1 (hombres) tienen una altura media de 175 cm; estima la diferencia promedio entre las alturas de hombres y mujeres, que es de 13 cm. ( refleja la variación de altura dentro del género).CONSTANTβGENDERβGENDERGENDERβRESIDUAL
Ahora, si agrega al azar -1 cm o +1 cm a la altura real de todos, ¿qué sucederá? Las personas cuya altura real es, digamos, 170 cm ahora serán reportadas como 169 o 171 cm. Sin embargo, el promedio de la muestra, o cualquier submuestra, no cambiará. Aquellos cuya altura real es 170 cm promediarán 170 cm en el nuevo conjunto de datos erróneo, las mujeres promediarán 162 cm, etc. Si vuelve a ejecutar el modelo de regresión especificado anteriormente utilizando este nuevo conjunto de datos, el valor (esperado) de no cambiará porque la diferencia promedio entre hombres y mujeres sigue siendo de 13 cm, independientemente del error de medición. (El error estándar de será mayor que antes porque la varianza de la variable dependiente ahora es mayor).ββ
Si hay un error de medición en la variable independiente en lugar de la variable dependiente, será una estimación sesgada. Esto es fácil de entender cuando considera el ejemplo de altura. Si hay un error de medición aleatorio en la variable , algunos hombres se codificarán erróneamente como mujeres y viceversa. El efecto de esto es reducir las diferencias aparentes de género en la altura, porque mover a los hombres al grupo femenino hará que la media femenina sea mayor, mientras que mover a las mujeres al grupo masculino hará que la media masculina sea más pequeña. Con un error de medición en la variable independiente, será menor que el valor imparcial de 13 cm.βGENDERβ
Si bien utilicé una variable independiente categórica ( ) para simplificar aquí, la misma lógica se aplica a las variables continuas. Por ejemplo, si utilizó una variable continua como la altura de nacimiento para predecir la altura de un adulto, el valor esperado de sería el mismo independientemente de la cantidad de error aleatorio en las mediciones de altura de un adulto.GENDERβ