¿Por qué la estimación de OLS implica tomar desviaciones verticales de los puntos a la línea en lugar de distancias horizontales?
¿Por qué la estimación de OLS implica tomar desviaciones verticales de los puntos a la línea en lugar de distancias horizontales?
Respuestas:
OLS ( mínimos cuadrados ordinarios ) supone que los valores representados por las distancias horizontales están predeterminados por el experimentador o medidos con alta precisión (en relación con las distancias verticales). Cuando existe una cuestión de incertidumbre en las distancias horizontales, no debe usar OLS, sino que debe buscar modelos de errores en variables o, posiblemente, análisis de componentes principales .
Interesante pregunta. Mi respuesta sería que cuando estamos ajustando un modelo OLS estamos tratando implícita y principalmente de predecir / explicar la variable dependiente en cuestión: la "Y" en la "Y vs X". Como tal, nuestra principal preocupación sería minimizar la distancia desde nuestra línea ajustada hasta las observaciones reales con respecto al resultado, lo que significa minimizar la distancia vertical. Esto, por supuesto, define los residuos.
Además, las fórmulas de mínimos cuadrados son más fáciles de derivar que la mayoría de los otros métodos competidores, lo que quizás es la razón por la que surgió primero. :PAG
Como 'whuber' alude anteriormente, hay otros enfoques que tratan a X e Y con igual énfasis cuando se ajusta una línea de mejor ajuste. Un enfoque de este tipo que conozco es la regresión de "líneas principales" o "curvas principales", que minimiza las distancias ortogonales entre los puntos y la línea (en lugar de líneas de error verticales, tiene unas a 90 grados de la línea ajustada) . Publico una referencia a continuación para su lectura. Es largo pero muy accesible y esclarecedor.
Espero que esto ayude, Brenden
Posiblemente también se relaciona con experimentos diseñados: si x es una cantidad controlada que forma parte del diseño experimental, se trata como determinista; mientras que y es el resultado, y es una cantidad aleatoria. x podría ser una cantidad continua (p. ej., concentración de algún fármaco) pero podría ser una división 0/1 (lo que llevaría a una prueba t de 2 muestras suponiendo que y es gaussiano). Si x es una cantidad continua, puede haber algún error de medición, pero típicamente si es mucho más pequeño que la variabilidad de y, esto se ignora.