El problema principal aquí es la naturaleza del sesgo variable omitido . Wikipedia dice:
Deben cumplirse dos condiciones para que exista sesgo de variable omitida en regresión lineal:
- la variable omitida debe ser un determinante de la variable dependiente (es decir, su coeficiente de regresión verdadero no es cero); y
- la variable omitida debe estar correlacionada con una o más de las variables independientes incluidas (es decir, cov (z, x) no es igual a cero).
Es importante tener en cuenta cuidadosamente el segundo criterio. Sus betas solo estarán sesgadas bajo ciertas circunstancias. Específicamente, si hay dos variables que contribuyen a la respuesta que están correlacionadas entre sí, pero solo incluye una de ellas, entonces (en esencia) los efectos de ambas se atribuirán a la variable incluida, causando sesgo en la estimación de ese parámetro Entonces, tal vez solo algunas de sus versiones beta estén sesgadas, no necesariamente todas.
Otra posibilidad inquietante es que si su muestra no es representativa de la población (que rara vez lo es realmente), y omite una variable relevante, incluso si no está correlacionada con las otras variables, esto podría causar un desplazamiento vertical que sesga su estimación de la interceptar. Por ejemplo, imagine una variable, , aumenta el nivel de la respuesta, y que su muestra se extrae de la mitad superior de la distribución , pero no está incluida en su modelo. Luego, su estimación de la respuesta media de la población (y la intercepción) tendrá un sesgo alto a pesar del hecho de que no está correlacionado con las otras variables. Además, existe la posibilidad de que haya una interacción entreZZZZZy variables en su modelo. Esto también puede causar un sesgo sin que esté correlacionado con sus variables (discuto esta idea en mi respuesta aquí ). Z
Ahora, dado que en su estado de equilibrio, todo está correlacionado en última instancia con todo en el mundo, podríamos encontrar todo esto muy preocupante. De hecho, cuando se realiza una investigación observacional, es mejor asumir siempre que cada variable es endógena .
Sin embargo, hay límites para esto (cf. Desigualdad de Cornfield ). Primero, realizar experimentos verdaderos rompe la correlación entre una variable focal (el tratamiento) y cualquier otra variable explicativa relevante pero no observada. Existen algunas técnicas estadísticas que pueden usarse con datos de observación para dar cuenta de tales confusiones no observadas (prototípicamente: regresión de variables instrumentales , pero también otras).
Dejando a un lado estas posibilidades (probablemente representan una minoría de enfoques de modelado), ¿cuál es la perspectiva a largo plazo para la ciencia? Esto depende de la magnitud del sesgo y del volumen de investigación exploratoria que se realiza. Incluso si los números están algo apagados, a menudo pueden estar en el vecindario, y lo suficientemente cerca como para descubrir relaciones. Luego, a la larga, los investigadores pueden aclarar qué variables son relevantes. De hecho, los modeladores a veces intercambian explícitamente un mayor sesgo por una menor variación en las distribuciones de muestreo de sus parámetros (cf, mi respuesta aquí ). A corto plazo, vale la pena recordar siempre la famosa cita de Box:
Todos los modelos están equivocados, pero algunos son útiles.
Aquí también hay una pregunta filosófica potencialmente más profunda: ¿qué significa que la estimación está sesgada? ¿Cuál se supone que es la respuesta "correcta"? Si reúne algunos datos de observación sobre la asociación entre dos variables (llámelasX Y Y), lo que está obteniendo es, en última instancia, la correlación marginal entre esas dos variables. Este es solo el número 'incorrecto' si cree que está haciendo otra cosa y está obteniendo la asociación directa. Del mismo modo, en un estudio para desarrollar un modelo predictivo, lo que le interesa es si, en el futuro, podrá adivinar con precisión el valor de un desconocidoY de un conocido X. Si puedes, no importa si eso es (en parte) porqueX está correlacionado con Z que está contribuyendo al valor resultante de Y. Querías poder predecirY, y tu puedes.
samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.
es que realmente lo que quisiste decir o se cortó parte de tu oración. También tiene un error ortográfico en el título de la pregunta.