Sesgo variable omitido en regresión lineal

Tengo una pregunta filosófica con respecto al sesgo variable omitido.

Tenemos el modelo de regresión típico (modelo de población) donde provienen las muestras , y luego un montón de condiciones por las cuales las estimaciones de OLS se comportan bastante bien.

Y = β_{0} + β_{1} X_{1} + . . . + β_{n} X_{n} + υ,

$Y= \beta_0 + \beta_1X_1 + ... + \beta_nX_n + \upsilon,$

(Y, X_{1}, . . ., X_{n})

$(Y,X_1,...,X_n)$

Entonces sabemos que, si omitimos una de las principales variables, , esto podría sesgar las estimaciones de . Esto afectaría, al menos, el efecto estimado del resto de las variables en , y también las pruebas de hipótesis sobre , ya que los valores pronosticados no son confiables. $X_k$ $\beta_0, \beta_1, ..., \beta_{k-1}, \beta_{k+1}, ..., \beta_n$ $Y$ $\beta_1, \beta_2, ...$

La cuestión es que no sabemos qué variables están en el modelo de población real. En cambio, tenemos un grupo de candidatos de los que debemos analizar y encontrar el subconjunto más apropiado. Este proceso de selección de variables utiliza estimaciones OLS y pruebas de hipótesis nuevamente. En base a eso, rechazamos o incluimos diferentes variables. Pero dado que cada modelo candidato omite variables relevantes (nunca podrá encontrar el modelo verdadero), ¿estas decisiones no se basarían en resultados sesgados? ¿Por qué entonces, debemos confiar en ellos?

(Estoy pensando en el método paso a paso hacia adelante, por ejemplo, donde eliges una variable y luego agregas el resto. Comparas los modelos haciendo inferencia, y estoy pensando que las variables omitidas pueden estar perturbando todo).

Nunca me preocupé demasiado por este tema hasta que comencé a pensarlo, y estoy seguro de que estoy equivocado en alguna parte.

— Josu Momediano
fuente

En la parte samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.es que realmente lo que quisiste decir o se cortó parte de tu oración. También tiene un error ortográfico en el título de la pregunta.

— Andy W

Sí, quise decir eso. Tienes la muestra / observaciones, y luego las condiciones (Gauss-Markov), que garantizan que los estimadores sean los mejores sin sesgos, etc.

— Josu Momediano

Como nota al margen, es muy poco probable que los métodos de selección por pasos (como el avance por pasos) seleccionen el modelo que debería estar utilizando. Si esto no tiene sentido, puede leer mi respuesta aquí: algoritmos para la selección automática de modelos .

— gung - Restablece a Monica

Pero sea cual sea el método que utilice (experiencia incluida), comienza desde 0 y tiene el 100% del problema del que hablo ... Es como si el sesgo variable omitido estuviera siempre presente

— Josu Momediano

Tienes razón en preocuparte. Mucha inferencia se basa en el supuesto de que tenemos el modelo verdadero. He estado ejecutando regresiones durante mucho tiempo y nunca he tenido el verdadero modelo. Para mis propósitos, rara vez tiene sentido siquiera pensar que existe un verdadero modelo. En cambio, pregúntese cuáles son los objetivos de su modelado (predicción en muestra, predicción fuera de muestra, estimación del efecto causal promedio de x3, resumen de datos, etc.) porque sus objetivos indicarán qué estrategias de modelado son las mejores.

— Michael Bishop

El problema principal aquí es la naturaleza del sesgo variable omitido . Wikipedia dice:

Deben cumplirse dos condiciones para que exista sesgo de variable omitida en regresión lineal:

la variable omitida debe ser un determinante de la variable dependiente (es decir, su coeficiente de regresión verdadero no es cero); y

la variable omitida debe estar correlacionada con una o más de las variables independientes incluidas (es decir, cov (z, x) no es igual a cero).

Es importante tener en cuenta cuidadosamente el segundo criterio. Sus betas solo estarán sesgadas bajo ciertas circunstancias. Específicamente, si hay dos variables que contribuyen a la respuesta que están correlacionadas entre sí, pero solo incluye una de ellas, entonces (en esencia) los efectos de ambas se atribuirán a la variable incluida, causando sesgo en la estimación de ese parámetro Entonces, tal vez solo algunas de sus versiones beta estén sesgadas, no necesariamente todas.

Otra posibilidad inquietante es que si su muestra no es representativa de la población (que rara vez lo es realmente), y omite una variable relevante, incluso si no está correlacionada con las otras variables, esto podría causar un desplazamiento vertical que sesga su estimación de la interceptar. Por ejemplo, imagine una variable, , aumenta el nivel de la respuesta, y que su muestra se extrae de la mitad superior de la distribución , pero no está incluida en su modelo. Luego, su estimación de la respuesta media de la población (y la intercepción) tendrá un sesgo alto a pesar del hecho de que no está correlacionado con las otras variables. Además, existe la posibilidad de que haya una interacción entre $Z$ $Z$ $Z$ $Z$ $Z$ y variables en su modelo. Esto también puede causar un sesgo sin que esté correlacionado con sus variables (discuto esta idea en mi respuesta aquí ). $Z$

Ahora, dado que en su estado de equilibrio, todo está correlacionado en última instancia con todo en el mundo, podríamos encontrar todo esto muy preocupante. De hecho, cuando se realiza una investigación observacional, es mejor asumir siempre que cada variable es endógena .

Sin embargo, hay límites para esto (cf. Desigualdad de Cornfield ). Primero, realizar experimentos verdaderos rompe la correlación entre una variable focal (el tratamiento) y cualquier otra variable explicativa relevante pero no observada. Existen algunas técnicas estadísticas que pueden usarse con datos de observación para dar cuenta de tales confusiones no observadas (prototípicamente: regresión de variables instrumentales , pero también otras).

Dejando a un lado estas posibilidades (probablemente representan una minoría de enfoques de modelado), ¿cuál es la perspectiva a largo plazo para la ciencia? Esto depende de la magnitud del sesgo y del volumen de investigación exploratoria que se realiza. Incluso si los números están algo apagados, a menudo pueden estar en el vecindario, y lo suficientemente cerca como para descubrir relaciones. Luego, a la larga, los investigadores pueden aclarar qué variables son relevantes. De hecho, los modeladores a veces intercambian explícitamente un mayor sesgo por una menor variación en las distribuciones de muestreo de sus parámetros (cf, mi respuesta aquí ). A corto plazo, vale la pena recordar siempre la famosa cita de Box:

Todos los modelos están equivocados, pero algunos son útiles.

Aquí también hay una pregunta filosófica potencialmente más profunda: ¿qué significa que la estimación está sesgada? ¿Cuál se supone que es la respuesta "correcta"? Si reúne algunos datos de observación sobre la asociación entre dos variables (llámelas $X$ Y $Y$ ), lo que está obteniendo es, en última instancia, la correlación marginal entre esas dos variables. Este es solo el número 'incorrecto' si cree que está haciendo otra cosa y está obteniendo la asociación directa. Del mismo modo, en un estudio para desarrollar un modelo predictivo, lo que le interesa es si, en el futuro, podrá adivinar con precisión el valor de un desconocido $Y$ de un conocido $X$ . Si puedes, no importa si eso es (en parte) porque $X$ está correlacionado con $Z$ que está contribuyendo al valor resultante de $Y$ . Querías poder predecir $Y$ , y tu puedes.

— gung - Restablece a Monica
fuente