¿Por qué los modelos de "error en X" no se usan más ampliamente?

Cuando se calcula el error estándar de un coeficiente de regresión, no tenemos en cuenta la aleatoriedad en la matriz de diseño . En OLS, por ejemplo, calculamos como $X$ $\text{var}(\hat{\beta})$ $\text{var}((X^TX)^{-1}X^TY) = \sigma^2(X^TX)^{-1}$

Si la se considerara aleatoria, la ley de la varianza total exigiría, en cierto sentido, la contribución adicional de la varianza de también. es decir $X$ $X$

var (\hat{β}) = var (E (\hat{β} | X)) + E (var (\hat{β} | X)) .

$\text{var}(\hat{\beta}) = \text{var}(E(\hat{\beta}|X)) + E(\text{var}(\hat{\beta}|X)).$

Que, si el estimador OLS es verdaderamente imparcial, el primer término desaparece ya que la expectativa es constante. El segundo término en realidad se convierte en: . $\sigma^2 \text{cov}(X)^{-1}$

Si se conoce un modelo paramétrico para , ¿por qué no reemplazamos con la estimación de covarianza real? Por ejemplo, si es una asignación de tratamiento aleatorizada, ¿debería la varianza binomial ser una estimación más eficiente? $X$ $X^TX$ $X$ $E(X)(1-E(X))$
¿Por qué no consideramos el uso de modelos no paramétricos flexibles para estimar las posibles fuentes de sesgo en la estimación de OLS y explicar adecuadamente la sensibilidad al diseño (es decir, la distribución de ) en el primer término de ley de la ley total ? $X$ $\text{var}(E(\hat{\beta}|X))$

— AdamO
fuente

¿Por qué una ley matemática "exige" algo? Utilizamos un modelo para razonar con datos para abordar objetivos particulares. Cuando estos deben comprender o predecir la respuesta condicional basada en un valor observado o medido la variación en tendría poco (si algo) que ver con la pregunta sustantiva; de hecho, incorporar esta variación en nuestros procedimientos parecería estar completamente equivocado, engañoso, o incluso sin sentido. Por lo tanto, responder a su pregunta se reduce a evaluar las frecuencias con las que se encuentran diferentes tipos de problemas estadísticos.

X,

$X,$

X

$X$

— Whuber

@whuber Mi enfoque está en la inferencia. La ley de la varianza total parece estar más en línea con la interpretación frecuentista de los resultados del estudio. A menudo hablamos de "si el estudio fuera replicado" ... sin tener en cuenta el hecho de que la distribución de podría diferir si el estudio fuera replicado. El balance de sexo podría ser del 40% en una muestra pero del 60% en otra simplemente como consecuencia aleatoria de cómo se obtuvo el estudio. Irónicamente, el bootstrap refleja esto pero no genera ninguna variabilidad en el resultado para una combinación particular de covariables.

X

$X$

— AdamO

En primer lugar, muchos estudios ponen bajo control experimental, por lo que ni siquiera es aleatorio. En segundo lugar, los estudios observacionales (donde es aleatorio) a menudo solo están interesados en la inferencia sobre la distribución condicional de Por lo tanto, centrarse en la inferencia no distingue una situación de la otra. Cuando la distribución completa (conjunta) es de interés, verá que muchas personas recurren a formas de análisis de correlación o varios procedimientos multivariados. No existe tal cosa como "la" rutina de arranque, porque en esta situación, la forma de volver a muestrear depende de sus objetivos y de su modelo.

X

$X$

X

$X$

Y .

$Y.$

— Whuber

@whuber El control experimental se asigna aleatoriamente en el punto de ingreso al estudio. Como mencioné, este es un caso convincente: digamos que la aleatorización es Bernoulli. ¿Por qué usar una estimación empírica de ? Utilice la probabilidad máxima: ? Tienes razón sobre bootstrap, me refería a bootstrap no paramétrico (incondicional) donde las "filas" de datos se muestrean con reemplazo.

cov (X) = X^{T} X

$\text{cov}(X) = X^TX$

cov (X) = E (X) (1 - E (X))

$\text{cov}(X) = E(X)(1-E(X))$

— AdamO

Fuera de los casos particulares, anómalos, realmente no importa si es aleatorio, lo que importa es si hay un error de medición en . Si es así, los métodos OLS conducirían a estimaciones sesgadas y de menor potencia de . En ese caso, deben usarse errores en los métodos de variables.

X_{1}

$X_1$

X_{1}

$X_1$

β_{1}

$\beta_1$

— gung - Restablece a Monica

Respuestas:

Su pregunta (más comentarios adicionales en los comentarios) parece estar principalmente interesada en el caso en el que tenemos un ensayo controlado aleatorio en el que el investigador asigna aleatoriamente una o más de las variables explicativas, según algún diseño de aleatorización. En este contexto, desea saber por qué usamos un modelo que trata las variables explicativas como constantes conocidas, en lugar de tratarlas como variables aleatorias de la distribución de muestreo impuesta por la aleatorización. (Su pregunta es más amplia que esta, pero este parece ser el caso de interés principal en el comentario, así que este es el que abordaré).

La razón por la que condicionamos las variables explicativas, en este contexto, es que en un problema de regresión para un ECA, todavía estamos interesados en la distribución condicional de la variable de respuesta dados los predictores . De hecho, en un ECA estamos interesados en determinar los efectos causales de una variable explicativa sobre la variable de respuesta , que vamos a determinar por inferencia sobre la distribución condicional (sujeto a algunos protocolos para evitar la confusión). La aleatorización se impone para romper la dependencia entre la variable explicativa y las posibles variables de confusión (es decir, evitar asociaciones de puerta trasera). $X$ $Y$ $X$ $^\dagger$ Sin embargo, el objeto de inferencia en el problema sigue siendo la distribución condicional de la variable de respuesta dadas las variables explicativas. Por lo tanto, todavía tiene sentido estimar los parámetros en esta distribución condicional, utilizando métodos de estimación que tienen buenas propiedades para inferir la distribución condicional .

Ese es el caso normal que se aplica a un ECA utilizando técnicas de regresión. Por supuesto, hay algunas situaciones en las que tenemos otros intereses, y de hecho podríamos querer incorporar la incertidumbre sobre las variables explicativas. La incorporación de la incertidumbre en las variables explicativas generalmente ocurre en dos casos:

(1) Cuando vamos más allá del análisis de regresión y pasamos al análisis multivariante, nos interesa la distribución conjunta de las variables explicativas y de respuesta, en lugar de solo la distribución condicional de este último dado el primero. Puede haber aplicaciones donde este sea nuestro interés, por lo que luego iríamos más allá del análisis de regresión e incorporaríamos información sobre la distribución de las variables explicativas.
(2) En algunas aplicaciones de regresión nuestro interés está en la distribución condicional de la variable de respuesta condicional en una variable explicativa subyacente no observada, donde suponemos que las variables explicativas observadas estaban sujetas a error ("errores en las variables"). En este caso incorporamos incertidumbre a través de "errores en variables". La razón de esto es que nuestro interés en estos casos está en la distribución condicional , condicional en una variable subyacente no observada .

Tenga en cuenta que estos dos casos son matemáticamente más complicados que el análisis de regresión, por lo que si podemos evitar el uso del análisis de regresión, generalmente es preferible. En cualquier caso, en la mayoría de las aplicaciones del análisis de regresión, el objetivo es hacer una inferencia sobre la distribución condicional de la respuesta, dadas las variables explicativas observables, por lo que estas generalizaciones se vuelven innecesarias.

$^\dagger$ Tenga en cuenta que la aleatorización separa los efectos causales de las variables de confusión a la variable aleatorizada, pero no separa los efectos causales de la variable aleatoria a las variables de confusión, y luego a la respuesta. Esto significa que se pueden requerir otros protocolos (por ejemplo, placebos, cegamiento, etc.) para cortar completamente todas las asociaciones de puerta trasera en un análisis causal.

— Ben - Restablece a Monica
fuente

Buena respuesta. Agregaría que AFAIK si tiene errores gaussianos en variables y error gaussiano en respuesta que el método de regresión normal funciona y se convierte en un problema solo si a) observa la respuesta sin error b) tiene una distribución de respuesta diferente

— Martin Modrák

El título "errores en variables" y el contenido de la pregunta parece diferente, ya que pregunta por qué no tenemos en cuenta la variación en al modelar la respuesta condicional, es decir, en inferencia para los parámetros de regresión. Esas dos preocupaciones me parecen ortogonales, así que aquí respondo al contenido. $X$

He respondido a una pregunta similar antes: ¿Cuál es la diferencia entre condicionar los regresores y tratarlos como fijos? , así que aquí copiaré parte de mi respuesta allí:

Trataré de desarrollar un argumento para condicionar a los regresores de manera algo más formal. Deje que sea un vector aleatorio, y el interés está en regresión en , donde se toma de regresión en el sentido de la expectativa condicional de en . Bajo supuestos multinormales, esa será una función lineal, pero nuestros argumentos no dependen de eso. Comenzamos factorizando la densidad conjunta de la manera habitual pero esas funciones no se conocen, por lo que utilizamos un modelo parametrizado donde parametriza la distribución condicional y $(Y,X)$ $Y$ $X$ $Y$ $X$

f (y, x) = f (y ∣ x) f (x)

$f(y,x) = f(y\mid x) f(x)$

f (y, x; θ, ψ) = f_{θ} (y ∣ x) f_{ψ} (x)

$f(y,x; \theta, \psi)=f_\theta(y \mid x) f_\psi(x)$

θ

$\theta$

ψ

$\psi$ la distribución marginal de . En el modelo lineal normal podemos tener pero eso no se supone. El espacio de parámetros completo de es , un producto cartesiano, y los dos parámetros no tienen parte en común.

X

$X$

θ = (β, σ^{2})

$\theta=(\beta, \sigma^2)$

(θ, ψ)

$(\theta,\psi)$

Θ \times Ψ

$\Theta \times \Psi$

Esto puede interpretarse como una factorización del experimento estadístico (o del proceso de generación de datos, DGP), la primera se genera de acuerdo con , y como un segundo paso, se genera de acuerdo con la densidad condicional . Tenga en cuenta que el primer paso no utiliza ningún conocimiento sobre , que ingresa solo en el segundo paso. La estadística es auxiliar para , consulte https://en.wikipedia.org/wiki/Ancillary_statistic . $X$ $f_\psi(x)$ $Y$ $f_\theta(y \mid X=x)$ $\theta$ $X$ $\theta$

Pero, dependiendo de los resultados del primer paso, el segundo paso podría ser más o menos informativo sobre . Si la distribución dada por tiene una varianza muy baja, por ejemplo, las observadas se concentrarán en una región pequeña, por lo que será más difícil estimar . Entonces, la primera parte de este experimento de dos pasos determina la precisión con la que se puede estimar . Por lo tanto, es natural condicionar en inferencia sobre los parámetros de regresión. Ese es el argumento de la condicionalidad, y el esquema anterior deja en claro sus supuestos. $\theta$ $f_\psi(x)$ $x$ $\theta$ $\theta$ $X=x$

En experimentos diseñados, su suposición se mantendrá principalmente, a menudo con datos de observación no. Algunos ejemplos de problemas serán: regresión con respuestas rezagadas como predictores. ¡El condicionamiento de los predictores en este caso también condicionará la respuesta! (Agregaré más ejemplos).

Un libro que analiza estos problemas con mucho detalle es Información y familias exponenciales: en teoría estadística de O. E Barndorff-Nielsen. Ver especialmente el capítulo 4. El autor dice que la lógica de separación en esta situación rara vez se explica, pero da las siguientes referencias: RA Fisher (1956) Métodos estadísticos e inferencia científica y Sverdrup (1966) El estado actual de la teoría de la decisión y La teoría de Neyman-Pearson . $\S 4.3$

La factorización utilizada aquí es algo similar en espíritu al teorema de factorización de estadísticas suficientes. Si el foco está en los parámetros de regresión , y la distribución de no depende de , entonces ¿cómo podría la distribución de (o la variación en) contener información sobre ? $\theta$ $X$ $\theta$ $X$ $\theta$

Este argumento de separación también es útil porque señala los casos en los que no se puede usar, por ejemplo, la regresión con respuestas rezagadas como predictores.

— kjetil b halvorsen
fuente

Aprecio la pregunta centrada en OLS, pero para asegurarme de que he entendido las implicaciones de su respuesta, me preguntaba cómo funcionaría esto en la regresión de mínimos cuadrados parciales. Dado que la reducción de datos de depende parcialmente de ¿significaría que y tienen parámetros comunes?

X

$X$

Y

$Y$

θ

$\theta$

ψ

$\psi$

— ReneBt

No sé acerca de PLS, pero trataré de pensarlo

— Kjetil b halvorsen

Buena respuesta! ...

— Richard Hardy