Regresión lineal multivariante versus varios modelos de regresión univariante

En la configuración de regresión univariante, intentamos modelar

y = X β + n o i s e

$y = X\beta +noise$

donde un vector de observaciones y la matriz de diseño con predictores. La solución es . $y \in \mathbb{R}^n$ $n$ $X \in \mathbb{R}^{n \times m}$ $m$ $\beta_0 = (X^TX)^{-1}Xy$

En la configuración de regresión multivariante, intentamos modelar

Y = X β + n o i s e

$Y = X\beta +noise$

donde es una matriz de observaciones y diferentes variables latentes. La solución es . $y \in \mathbb{R}^{n \times p}$ $n$ $p$ $\beta_0 = (X^TX)^{-1}XY$

Mi pregunta es ¿cómo es tan diferente a la realización de diferente de regresión lineal univariante? Leí aquí que en el último caso tomamos en consideración la correlación entre las variables dependientes, pero no la veo desde las matemáticas. $p$

regression multivariate-analysis multivariate-regression

— Roy
fuente

Ver el teorema de Frisch-Waugh-Lovell.

— rsm

@amorfati: Entonces, si entiendo correctamente, son lo mismo. ¿Por qué las personas los tratan de manera diferente?

— Roy

En el contexto de la regresión lineal multivariada clásica, tenemos el modelo:

Y = X β + ϵ

$Y = X \beta + \epsilon$

$X$ $Y$ $\epsilon$

\hat{β} = (X^{T} X)^{- 1} X^{T} Y

$\hat{\beta} = (X^T X)^{-1} X^T Y$

$i$ $\hat{\beta}$ $i$ $(X^T X)^{-1} X^T$ $i$ $Y$ $i$

Sin embargo, la regresión lineal multivariada difiere de resolver por separado los problemas de regresión individuales porque los procedimientos de inferencia estadística explican las correlaciones entre las variables de respuesta múltiple (por ejemplo, ver [2], [3], [4]). Por ejemplo, la matriz de covarianza de ruido se muestra en distribuciones de muestreo, estadísticas de prueba y estimaciones de intervalo.

Otra diferencia emerge si permitimos que cada variable de respuesta tenga su propio conjunto de covariables:

Y_{i} = X_{i} β_{i} + ϵ_{i}

$Y_i = X_i \beta_i + \epsilon_i$

$Y_i$ $i$ $X_i$ $\epsilon_i$

Referencias

Zellner (1962) . Un método eficiente para estimar regresiones aparentemente no relacionadas y pruebas de sesgo de agregación.
Helwig (2017) . Regresión lineal multivariante [Diapositivas]
Fox y Weisberg (2011) . Modelos lineales multivariados en R. [Apéndice de: Un compañero R para la regresión aplicada]
Maitra (2013) . Modelos de regresión lineal multivariante. [Diapositivas]

— usuario20160
fuente

Gracias, ahora está más claro. ¿Tiene una referencia para esta formulación? Solo he encontrado la forma menos cuadrada. Además, ¿conoces un paquete de Python que implemente eso?

— Roy

En segundo lugar la solicitud de referencia. ¿Se considera que la correlación es solo la covarianza de los resultados, o se aprende algún tipo de covarianza condicional?

— generic_user

No estoy 100% seguro de que @ user20160 se refería a estos, pero creo que lo que tenían en mente era estimar ecuaciones / ecuaciones de estimación generalizadas. EE / GEE son consistentes cuando la estructura de covarianza está mal especificada y también puede establecer la estructura de covarianza esperada. Sin embargo, estos modelos se estiman iterativamente en oposición a los OLS con una forma cerrada. Debería poder estimar GEE / EE en Python pero no conozco los paquetes.

— iacobus

@Roy reescribí la respuesta y agregué referencias. Mi publicación original asumía el caso que ahora es el último párrafo de la publicación revisada. Intentaré agregar más detalles más tarde.

— user20160