Rango posible de

10

Supongamos que hay tres series de tiempo, , e $X_1$ $X_2$ $Y$

Ejecución de regresión lineal ordinaria en ~ ( ), obtenemos . La regresión lineal ordinaria ~ llegar . Suponga que $Y$ $X_1$ $Y = b X_1 + b_0 + \epsilon$ $R^2 = U$ $Y$ $X_2$ $R^2 = V$ $U < V$

¿Cuáles son los valores mínimos y máximos posibles de en la regresión ~ ( )? $R^2$ $Y$ $X_1 + X_2$ $Y = b_1 X_1 + b_2 X_2 + b_0 + \epsilon$

Creo que el mínimo debería ser + un valor pequeño, ya que agregar nuevas variables siempre aumenta , pero no sé cómo cuantificar este pequeño valor, y no sé cómo obtener el rango máximo . $R^2$ $V$ $R^2$

regression multiple-regression r-squared

— Vendetta
fuente

9

1) EDIT: comentario de Cardinal siguiente muestra que la respuesta correcta a la min pregunta es . Por lo tanto, estoy eliminando mi respuesta "interesante", pero en última instancia incorrecta, a esa parte de la publicación del OP. $R^2$ $V$

2) El máximo es 1. Considere el siguiente ejemplo, que se ajusta a su caso. $R^2$

x1 <- rnorm(100)
x2 <- rnorm(100)
y <- x1 + 2*x2

> summary(lm(y~x1))$r.squared
[1] 0.2378023                 # This is U
> summary(lm(y~x2))$r.squared
[1] 0.7917808                 # This is V; U < V
> summary(lm(y~x1+x2))$r.squared
[1] 1

Aquí estamos arreglando la varianza de en 0. Sin embargo, si desea , las cosas cambian un poco. Puede obtener el arbitrariamente cerca de 1 haciendo cada vez más pequeño, pero, como con el problema mínimo, no puede llegar allí, por lo que no hay un máximo. 1 se convierte en el supremum , ya que siempre es mayor que pero también es el límite como . $\epsilon$ $\sigma^2_\epsilon > 0$ $R^2$ $\sigma^2_\epsilon$ $R^2$ $\sigma^2_\epsilon \to 0$

— jbowman
fuente

2

(+1) Algunos comentarios: esta es una buena respuesta; es interesante que usted ha tomado un enfoque asintótica mientras que no está claro si el PO estaba interesado en eso o, posiblemente, un fijo uno (o ambos). Esta respuesta es un poco inconsistente con la restricción del OP de que , sin embargo, y si o para algunos , por ejemplo, entonces el mínimo para todos los tamaños de muestra fijos son exactamente . (Disculpe la patología de estos ejemplos). Además, OLS no es necesariamente consistente en ausencia de restricciones adicionales en los predictores. :)

n

$n$

U < V

$U < V$

X_{1} = 0

$X_1 = 0$

X_{1} = a 1

$X_1 = a \mathbf{1}$

a \in R

$a \in \mathbb R$

R^{2}

$R^2$

V := V (n)

$V := V(n)$

— cardenal

@cardinal: al releer, no puedo entender por qué tomé ese enfoque del problema mínimo, cuando ahora parece la respuesta obviamente correcta y, como has observado implícitamente, podría haber construido un ejemplo que lo logre la vena de la parte máxima ... oh bueno, tal vez mi café esta mañana se descafeinó accidentalmente. (¡Quizás debería revisar mis respuestas más a fondo antes de publicarlas también!)

V

$V$

— jbowman

¡No creo que debas eliminar lo que has escrito, lo cual sí encontré un enfoque interesante para responder la pregunta! Si bien las patologías que menciono ciertamente permiten un mínimo , uno podría preguntarse qué significa realmente . El otro ejemplo quizás no sea tan patológico ya que en una versión general de este problema, se extiende al caso en el que cualquier adicional está en el espacio de la columna de los otros predictores. :)

R^{2}

$R^2$

X_{1} = 0

$X_1 = 0$

X_{i}

$X_i$

— cardenal

1

@ cardinal - gracias! Lo reconstruiré, tal vez un poco más formalmente, y lo pondré de nuevo en la parte inferior en un momento.

— jbowman

5

Deje es igual a la correlación entre y , es igual a la correlación entre y , y la correlación entre y . Entonces para el modelo completo dividido por es igual $r_{1,2}$ $X_1$ $X_2$ $r_{1,Y}$ $X_1$ $Y$ $r_{2,Y}$ $X_2$ $Y$ $R^2$ $V$

(\frac{1}{(1 - r_{1, 2}^{2})}) (1 - \frac{2 \cdot r_{1, 2} \cdot r_{1, Y}}{r_{2, Y}} + \frac{U}{V}) .

$\left(\frac{1}{(1 - r_{1,2}^2)}\right) \left(1 - \frac{2 \cdot r_{1,2} \cdot r_{1,Y}}{r_{2,Y}} + \frac{U}{V}\right).$

Entonces, para el modelo completo es igual a solo si y o $R^2$ $V$ $r_{1,2} = 0$ $r_{1,Y}^2 = U = 0$

r_{1, 2}^{2} = \frac{2 \cdot r_{1, 2} \cdot r_{1, Y}}{r_{2, Y}} - \frac{U}{V} .

$r_{1,2}^2 = \frac{2\cdot r_{1,2} \cdot r_{1,Y}}{r_{2,Y}} - \frac{U}{V}.$

Si , para el modelo completo es igual a . $r_{1,2} = 0$ $R^2$ $U + V$

— Margot
fuente

(+1) Lindo. Bienvenido al sitio. Considere registrar su cuenta para poder participar más plenamente. Tendré que ver esta expresión un poco más de cerca más adelante. :)

— cardenal

4

Sin restricciones en y , entonces el mínimo es , y luego el máximo es el más pequeño . Esto se debe a dos variable podría ser perfectamente correlacionado (en cuyo caso la adición de la segunda variable no cambia el en absoluto) o que podría ser ortogonal en cuyo caso incluyendo tanto los resultados en . Se señaló correctamente en los comentarios que esto también requiere que cada uno sea ortogonal a , el vector de columna de 1s. $U$ $V$ $V$ $\min(V + U, 1)$ $R^2$ $U + V$ $\mathbf{1}$

Agregó la restricción . Sin embargo, todavía es posible que . Es decir, , en cuyo caso, . Finalmente, es posible que por lo que el límite superior sigue siendo . $U < V \implies X_{1} \neq X_{2}$ $U = 0$ $X_{1} \perp Y$ $\min = \max = V + 0$ $X_{1} \perp X_{2}$ $\min(V + U, 1)$

Si supiera más sobre la relación entre y , creo que podría decir más. $X_{1}$ $X_{2}$

— Joshua
fuente

1

(+1) Pero, tenga en cuenta que no es (del todo) cierto que si y son ortogonales, entonces sus valores individuales de se sumarán al incluir ambos en el modelo. Nosotros también necesitamos que sean ortogonales a los de todos unos vectores . Tenga en cuenta que puede usar en este sitio para marcar las matemáticas. :)

X_{1}

$X_1$

X_{2}

$X_2$

R^{2}

$R^2$

1

$\mathbf 1$

L A T E X

$\LaTeX$

— cardenal

Eso es verdad. Muchas gracias por los comentarios y por señalar que se puede usar . Pensé que podría pero había intentado escapar de estilo matemático (y [en línea / ecuaciones. Escribir como lo haría en TeX funcionó de maravilla :)

L A T E X

$\LaTeX$

— Joshua