¿Cuál es la relación entre el R cuadrado y el valor p en una regresión?


17

tl; dr: para la regresión OLS, ¿un R cuadrado más alto también implica un valor P más alto? Específicamente para una sola variable explicativa (Y = a + bX + e) ​​pero también estaría interesado en saber para n múltiples variables explicativas (Y = a + b1X + ... bnX + e).

Contexto: estoy realizando una regresión OLS en un rango de variables y estoy tratando de desarrollar la mejor forma funcional explicativa produciendo una tabla que contenga los valores de R cuadrado entre las transformaciones lineales, logarítmicas, etc., de cada variable explicativa (independiente) y la variable respuesta (dependiente). Esto se parece un poco a:

Nombre de la variable --forma lineal-- --ln (variable) --exp (variable) - ... etc.

Variable 1 ------- R-cuadrado ---- R-cuadrado ---- R-cuadrado -
... etc ...

Me pregunto si R-cuadrado es apropiado o si los valores P serían mejores. Presumiblemente hay alguna relación, ya que una relación más significativa implicaría un mayor poder explicativo, pero no estoy seguro de si eso es cierto de manera rigurosa.


55
También de interés: ¿R ^ 2 es útil o peligroso? .
whuber

Respuestas:


15

La respuesta es no, no existe una relación regular entre R2 y el valor p de regresión general, porque R2 depende tanto de la varianza de las variables independientes como de la varianza de los residuos (a la que es inversamente proporcional), y usted es libre de cambiar la varianza de las variables independientes por cantidades arbitrarias.

Como ejemplo, considere cualquier conjunto de datos multivariados con i indexando los casos y suponga que el conjunto de valores de la primera variable independiente, { x i 1 } , tiene un máximo único x separado del segundo valor más alto por una cantidad positiva ϵ . Aplique una transformación no lineal de la primera variable que envíe todos los valores inferiores a((xi1,xi2,,xip,yi))i{Xyo1}Xϵ al rango [ 0 , 1 ] y envía x a un valor grande M 1 . Para cualquier M, esto puede hacerse mediante una transformación de Box-Cox adecuada (a escala) x a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , por ejemplo, no estamos hablando de cualquier cosa extraña o "patológica". Entonces, como MX-ϵ/ /2[0,1]xM1Mxa((xx0)λ1)/(λ1))Mcrece arbitrariamente grande, acerca a 1 tan cerca como desee, independientemente de cuán malo sea el ajuste, porque la varianza de los residuos estará limitada, mientras que la varianza de la primera variable independiente es asintóticamente proporcional a M 2 .R21M2


En su lugar, debería utilizar pruebas de bondad de ajuste (entre otras técnicas) para seleccionar un modelo apropiado en su exploración: debe preocuparse por la linealidad del ajuste y la homocedasticidad de los residuos. Y no tome ningún valor p de la regresión resultante sobre la confianza: terminarán siendo casi sin sentido después de que haya realizado este ejercicio, porque su interpretación supone que la elección de expresar las variables independientes no dependía de los valores de variable dependiente en absoluto, lo cual no es el caso aquí.


10

Esta respuesta no trata directamente con la pregunta central; no es más que información adicional que es demasiado larga para un comentario.

Lo señalo porque la pregunta de estadísticas econométricas sin duda encontrará esta información, o algo así en algún momento (indicando que y R 2FR2 pregunta de están relacionados) y me pregunto si la información dada en otras respuestas aquí es incorrecta, no es incorrecta, pero creo que vale la pena tener claro lo que está sucediendo.

Existe una relación bajo un conjunto particular de circunstancias; si mantiene el número de observaciones y el número de predictores fijos para un modelo dado, es de hecho monótono en R 2 , ya queFR2

F=R2/(k1)(1R2)/(Nk)

(Si divide el numerador y el denominador por , y saca las constantes en k , puede ver que 1 / F 1 / R 2 - 1 si mantiene N yR2k1/F1/R21N constantes).k

Dado que para df fijo y el valor p están monotónicamente relacionados, R 2 y el valor p también están monotónicamente relacionados.FR2p

Pero cambie casi cualquier cosa sobre el modelo, y esa relación no se mantiene en las circunstancias cambiantes.

Por ejemplo, agregar un punto hace que más grande y eliminar uno lo hace más pequeño, pero hacerlo puede aumentar o disminuir R 2 , por lo que parece que F y R 2 no necesariamente se mueven juntos si agrega o elimina datos. Agregar una variable disminuye ( N - k ) / ( k - 1 ) pero aumenta R 2 (y viceversa), por lo que nuevamente, R 2 no está necesariamente relacionado con(Nk)/(k1)R2FR2 (Nk)/(k1)R2R2 cuando haces eso.F

Claramente, una vez que se comparan los valores de y p en modelos con características diferentes, esta relación no se mantiene necesariamente, como lo demostró Whuber en el caso de transformaciones no lineales.R2p


No estoy en desacuerdo contigo, pero parece que estás respondiendo una pregunta diferente a la que yo hice. Tomó un poco de lectura, pero llegó a la conclusión de que la pregunta se refiere a qué relación, si la hay, se encuentra entre el y R 2 cuando (caeteris paribus) variables independientes se transforman de manera no lineal. Es solo cuando esas variables se dejan sin cambios, o, a lo sumo, se transforman linealmente entre ellas, que podemos decir algo sobre tal relación. Eso es parte del sentido en el que creo que debe entenderse su calificador "para un modelo dado". pR2
whuber

Estoy respondiendo una pregunta diferente; y creo que tu interpretación del significado es correcta. Estaba más preocupado de que un problema como el que planteé pudiera generar confusión si no se explicaba. Todos sus puntos se mantienen, a mi entender. (Ahora me preocupa, de hecho, que tal vez mi respuesta no sirva para aclarar, como esperaba, sino que simplemente confunda el problema. ¿Cree que hay una modificación adecuada que lo ayudaría? ¿Debería eliminarlo?)
Glen_b -Reinstale a Monica

Odiaría verlo borrado, Glen. Si tiene la intención de hacer cambios, considere señalar más explícitamente sobre qué aspectos de este tema está escribiendo ( por ejemplo , qué quiere decir exactamente con un "modelo dado" y qué tiene en mente sobre modelos con "características diferentes"). Este fue el espíritu (colaborativo, no crítico) en el que ofrecí mi comentario.
whuber

No me sentí criticado por usted, parecía que estaba aclarando y nada más, pero la necesidad de eso resalta una insuficiencia en la respuesta que me preocupaba antes de que comentara. La vaguedad de las 'características diferentes' se debe a que es algo bastante general: varía mucho de cualquier cosa (incluso doy ejemplos de algo tan simple como eliminar un punto o agregar una variable para ilustrar lo poco que uno necesita cambiar) puede hacer que esa relación sea monótona evaporar. Pensaré en qué más podría decir.
Glen_b -Reinstala a Monica

1 para la edición: estos son valiosos comentarios y es especialmente útil para ver la fórmula para aparece. F
whuber

3

"para la regresión de OLS, ¿un R cuadrado más alto también implica un valor P más alto? Específicamente para una sola variable explicativa (Y = a + bX + e)"

R2FtR2ptR2

|t|=R2(1R2)(n2)

So in this case, once you fix n, the higher the R2 the higher the t statistic and the lower the p-value.

"but would also be interested to know for n multiple explanatory variables (Y = a + b1X + ... bnX + e)."

The answer is the same, but instead of looking at one variable only, we now look at all variables together -- hence the F statistic, as Glen_b has shown. And here you have to fix both n and the number of parameters. Or, to put it better, fix the degrees of freedom.

Context - I'm performing OLS regression on a range of variables and am trying to develop the best explanatory functional form (...)

Ok, so this is actually a different problem. If you are looking at the best explanatory functional form, you should also take a look at cross-validation techniques. Even if R2 is the quantity of interest for your problem (it usually isn't), finding the best fit in-sample can be very misleading -- you usually want your findings to generalize out of sample, and proper cross-validation can help you not overfit your data too much.

And here I'm guessing that you want "predictive" power (since you say you want to find "the best explanatory functional form"). If you want to do causal inference, for instance, then the R2 or other predictive performance metrics are of little help without more structural/substantive knowledge of the problem.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.