lata

La página de Wikipedia en R2 dice $R^2$ puede tomar un valor mayor que 1. No veo cómo esto es posible.

Valores de $R^2$ fuera del rango 0 a 1 puede ocurrir donde se usa para medir la concordancia entre los valores observados y modelados y donde los valores "modelados" no se obtienen por regresión lineal y dependiendo de qué formulación de $R^2$ es usado Si se usa la primera fórmula anterior, los valores pueden ser menores que cero. Si se usa la segunda expresión, los valores pueden ser mayores que uno.

Esa cita se refiere a la "segunda expresión" pero no veo una segunda expresión en la página.

¿Hay algún escenario donde $R^2$ puede ser mayor que 1? Estoy pensando en esta pregunta para la regresión no lineal, pero me gustaría obtener una respuesta general.

[Para alguien que mira esta página con la pregunta opuesta en mente: Sí; $R^2$ puede ser negativo Esto sucede cuando ajusta un modelo que se ajusta peor a los datos que una línea horizontal. Esto generalmente se debe a un error al seleccionar un modelo o restricciones.]

regression r-squared

— Harvey Motulsky
fuente

Este problema ya se ha tratado al menos una vez en este sitio web stats.stackexchange.com/questions/251337 e imagino que hay más preguntas relacionadas con él o que lo explican por completo.

S S T (t o t a l) = R S S (m o d e l) + S S E (e r r o r)

$SST (total) = RSS (model) + SSE (error)$

S S_{t} > S S_{e}

$SS_t>SS_e$ , esto solo es cierto en general si el modelo incluye una intersección y si la media del error / residual es 0. Si $R^2$ se relaciona, más simplemente, con la correlación, y no hay correcciones, de hecho, no debe ser mayor que 1. Es solo que no siempre se calcula de la misma manera que una correlación.

— Sextus Empiricus

Entonces tienes las dos expresiones:

R^{2} = 1 - S S_{e} / S S_{t} = S S_{m} / S S_{t}

$R^2 = 1- SS_e/SS_t = SS_m/SS_t$ es posible que

S S_{m} > S S_{t}

$SS_m>SS_t$

— Sextus Empiricus

Calculo R al cuadrado como "1.0 - (absoluta_error_varianza / dependiente_varianza_de_datos)" y dado que la varianza del error absoluto no puede ser menor que cero, en mis cálculos el valor máximo de R al cuadrado es 1.0

— James Phillips

Son peculiaridades como estas las que me hacen pensar que

R^{2}

$R^2$ En general, es mejor tomarlo como el cuadrado de la correlación entre lo observado y lo predicho.

— Nick Cox

Si R cuadró más de uno, eso significa que 1 + 1 es más que 2

— Ibrahim

Respuestas:

Encontré la respuesta, así que publicaré la respuesta a mi pregunta. Como señaló Martijn, con la regresión lineal puedes calcular $R^2$ por dos expresiones equivalentes:

$R^2 = 1- SS_e/SS_t = SS_m/SS_t$

Con la regresión no lineal, no puede sumar la suma de cuadrados de los residuos y la suma de cuadrados de la regresión para obtener la suma total de cuadrados. Esa ecuación simplemente no es cierta. Entonces la ecuación anterior no es correcta. Esas dos expediciones calculan dos valores diferentes para $R^2$ .

La única ecuación que tiene sentido y es (creo) universalmente utilizada es:

$R^2 = 1- SS_e/SS_t$

Su valor nunca es mayor que 1.0, pero puede ser negativo cuando se ajusta al modelo incorrecto (o restricciones incorrectas) por lo que el $SS_e$ (suma de cuadrados de residuos) es mayor que $SS_t$ (suma de cuadrados de la diferencia entre los valores Y reales y medios).

La otra ecuación no se usa con regresión no lineal:

$R^2 = SS_m/SS_t$

Pero si se usara esta ecuación, da como resultado $R^2$ mayor que 1.0 en casos donde el modelo se ajusta muy mal a los datos $SS_m$ Es mas grande que $SS_t$ . Esto sucede cuando el ajuste del modelo es peor que el ajuste de una línea horizontal, los mismos casos que conducen a $R^2$ <0 con la otra ecuación.

Línea de fondo: $R^2$ puede ser mayor que 1.0 solo cuando se usa una ecuación no válida (o no estándar) para calcular $R^2$ y cuando el modelo elegido (con restricciones, si corresponde) se ajusta muy mal a los datos, peor que el ajuste de una línea horizontal.

— Harvey Motulsky
fuente

¿Es correcto el último punto? Considere los datos en una línea perfecta. Ahora considere un modelo que se ajuste exactamente a esta línea. Esto tiene SS_m / SS_t = 1. Ahora considere el mismo modelo pero con un gradiente ligeramente más pronunciado. Ahora SS_m es un poco más grande y SS_m / SS_t> 1. El modelo es un poco peor, pero aún se ajusta bien a los datos, no "realmente mal".

— Denziloe

@Denziloe. Sus datos son perfectos o casi perfectos con una pendiente positiva. Ahora ajuste una línea de regresión lineal con la restricción de que la pendiente sea negativa con una pendiente menor que -100. El modelo de ajuste se ajustará peor que una línea horizontal, por lo que SSe es mayor que SSt. Con la primera ecuación, el R2 será negativo. Con la segunda ecuación, R2 será mayor que 1. No, esa no es una situación realista o común.

— Harvey Motulsky

@Denziloe. El modelo se ajustará muy mal a los datos (peor que la hipótesis nula de una línea horizontal), solo si restringe la pendiente o intercepta a un valor que no tiene sentido. En su ejemplo, el modelo se ajusta bien a los datos, mejor que una línea horizontal.

— Harvey Motulsky

Lo siento, realmente no sigo eso como respuesta. En mi ejemplo, SS_m / SS_t> +1, ¿estás de acuerdo? Y el modelo se ajusta bien, ¿de nuevo está de acuerdo? Esto parece contradecir su afirmación, "R2 puede ser mayor que 1 solo cuando ... el modelo elegido se ajusta muy mal a los datos".

— Denziloe

@Denziloe Envíe algunos datos reales y ajustes, para que yo / nosotros podamos ver lo que quiere decir.

— Harvey Motulsky

Por definición, $R^2 = 1 - SS_e/SS_t$ donde ambos términos SS son una suma de cuadrados y, por lo tanto, no negativos. El máximo se alcanza a $SS_e=0$ Resultando en $R^2=1$ .

— AlexR
fuente

Esto no es cierto en general, y solo se cumple cuando la varianza del modelo es menor que la varianza del error. Como ejemplo, tome una regresión lineal sin un coeficiente de intercepción.

— Alex R.

@AlexR. Vea la respuesta de Harveys (mucho mejor que la mía por cierto): esto solo se aplica si usa otra definición de

R^{2}

$R^2$ .

— AlexR