¿Por qué no podemos usar para las transformaciones de variables dependientes?

Imagine que tenemos un modelo de regresión lineal con la variable dependiente . Encontramos su . Ahora, hacemos otra regresión, pero esta vez en , y de manera similar encontramos su . Me han dicho que no puedo comparar ambos para ver qué modelo es más adecuado. ¿Porqué es eso? La razón que se me dio fue que estaríamos comparando la variabilidad de diferentes cantidades (diferentes variables dependientes). No estoy seguro de que esto sea una razón suficiente para esto. $y$ $R^2_y$ $\log(y)$ $R^2_{\log(y)}$ $R^2$

¿También hay una manera de formalizar esto?

Cualquier ayuda sería apreciada.

regression data-transformation r-squared

— Un anciano en el mar.
fuente

Sospecho que esto podría haberse discutido antes en Cross Validated. ¿Has pasado por hilos similares a fondo? Además, ¿le interesan las diferentes variables dependientes (como el PIB frente al precio del petróleo) o las transformaciones de la misma variable (PIB frente al crecimiento del PIB), o ambas?

— Richard Hardy

@ Richard Hardy Encontré algunos, pero creo que eran tangentes a mi pregunta. Como este: stats.stackexchange.com/questions/235117/… La respuesta solo dice que sí, sin explicar realmente por qué.

— Un viejo en el mar.

@ Richard Hardy Estoy interesado en las transformaciones de la variable dependiente.

— Un viejo en el mar.

R^{2}

$R^2$ comparaciones sentido solo entre modelos anidados.

— LVRao

@LVRao Gracias por tu comentario. ¿Por que es esto entonces?

— Un viejo en el mar.

Es una buena pregunta, porque "cantidades diferentes" no parecen ser una gran explicación.

Hay dos razones importantes para desconfiar del uso de para comparar estos modelos: es demasiado tosco ( realmente no evalúa la bondad de ajuste ) y será inapropiado para al menos uno de los modelos. Esta respuesta aborda ese segundo problema. $R^2$

Tratamiento teórico

$R^2$ compara la varianza de los residuos del modelo con la varianza de las respuestas. La varianza es una desviación aditiva cuadrática media de un ajuste. Como tal, podemos entender que compara dos modelos de la respuesta . $R^2$ $y$

El modelo "base" es

\begin{matrix} (1) & y_{i} = μ + δ_{i} \end{matrix}

$y_i = \mu + \delta_i\tag{1}$

donde es un parámetro (la respuesta media teórica) y son "errores" aleatorios independientes, cada uno con media cero y una varianza común de . $\mu$ $\delta_i$ $\tau^2$

El modelo de regresión lineal introduce los vectores como variables explicativas: $x_i$

\begin{matrix} (2) & y_{i} = β_{0} + x_{i} β + ε_{i} . \end{matrix}

$y_i = \beta_0 + x_i \beta + \varepsilon_i.\tag{2}$

El número y el vector son los parámetros (la intersección y las "pendientes"). Los nuevamente son errores aleatorios independientes, cada uno con media cero y varianza común . $\beta_0$ $\beta$ $\varepsilon_i$ $\sigma^2$

$R^2$ estima la reducción en la varianza, , en comparación con la varianza original . $\tau^2-\sigma^2$ $\tau^2$

Cuando tomas logaritmos y usas mínimos cuadrados para ajustar el modelo , implícitamente estás comparando una relación de la forma

\begin{matrix} (1a) & \log (y_{i}) = ν + ζ_{i} \end{matrix}

$\log(y_i) = \nu + \zeta_i\tag{1a}$

a uno de la forma

\begin{matrix} (2a) & \log (y_{i}) = γ_{0} + x_{i} γ + η_{i} . \end{matrix}

$\log(y_i) = \gamma_0 + x_i\gamma + \eta_i.\tag{2a}$

Estos son como los modelos y pero con respuestas de registro. Sin embargo, no son equivalentes a los dos primeros modelos. Por ejemplo, exponiendo ambos lados de daría $(1)$ $(2)$ $(2\text{a})$

y_{i} = \exp (\log (y_{i})) = \exp (γ_{0} + x_{i} γ) \exp (η_{i}) .

$y_i = \exp(\log(y_i)) = \exp(\gamma_0 + x_i\gamma)\exp(\eta_i).$

Los términos de error ahora multiplican la relación subyacente . En consecuencia, las variaciones de las respuestas son $\exp(\eta_i)$ $y_i = \exp(\gamma_0 + x_i\gamma)$

Var (y_{i}) = \exp (γ_{0} + x_{i} γ)^{2} Var (e^{η_{i}}) .

$\operatorname{Var}(y_i) = \exp(\gamma_0 + x_i\gamma)^2\operatorname{Var}(e^{\eta_i}).$

Las variaciones dependen de . $x_i$ Ese no es el modelo , que supone que las variaciones son todas iguales a una constante . $(2)$ $\sigma^2$

Por lo general, solo uno de estos conjuntos de modelos puede ser una descripción razonable de los datos. Aplicar el segundo conjunto y cuando el primer conjunto y es un buen modelo, o el primero cuando el segundo es bueno, equivale a trabajar con un conjunto de datos hetero lineales no lineales, que por lo tanto debería ajustarse mal con una regresión lineal. Cuando cualquiera de estas situaciones es el caso, podríamos esperar que el mejor modelo exhiba el más grande . Sin embargo, ¿qué pasa si tampoco es el caso? ¿Podemos esperar que el más grande nos ayude a identificar el mejor modelo? $(1\text{a})$ $(2\text{a})$ $(1)$ $(2)$ $R^2$ $R^2$

Análisis

En cierto sentido, esta no es una buena pregunta, porque si ninguno de los dos modelos es apropiado, deberíamos encontrar un tercer modelo. Sin embargo, el problema que tenemos ante nosotros se refiere a la utilidad de para ayudarnos a tomar esta determinación. Por otra parte, muchas personas piensan acerca de la primera forma de la relación entre e --is es lineal, ¿es logarítmica, es algo más - sin preocuparse de las características de los errores de regresión o . Consideremos por lo tanto una situación en la que nuestro modelo acerta la relación pero está equivocado acerca de su estructura de error, o viceversa . $R^2$ $x$ $y$ $\varepsilon_i$ $\eta_i$

Tal modelo (que ocurre comúnmente) es un ajuste de mínimos cuadrados a una relación exponencial,

\begin{matrix} (3) & y_{i} = \exp (α_{0} + x_{i} α) + θ_{i} . \end{matrix}

$y_i = \exp\left(\alpha_0 + x_i\alpha\right) + \theta_i.\tag{3}$

Ahora el logaritmo de es una función lineal de , como en , pero los términos de error son aditivos , como en . En tales casos, podría inducirnos a error a elegir el modelo con una relación incorrecta entre e . $y$ $x$ $(2\text{a})$ $\theta_i$ $(2)$ $R^2$ $x$ $y$

Aquí hay una ilustración del modelo . Hay observaciones para (un vector 1 igualmente distribuido entre y ). El panel izquierdo muestra los datos originales mientras que el panel derecho muestra los datos transformados . Las líneas rojas discontinuas trazan la verdadera relación subyacente, mientras que las líneas azules continuas muestran los ajustes de mínimos cuadrados. Los datos y la relación verdadera son los mismos en ambos paneles: solo difieren los modelos y sus ajustes. $(3)$ $300$ $x_i$ $1.0$ $1.6$ $(x,y)$ $(x,\log(y))$

El ajuste a las respuestas del registro a la derecha claramente es bueno: casi coincide con la relación verdadera y ambas son lineales. El ajuste a las respuestas originales a la izquierda claramente es peor: es lineal, mientras que la verdadera relación es exponencial. Desafortunadamente, tiene un valor notablemente mayor de : comparación con . Es por eso que no debemos confiar en para llevarnos al mejor modelo. Es por eso que no deberíamos estar satisfechos con el ajuste, incluso cuando es "alto" (y en muchas aplicaciones, un valor de se consideraría realmente alto). $R^2$ $0.70$ $0.56$ $R^2$ $R^2$ $0.70$

Por cierto, una mejor manera de evaluar estos modelos incluye pruebas de bondad de ajuste (lo que indicaría la superioridad del modelo de registro a la derecha) y gráficos de diagnóstico para la estacionariedad de los residuos (lo que resaltaría los problemas con ambos modelos). Tales evaluaciones conducirían naturalmente a uno a un ajuste de mínimos cuadrados ponderado de o directamente al modelo sí, que tendría que ajustarse utilizando métodos de mínimos cuadrados de máxima probabilidad o no lineales. $\log(y)$ $(3)$

— whuber
fuente

La crítica a R ^ 2 no es justa. Como todas las herramientas, su uso debe entenderse bien. En sus ejemplos anteriores, R ^ 2 está dando el mensaje correcto. R ^ 2 es en cierto modo elegir la mejor relación señal / ruido. Por supuesto, no es obvio cuando se colocan dos gráficos con escalas totalmente diferentes lado a lado. En realidad, la señal a la izquierda es muy fuerte en comparación con las desviaciones de ruido.

— Cagdas Ozgenc

@Cagdas Parece que ofrece un mensaje inherentemente contradictorio. Dado que las dos tramas están inevitablemente en dos escalas diferentes, una traza las respuestas originales y la otra traza sus logaritmos, luego argumentando que algo "no es obvio" debido a este hecho inevitable no parece apoyar su caso. Quejarse de que esta respuesta es "injusta" realmente no se sostiene a la luz del análisis explícito de los modelos que he ofrecido.

— whuber

No hay contradicción en lo que digo. R ^ 2 elige la relación señal / ruido más alta. Eso es lo que está haciendo. Intentar convertirlo en otra cosa y afirmar que no está funcionando es totalmente incorrecto. Todas las críticas a R ^ 2 también se aplican a otros indicadores de bondad de ajuste cuando se aplican a diferentes variables de respuesta, pero por alguna razón R ^ 2 se elige como chivo expiatorio.

— Cagdas Ozgenc

Realmente me interesaría saber, @Cagdas, qué parte de este análisis ves como "chivo expiatorio" . Por lo que puedo decir, es una evaluación desapasionada y técnicamente correcta de lo que es y no es capaz de lograr. No veo cómo es relevante referirse a las "relaciones señal / ruido" cuando, de hecho, el ejemplo muestra explícitamente cómo el mejor modelo (en el sentido que describí, que concuerda con lo que la mayoría de las personas entiende por "bondad de ajuste") produce el peor .

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

— whuber

Gracias por tu ayuda whuber. Perdón por la tardía aceptación, últimamente no he tenido mucho tiempo libre. ;)

— Un anciano en el mar.