Es una buena pregunta, porque "cantidades diferentes" no parecen ser una gran explicación.
Hay dos razones importantes para desconfiar del uso de para comparar estos modelos: es demasiado tosco ( realmente no evalúa la bondad de ajuste ) y será inapropiado para al menos uno de los modelos. Esta respuesta aborda ese segundo problema.R2
Tratamiento teórico
R 2 yR2 compara la varianza de los residuos del modelo con la varianza de las respuestas. La varianza es una desviación aditiva cuadrática media de un ajuste. Como tal, podemos entender que compara dos modelos de la respuesta . R2y
El modelo "base" es
yi=μ+δi(1)
donde es un parámetro (la respuesta media teórica) y son "errores" aleatorios independientes, cada uno con media cero y una varianza común de .δ i τ 2μδiτ2
El modelo de regresión lineal introduce los vectores como variables explicativas:xi
yi=β0+xiβ+εi.(2)
El número y el vector son los parámetros (la intersección y las "pendientes"). Los nuevamente son errores aleatorios independientes, cada uno con media cero y varianza común . β ε i σ 2β0βεiσ2
τ 2 - σ 2 τ 2R2 estima la reducción en la varianza, , en comparación con la varianza original .τ2−σ2τ2
Cuando tomas logaritmos y usas mínimos cuadrados para ajustar el modelo , implícitamente estás comparando una relación de la forma
log(yi)=ν+ζi(1a)
a uno de la forma
log(yi)=γ0+xiγ+ηi.(2a)
Estos son como los modelos y pero con respuestas de registro. Sin embargo, no son equivalentes a los dos primeros modelos. Por ejemplo, exponiendo ambos lados de daría(1)(2)(2a)
yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).
Los términos de error ahora multiplican la relación subyacente . En consecuencia, las variaciones de las respuestas sonexp(ηi)yi=exp(γ0+xiγ)
Var(yi)=exp(γ0+xiγ)2Var(eηi).
Las variaciones dependen de . xi Ese no es el modelo , que supone que las variaciones son todas iguales a una constante .(2)σ2
Por lo general, solo uno de estos conjuntos de modelos puede ser una descripción razonable de los datos. Aplicar el segundo conjunto y cuando el primer conjunto y es un buen modelo, o el primero cuando el segundo es bueno, equivale a trabajar con un conjunto de datos hetero lineales no lineales, que por lo tanto debería ajustarse mal con una regresión lineal. Cuando cualquiera de estas situaciones es el caso, podríamos esperar que el mejor modelo exhiba el más grande . Sin embargo, ¿qué pasa si tampoco es el caso? ¿Podemos esperar que el más grande nos ayude a identificar el mejor modelo?(1a)(2a)(1)(2)R2R2
Análisis
En cierto sentido, esta no es una buena pregunta, porque si ninguno de los dos modelos es apropiado, deberíamos encontrar un tercer modelo. Sin embargo, el problema que tenemos ante nosotros se refiere a la utilidad de para ayudarnos a tomar esta determinación. Por otra parte, muchas personas piensan acerca de la primera forma de la relación entre e --is es lineal, ¿es logarítmica, es algo más - sin preocuparse de las características de los errores de regresión o . Consideremos por lo tanto una situación en la que nuestro modelo acerta la relación pero está equivocado acerca de su estructura de error, o viceversa .R2xyεiηi
Tal modelo (que ocurre comúnmente) es un ajuste de mínimos cuadrados a una relación exponencial,
yi=exp(α0+xiα)+θi.(3)
Ahora el logaritmo de es una función lineal de , como en , pero los términos de error son aditivos , como en . En tales casos, podría inducirnos a error a elegir el modelo con una relación incorrecta entre e .yx(2a)θi(2)R2xy
Aquí hay una ilustración del modelo . Hay observaciones para (un vector 1 igualmente distribuido entre y ). El panel izquierdo muestra los datos originales mientras que el panel derecho muestra los datos transformados . Las líneas rojas discontinuas trazan la verdadera relación subyacente, mientras que las líneas azules continuas muestran los ajustes de mínimos cuadrados. Los datos y la relación verdadera son los mismos en ambos paneles: solo difieren los modelos y sus ajustes.(3)300xi1.01.6(x,y)(x,log(y))
El ajuste a las respuestas del registro a la derecha claramente es bueno: casi coincide con la relación verdadera y ambas son lineales. El ajuste a las respuestas originales a la izquierda claramente es peor: es lineal, mientras que la verdadera relación es exponencial. Desafortunadamente, tiene un valor notablemente mayor de : comparación con . Es por eso que no debemos confiar en para llevarnos al mejor modelo. Es por eso que no deberíamos estar satisfechos con el ajuste, incluso cuando es "alto" (y en muchas aplicaciones, un valor de se consideraría realmente alto). 0.70 0.56 R 2 R 2 0.70R20.700.56R2R20.70
Por cierto, una mejor manera de evaluar estos modelos incluye pruebas de bondad de ajuste (lo que indicaría la superioridad del modelo de registro a la derecha) y gráficos de diagnóstico para la estacionariedad de los residuos (lo que resaltaría los problemas con ambos modelos). Tales evaluaciones conducirían naturalmente a uno a un ajuste de mínimos cuadrados ponderado de o directamente al modelo sí, que tendría que ajustarse utilizando métodos de mínimos cuadrados de máxima probabilidad o no lineales.( 3 )log(y)(3)