Para abordar la primera pregunta , considere el modelo
Y=X+sin(X)+ε
con iid de media cero y varianza finita. A medida que aumenta el rango de (considerado como fijo o aleatorio), va a 1. Sin embargo, si la varianza de es pequeña (alrededor de 1 o menos), los datos son "notablemente no lineales". En las parcelas, .εXR2εvar(ε)=1
Por cierto, una manera fácil de obtener un pequeño es dividir las variables independientes en rangos estrechos. La regresión (usando exactamente el mismo modelo ) dentro de cada rango tendrá un incluso cuando la regresión completa basada en todos los datos tenga un alto . Contemplar esta situación es un ejercicio informativo y una buena preparación para la segunda pregunta.R2R2R2
Las dos parcelas siguientes usan los mismos datos. El para la regresión completa es 0.86. Los para las rodajas (de ancho 1/2 de -5/2 a 5/2) son .16, .18, .07, .14, .08, .17, .20, .12, .01 , .00, leyendo de izquierda a derecha. En todo caso, los ajustes mejoran en la situación dividida porque las 10 líneas separadas pueden ajustarse más estrechamente a los datos dentro de sus rangos estrechos. Aunque el para todos los cortes está muy por debajo del completo , ni la fuerza de la relación, la linealidad ni ningún aspecto de los datos (excepto el rango de utilizado para la regresión) ha cambiado.R2R2R2R2X
(Uno podría objetar que este procedimiento de corte cambia la distribución de Eso es cierto, pero sin embargo corresponde con el uso más común de en el modelado de efectos fijos y revela el grado en que nos está informando sobre el varianza de en la situación de efectos aleatorios. En particular, cuando está obligado a variar dentro de un intervalo menor de su rango natural, generalmente caerá).XR2R2XXR2
El problema básico con es que depende de demasiadas cosas (incluso cuando se ajusta en regresión múltiple), pero más especialmente de la varianza de las variables independientes y la varianza de los residuos. Normalmente no nos dice nada sobre "linealidad" o "fuerza de relación" o incluso "bondad de ajuste" para comparar una secuencia de modelos.R2
La mayoría de las veces puedes encontrar una estadística mejor que . Para la selección del modelo, puede consultar AIC y BIC; Para expresar la adecuación de un modelo, observe la varianza de los residuos. R2
Esto nos lleva finalmente a la segunda pregunta . Una situación en la que podría tener algún uso es cuando las variables independientes se establecen en valores estándar, controlando esencialmente el efecto de su varianza. Entonces es realmente un proxy de la varianza de los residuos, adecuadamente estandarizados.R21−R2