¿Cuál es la fórmula exacta utilizada en R lm()
para el R cuadrado ajustado? ¿Cómo puedo interpretarlo?
Fórmulas r-cuadrado ajustadas
Parece que existen varias fórmulas para calcular el R cuadrado ajustado.
- Fórmula de Wherry:
- Fórmula de McNemar:
- Fórmula del Señor:
- Fórmula de Stein:
Descripciones de libros de texto
- Según el libro de texto de Field, Discovering Statistics Using R (2012, p. 273) R usa la ecuación de Wherry que "nos dice cuánta varianza en Y se tendría en cuenta si el modelo se hubiera derivado de la población de la que se tomó la muestra". Él no da la fórmula para Wherry. Recomienda usar la fórmula de Stein (a mano) para verificar qué tan bien el modelo valida de forma cruzada.
- Kleiber / Zeileis, Applied Econometrics with R (2008, p. 59) afirman que es "R-cuadrado ajustado de Theil" y no dicen exactamente cómo varía su interpretación de los múltiples R-cuadrados.
- Dalgaard, Introductory Statistics with R (2008, p. 113) escribe que "si multiplica [R-cuadrado ajustado] por 100%, puede interpretarse como '% de reducción de la varianza'". No dice a qué fórmula corresponde esto.
Previamente pensé, y leí ampliamente, que el R cuadrado penaliza por agregar variables adicionales al modelo. Ahora, el uso de estas fórmulas diferentes parece requerir diferentes interpretaciones. También examiné una pregunta relacionada sobre el desbordamiento de pila ( ¿Cuál es la diferencia entre el R cuadrado múltiple y el R cuadrado ajustado en una regresión de mínimos cuadrados de una sola variable? ) Y el diccionario estadístico de la escuela de Wharton en UPenn .
Preguntas
- ¿Qué fórmula se usa para R-cuadrado ajustado por R
lm()
? - ¿Cómo puedo interpretarlo?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
, donde ans $ r.squared = R ^ 2; n = n, RDF = residual df, df.int = intercepto df (0 o 1).