La población r-cuadrado se puede definir suponiendo puntuaciones fijas o puntuaciones aleatorias:
Puntuaciones fijas: el tamaño de la muestra y los valores particulares de los predictores se mantienen fijos. Por lo tanto, es la proporción de varianza explicada en el resultado por la ecuación de regresión de la población cuando los valores predictores se mantienen constantes.
Puntuaciones aleatorias: los valores particulares de los predictores se extraen de una distribución. Por lo tanto, refiere a la proporción de varianza explicada en el resultado en la población donde los valores del predictor corresponden a la distribución de la población de los predictores.
Anteriormente pregunté si esta distinción hace mucha diferencia en las estimaciones deρ 2 . También he preguntado en general sobre cómo calcular una estimación imparcial de .
Puedo ver que a medida que aumenta el tamaño de la muestra, la distinción entre puntaje fijo y puntaje aleatorio se vuelve menos importante. Sin embargo, estoy tratando de confirmar si ajustado está diseñado para estimar puntaje fijo o puntaje aleatorio .ρ 2
Preguntas
- ¿ ajustado está diseñado para estimar puntaje fijo o puntaje aleatorio ?ρ 2
- ¿Existe una explicación basada en principios de cómo la fórmula para el r-cuadrado ajustado se relaciona con una u otra forma de ?
Antecedentes de mi confusión
Cuando leo Yin y Fan (2001, p.206) escriben:
Una de las suposiciones básicas del modelo de regresión múltiple es que los valores de las variables independientes son constantes conocidas y las fija el investigador antes del experimento. Solo la variable dependiente es libre de variar de muestra a muestra. Ese modelo de regresión se llama modelo de regresión lineal fijo .
Sin embargo, en ciencias sociales y del comportamiento, los valores de las variables independientes rara vez son fijados por los investigadores y también están sujetos a errores aleatorios. Por lo tanto, se ha sugerido un segundo modelo de regresión para aplicaciones, en el que se permite que varíen las variables dependientes e independientes (Binder, 1959; Park y Dudycha, 1974). Ese modelo se llama modelo aleatorio (o modelo de corrección). Aunque las estimaciones de máxima verosimilitud de los coeficientes de regresión obtenidos de los modelos aleatorios y fijos son las mismas bajo supuestos de normalidad, sus distribuciones son muy diferentes. El modelo aleatorio es tan complejo que se necesita más investigación antes de que pueda aceptarse en lugar del modelo de regresión lineal fija comúnmente utilizado. Por lo tanto, el modelo fijo generalmente se aplica, incluso cuando los supuestos no se cumplen por completo (Claudy, 1978). Dichas aplicaciones del modelo de regresión fija con supuestos violados causarían "sobreajuste", porque el error aleatorio introducido a partir de los datos de muestra menos que perfectos tiende a capitalizarse en el proceso. Como resultado, el coeficiente de correlación múltiple de la muestra obtenido de esa manera tiende a sobreestimar la correlación múltiple de la población real (Claudy, 1978; Cohen y Cohen, 1983; Cummings, 1982).
Entonces, no estaba claro si la declaración anterior dice que ajustado compensa el error introducido por el modelo aleatorio o si esto era solo una advertencia en el documento que señalaba la existencia del modelo aleatorio, pero que el documento iba a centrarse en el modelo fijo.
Referencias
- Yin, P. y Fan, X. (2001). Estimación contracción en regresión múltiple: una comparación de diferentes métodos analíticos. The Journal of Experimental Education, 69 (2), 203-224. PDF