En psicología y otros campos, a menudo se emplea una forma de regresión gradual que implica lo siguiente:
- Observe los predictores restantes (al principio no hay ninguno en el modelo) e identifique el predictor que resulta en el mayor cambio de r-cuadrado;
- Si el valor p del cambio de r-cuadrado es menor que alfa (típicamente .05), entonces incluya ese predictor y regrese al paso 1, de lo contrario deténgase.
Por ejemplo, vea este procedimiento en SPSS .
El procedimiento se critica habitualmente por una amplia gama de razones (consulte esta discusión en el sitio web de Stata con referencias ).
En particular, el sitio web de Stata resume varios comentarios de Frank Harrell. Estoy interesado en el reclamo:
[regresión por pasos] produce valores de R cuadrado que están muy sesgados para ser altos.
Específicamente, parte de mi investigación actual se enfoca en estimar el r-cuadrado de la población . Por población r-cuadrado me refiero al porcentaje de varianza explicado por la ecuación de generación de datos de población en la población. Gran parte de la literatura existente que estoy revisando ha utilizado procedimientos de regresión gradual y quiero saber si las estimaciones proporcionadas están sesgadas y, en caso afirmativo, en qué medida. En particular, un estudio típico tendría 30 predictores, n = 200, alfa de entrada de .05 y estimaciones de r-cuadrado alrededor de .50.
Lo que sí sé
- Asintóticamente, cualquier predictor con un coeficiente distinto de cero sería un predictor estadísticamente significativo, y r-cuadrado sería igual a r-cuadrado ajustado. Por lo tanto, la regresión escalonada asintóticamente debería estimar la ecuación de regresión verdadera y la verdadera r-cuadrado de la población.
- Con tamaños de muestra más pequeños, la posible omisión de algunos predictores dará como resultado un r-cuadrado más pequeño que si se hubieran incluido todos los predictores en el modelo. Pero también el sesgo habitual de r-cuadrado para muestrear datos aumentaría el r-cuadrado. Por lo tanto, mi ingenuo pensamiento es que, potencialmente, estas dos fuerzas opuestas podrían, bajo ciertas condiciones, dar como resultado un r-cuadrado imparcial. Y de manera más general, la dirección del sesgo dependería de varias características de los datos y los criterios de inclusión alfa.
- Establecer un criterio de inclusión alfa más estricto (p. Ej., .01, .001, etc.) debería reducir el r-cuadrado estimado esperado porque la probabilidad de incluir cualquier predictor en cualquier generación de datos será menor.
- En general, r-cuadrado es una estimación sesgada hacia arriba de la población de r-cuadrado y el grado de este sesgo aumenta con más predictores y tamaños de muestra más pequeños.
Pregunta
Entonces, finalmente, mi pregunta:
- ¿En qué medida el r-cuadrado de la regresión gradual da como resultado una estimación sesgada de la población r-cuadrado?
- ¿En qué medida este sesgo está relacionado con el tamaño de la muestra, el número de predictores, el criterio de inclusión alfa o las propiedades de los datos?
- ¿Hay alguna referencia sobre este tema?