Por un simple ejemplo, suponga que hay dos modelos de regresión lineal
- Modelo 1 tiene tres predictores,
x1a
,x2b
, yx2c
- El modelo 2 tiene tres predictores del modelo 1 y dos predictores adicionales
x2a
yx2b
Hay una ecuación de regresión poblacional donde la varianza poblacional explicada es para el Modelo 1 y para el Modelo 2. La varianza incremental explicada por el Modelo 2 en la población es \ Delta \ rho ^ 2 = \ rho ^ 2 _ {(2)} - \ rho ^ 2 _ {(1)}
Estoy interesado en obtener errores estándar e intervalos de confianza para un estimador de . Si bien el ejemplo involucra 3 y 2 predictores respectivamente, mi interés en la investigación se refiere a una amplia gama de diferentes números de predictores (por ejemplo, 5 y 30). Mi primer pensamiento fue usar como un estimador y arrancarlo, pero no estaba seguro de si esto ser apropiado
Preguntas
- ¿Es un estimador razonable de ?
- ¿Cómo se puede obtener un intervalo de confianza para el cambio de r-cuadrado de la población (es decir, )?
- ¿Bootstrapping sería apropiado para el cálculo del intervalo de confianza?
Cualquier referencia a simulaciones o la literatura publicada también sería bienvenida.
Código de ejemplo
Si ayuda, creé un pequeño conjunto de datos de simulación en R que podría usarse para demostrar una respuesta:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Motivo de preocupación con bootstrap
Ejecuté un arranque en algunos datos con alrededor de 300 casos, y 5 predictores en el modelo simple y 30 predictores en el modelo completo. Si bien la estimación de la muestra utilizando la diferencia de r-cuadrado ajustada fue 0.116
, el intervalo de confianza boostrap fue mayoritariamente un IC95% (0.095 a 0.214) y la media de los bootstraps no estuvo cerca de la estimación de la muestra. Más bien, la media de las muestras boostrapizadas parecía estar centrada en la estimación muestral de la diferencia entre los cuadrados r en la muestra. Esto a pesar del hecho de que estaba usando los cuadrados ajustados de muestra para estimar la diferencia.
Curiosamente, probé una forma alternativa de calcular como
- calcular el cambio de muestra r-cuadrado
- ajustar el cambio de r-cuadrado de muestra usando la fórmula estándar ajustada de r-cuadrado
Cuando se aplicó a los datos de la muestra, esto redujo la estimación de a pero los intervalos de confianza parecían apropiados para el método que mencioné primero, IC95% (.062, .179) con una media de .118..082
En términos generales, me preocupa que el bootstrapping suponga que la muestra es la población y, por lo tanto, estima que la reducción para el sobreajuste puede no funcionar adecuadamente.