Todavía no he intentado retener datos para predecir, pero mi intuición es que fijar las covarianzas a cero en su modelo es análogo a predecir un DV combinando un conjunto de ecuaciones de regresión lineal separadas de un solo IV. A diferencia de este enfoque, la regresión múltiple explica la covarianza en los IV cuando se produce un modelo de ecuaciones para predecir la DV. Esto ciertamente mejora la interpretabilidad al separar los efectos directos de los efectos indirectos que ocurren completamente dentro del conjunto incluido de IV. Honestamente, no estoy seguro de si esto necesariamente mejora la predicción del DV. Siendo un usuario de estadísticas y no un estadístico, reuní la siguiente función de prueba de simulación para dar una respuesta incompleta (aparentemente, "Sí, la precisión predictiva mejora cuando el modelo incorpora covarianza IV") en este caso con suerte análogo ...
simtestit=function(Sample.Size=100,Iterations=1000,IV.r=.3,DV.x.r=.4,DV.z.r=.4) {
require(psych); output=matrix(NA,nrow=Iterations,ncol=6); for(i in 1:Iterations) {
x=rnorm(Sample.Size); z=rnorm(Sample.Size)+x*IV.r
y=rnorm(Sample.Size)+x*DV.x.r+z*DV.z.r
y.predicted=x*lm(y~x+z)$coefficients[2]+z*lm(y~x+z)$coefficients[3]
bizarro.y.predicted=x*lm(y~x)$coefficients[2]+z*lm(y~z)$coefficients[2]
output[i,]=c(cor(y.predicted,y)^2,cor(bizarro.y.predicted,y)^2,
cor(y.predicted,y)^2>cor(bizarro.y.predicted,y)^2,cor(x,z),cor(x,y),cor(y,z))}
list(output=output,percent.of.predictions.improved=100*sum(output[,3])/Iterations,
mean.improvement=fisherz2r(mean(fisherz(output[,1])-fisherz(output[,2]))))}
# Wrapping the function in str( ) gives you the gist without filling your whole screen
str(simtestit())
norte= Iterations
norteSample.Size
z
= x
+y
= x
+ z
+y
x
z
1y.predicted
2bizarro.y.predicted
output
Iterations
R2121 > 2rx
y
z
output
simtestit()
str( )
R2 se mejoró utilizando (1rpsych
paquete).
R2R2 parece ser mayor cuando la covarianza de los IV (que puede manipularse de forma incompleta ingresando un argumento paraIV.r
) es más grande. Dado que probablemente esté más familiarizado con su función GLM que yo (lo cual no está en absoluto), probablemente podría cambiar esta función o utilizar la idea básica para comparar las predicciones GLM a través de la cantidad de IV que desee sin demasiados problemas. Suponiendo que resultaría (o lo hace) de la misma manera, parecería que la respuesta básica a su segunda pregunta es probablemente sí, pero cuánto depende de cuán fuertemente covary el IV. Las diferencias en el error de muestreo entre los datos retenidos y los datos utilizados para ajustar el modelo podrían abrumar la mejora en su precisión predictiva dentro del último conjunto de datos, porque nuevamente, la mejora parece ser pequeña a menos que las correlaciones IV sean fuertes (al menos, en el caso máximo básico con solo dos IV).