Estoy usando el paquete randomForest en R para desarrollar un modelo de bosque aleatorio para tratar de explicar un resultado continuo en un conjunto de datos "amplio" con más predictores que muestras.
Específicamente, estoy ajustando un modelo de RF que permite que el procedimiento seleccione de un conjunto de ~ 75 variables predictoras que considero importantes.
Estoy probando qué tan bien ese modelo predice el resultado real para un conjunto de pruebas reservado, usando el enfoque publicado aquí anteriormente , a saber,
... o en R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Pero ahora tengo ~ 25 variables predictoras adicionales que puedo agregar. Cuando se usa el conjunto de ~ 100 predictores, el R² es más alto. Quiero probar esto estadísticamente, en otras palabras, cuando se usa el conjunto de ~ 100 predictores, ¿el modelo prueba significativamente mejor en los datos de prueba que el ajuste del modelo usando ~ 75 predictores? Es decir, es el R² de probar el ajuste del modelo de RF en el conjunto de datos completo significativamente más alto que el R² de probar el modelo de RF en el conjunto de datos reducido.
Esto es importante para mí, ya que estos son datos piloto, y obtener esos 25 predictores adicionales fue costoso, y necesito saber si debo pagar para medir esos predictores en un estudio de seguimiento más amplio.
Estoy tratando de pensar en algún tipo de enfoque de remuestreo / permutación, pero no se me ocurre nada.