Tengo un conjunto de datos con 5.818.446 líneas y 51 columnas, de las cuales 50 son predictores. Mi respuesta es cuantitativa, así que estoy interesado en un modelo de regresión. Estoy tratando de ajustar un bosque aleatorio a mis datos usando el paquete caret. Sin embargo, no tengo suficiente RAM para hacerlo.
He estado buscando soluciones a mi problema. Además de tener una computadora más poderosa, parece que puedo usar el embolsado para resolver mi problema. Por lo tanto, mi idea es la siguiente:
Crear particiones de entrenamiento y prueba desde mi conjunto de datos original
Muestra con reemplazo de una pequeña parte de mi conjunto de datos del tren en R (digamos 1%, es decir, 58,185 líneas)
Ajustar un bosque aleatorio a esta pequeña parte de datos
Guardar el resultado del modelo
Repita los pasos 2-4 1,000 veces
Combina estos 1,000 modelos obtenidos de los pasos 2-5
Sin embargo, el bosque aleatorio en sí mismo usa el embolsado para ajustar el modelo a los datos y, por lo tanto, no estoy seguro de si mi enfoque es correcto. Por lo tanto, tengo algunas preguntas para ti:
i) ¿Es correcto mi enfoque? Quiero decir, dado que no tengo suficiente RAM en mi sistema, ¿es correcto ajustar muchos modelos de bosque aleatorios diferentes a diferentes fragmentos de datos y combinarlos después?
ii) Suponiendo que mi enfoque es correcto, ¿el 1% de los datos es una buena regla general para el tamaño de mi muestra? Incluso con el 1% de los datos, todavía tengo .
iii) Suponiendo que mi enfoque es correcto, ¿hay varias réplicas para los modelos que debería usar? Pensé en 1,000 por razones.
l1regularización, que generalmente reduce el peso de los componentes insignificantes a casi cero, para que pueda ver mediante inspección qué árboles debe mantener.