Estoy usando un bosque aleatorio en datos agrupados de alta dimensión (50 variables de entrada numéricas) que tienen una estructura jerárquica. Los datos se recopilaron con 6 repeticiones en 30 posiciones de 70 objetos diferentes, lo que resultó en 12600 puntos de datos, que no son independientes.
Parece que el bosque aleatorio está sobreajustando los datos, ya que el error oob es mucho más pequeño que el error que obtenemos al dejar datos de un objeto durante el entrenamiento y luego predecir el resultado del objeto dejado fuera con el bosque aleatorio entrenado. Además, tengo residuos correlacionados.
Creo que el sobreajuste se debe a que el bosque aleatorio espera datos independientes. ¿Es posible decirle al bosque aleatorio sobre la estructura jerárquica de los datos? ¿O hay otro método poderoso de conjunto o contracción que puede manejar datos agrupados de alta dimensión con una estructura de interacción fuerte?
¿Alguna pista de cómo puedo hacerlo mejor?