Bosque aleatorio en datos agrupados


10

Estoy usando un bosque aleatorio en datos agrupados de alta dimensión (50 variables de entrada numéricas) que tienen una estructura jerárquica. Los datos se recopilaron con 6 repeticiones en 30 posiciones de 70 objetos diferentes, lo que resultó en 12600 puntos de datos, que no son independientes.

Parece que el bosque aleatorio está sobreajustando los datos, ya que el error oob es mucho más pequeño que el error que obtenemos al dejar datos de un objeto durante el entrenamiento y luego predecir el resultado del objeto dejado fuera con el bosque aleatorio entrenado. Además, tengo residuos correlacionados.

Creo que el sobreajuste se debe a que el bosque aleatorio espera datos independientes. ¿Es posible decirle al bosque aleatorio sobre la estructura jerárquica de los datos? ¿O hay otro método poderoso de conjunto o contracción que puede manejar datos agrupados de alta dimensión con una estructura de interacción fuerte?

¿Alguna pista de cómo puedo hacerlo mejor?


¿Cuál es la naturaleza de los datos jerárquicos? ¿Le permite usar las hojas de datos como sus puntos de datos?
casperOne

1
¿Has considerado arrancar el nivel más alto de la jerarquía, en lugar del individuo?
generic_user

Respuestas:


1

Muy tarde a la fiesta también, pero creo que eso podría estar relacionado con algo que hice hace unos años. Ese trabajo se publicó aquí:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

y se trata de tratar la correlación variable en un conjunto de árboles de decisión. Debe echar un vistazo a la bibliografía que señala muchas propuestas para tratar este tipo de problemas (que es común en el área "genética").

El código fuente está disponible aquí (pero ya no se mantiene).


-1

El ajuste excesivo del bosque aleatorio puede ser causado por diferentes razones, y depende en gran medida de los parámetros de RF. No está claro en su publicación cómo sintonizó su RF.

Aquí hay algunos consejos que pueden ayudar:

  1. Aumentar el número de árboles

  2. Ajuste la profundidad máxima de los árboles. Este parámetro depende en gran medida del problema en cuestión. Usar árboles más pequeños puede ayudar con el problema de sobreajuste.


2
Muy tarde para la fiesta, pero esta respuesta no resolverá ningún problema debido a la naturaleza jerárquica del conjunto de datos.
Cbeleites descontento con SX
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.