¿Random Forest es adecuado para conjuntos de datos muy pequeños?


13

Tengo un conjunto de datos que comprende 24 filas de datos mensuales. Las características son PIB, llegadas al aeropuerto, mes y algunos otros. La variable dependiente es el número de visitantes a un destino turístico popular. ¿Random Forest sería adecuado para tal problema?

Los datos no son públicos, por lo que no puedo publicar una muestra.


Por lo general, la única restricción en el bosque aleatorio es que su número de características debe ser bastante grande: el primer paso de RF es elegir características 1/3n o sqrt (n) para construir un árbol (dependiendo de la tarea, regresión / clasificación). Entonces, si tiene muchas funciones, use RF incluso en conjuntos de datos pequeños: no hay ningún algoritmo que funcione realmente bien en conjuntos de datos pequeños, por lo que no pierde nada.
Alemán Demidov el

Estás en el rango bajo. RF funcionará, pero probablemente no aprenderá cosas mucho más complejas de lo que podría darse cuenta al destacar los datos sin procesar. Ayuda, si sus datos tienen muy poco ruido. De 40 a 50 muestras comienza a mejorar. 500 bien. 5000 asombroso.
Soren Havelund Welling

para la regresión, la profundidad del árbol posible está limitada por minnodo = 5, por lo que sus muestras en promedio no se dividirían más de 2 veces [[24 -> (1) 12 -> (2) 6.]] Incluyendo la limitación de mtry, el el modelo tendría dificultades para capturar cualquier efecto de interacción o incluso un efecto no lineal simple. Podrías jugar con minnode y mtry, pero solo debes hacerlo si tus datos son prácticamente menos ruidosos. El potencial sobre las conclusiones ajustadas sería la otra cara. Su estructura de modelo obtenida se vería como una función de paso más o menos suavizada.
Soren Havelund Welling el


Para conjuntos de datos pequeños, utilice la técnica de validación cruzada. Para obtener más información, stats.stackexchange.com/questions/19048/…
Asif Khan

Respuestas:


4

El bosque aleatorio es básicamente árboles de decisión de muestreo y entrenamiento de arranque en las muestras, por lo que la respuesta a su pregunta debe abordar esos dos.

El muestreo de Bootstrap no es una cura para muestras pequeñas . Si tiene solo veinticuatro observaciones en su conjunto de datos, entonces cada una de las muestras tomadas con reemplazo de estos datos consistirá en no más de los veinticuatro valores distintos. Mezclar los casos y no dibujar algunos de ellos no cambiaría mucho su capacidad de aprender algo nuevo sobre la distribución subyacente. Por lo tanto, una pequeña muestra es un problema para bootstrap.

Los árboles de decisión se entrenan dividiendo los datos condicionalmente en las variables predictoras, una variable a la vez, para encontrar submuestras que tengan el mayor poder discriminatorio. Si solo tiene veinticuatro casos, entonces diga que si tuvo suerte y todas las divisiones eran de tamaño uniforme, entonces con dos divisiones terminaría con cuatro grupos de seis casos, con divisiones de árboles, con ocho grupos de tres. Si calculó medias condicionales en las muestras (para predecir valores continuos en árboles de regresión o probabilidades condicionales en árboles de decisión), ¡basaría su conclusión solo en esos pocos casos! Por lo tanto, las submuestras que usaría para tomar las decisiones serían incluso más pequeñas que sus datos originales.

Con muestras pequeñas, generalmente es aconsejable utilizar métodos simples . Además, puede ponerse al día con la pequeña muestra utilizando antecedentes informativos en el entorno bayesiano (si tiene algún conocimiento razonable sobre el problema), por lo que podría considerar utilizar un modelo bayesiano a medida.


1

Por un lado, este es un pequeño conjunto de datos, y el bosque aleatorio está hambriento de datos.

Por otro lado, tal vez algo es mejor que nada. No hay nada más que decir que "Pruébelo y vea". Puedes decidir si un modelo en particular es o no "bueno"; Además, no podemos decirle si algún modelo es apto para un propósito en particular (ni querría que lo hagamos, ¡no hay costo para nosotros si nos equivocamos!).

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.