Estoy entrenando un modelo de clasificación con Random Forest para discriminar entre 6 categorías. Mis datos transaccionales tienen aproximadamente 60k + observaciones y 35 variables. Aquí hay un ejemplo de cómo se ve aproximadamente.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
Una vez que se crea el modelo, me gustaría calificar las observaciones de las últimas semanas. Como ha habido cambios en el sistema, las observaciones más recientes se parecerán más al entorno de las observaciones actuales que me gustaría predecir. Por lo tanto, quiero crear una variable de peso para que el Bosque aleatorio otorgue más importancia a las observaciones recientes.
¿Alguien sabe si el paquete randomForest en R puede manejar pesos por observación?
Además, ¿podría sugerir cuál es un buen método para crear la variable de peso? Por ejemplo, como mis datos son de 2013, estaba pensando que puedo tomar el número del mes desde la fecha como peso. ¿Alguien ve un problema con este método?
¡Muchas gracias de antemano!