Tradicionalmente utilizamos modelos mixtos para modelar datos longitudinales, es decir, datos como:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
podemos suponer intercepción aleatoria o pendiente para diferentes personas. Sin embargo, la pregunta que estoy tratando de resolver involucrará grandes conjuntos de datos (millones de personas, 1 mes de observación diaria, es decir, cada persona tendrá 30 observaciones), actualmente no sé si hay paquetes que puedan hacer este nivel de datos.
Tengo acceso a spark / mahout, pero no ofrecen modelos mixtos, mi pregunta es, ¿hay alguna forma de que pueda modificar mis datos para poder usar RandomForest o SVM para modelar este conjunto de datos?
¿Alguna técnica de ingeniería de características que pueda aprovechar para que pueda ayudar a RF / SVM a tener en cuenta la autocorrelación?
¡Muchas gracias!
Algunos métodos potenciales, pero no podía darme el tiempo para escribirlos en chispa
¿Cómo puedo incluir efectos aleatorios en un bosque aleatorio?