Soy bastante nuevo en el aprendizaje automático, las técnicas de CART y similares, y espero que mi ingenuidad no sea demasiado obvia.
¿Cómo maneja Random Forest estructuras de datos jerárquicas o de niveles múltiples (por ejemplo, cuando la interacción entre niveles es de interés)?
Es decir, conjuntos de datos con unidades de análisis en varios niveles jerárquicos ( por ejemplo , estudiantes anidados dentro de las escuelas, con datos sobre los estudiantes y las escuelas).
Solo como ejemplo, considere un conjunto de datos de niveles múltiples con individuos en el primer nivel ( por ejemplo , con datos sobre el comportamiento de votación, demografía, etc.) anidados dentro de los países en el segundo nivel (con datos a nivel de país; por ejemplo , población):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Digamos que esa voted
es la respuesta / variable dependiente y las otras son predictoras / variables independientes. En este tipo de casos, los márgenes y los efectos marginales de una variable (dependencia parcial) para alguna variable de nivel superior ( por ejemplo , population
) para diferentes variables de nivel individual, etc., podrían ser muy interesantes. En un caso similar a este, glm
por supuesto , es más apropiado, pero cuando hay muchas variables, interacciones y / o valores faltantes, y / o conjuntos de datos a gran escala, etc., glm
no es tan confiable.
Preguntas secundarias: ¿Puede Random Forest manejar explícitamente este tipo de estructura de datos de alguna manera? Si se usa independientemente, ¿qué tipo de sesgo introduce? Si Random Forest no es apropiado, ¿existe algún otro método de tipo conjunto?
(Pregunta El bosque aleatorio en datos agrupados es quizás similar, pero realmente no responde a esto).