En el modelo predictivo aplicado de Kuhn y Johnson, los autores escriben:
Finalmente, estos árboles sufren de sesgo de selección: los predictores con un mayor número de valores distintos se ven favorecidos sobre los predictores más granulares (Loh y Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh y Shih (1997) comentaron que “el peligro ocurre cuando un conjunto de datos consiste en una mezcla de variables informativas y de ruido, y las variables de ruido tienen muchas más divisiones que las variables informativas. Entonces existe una alta probabilidad de que las variables de ruido se elijan para dividir los nodos superiores del árbol. La poda producirá un árbol con estructura engañosa o ningún árbol en absoluto ".
Kuhn, Max; Johnson, Kjell (17/05/2013). Modelado predictivo aplicado (ubicaciones de Kindle 5241-5247). Springer Nueva York. Versión Kindle.
Continúan describiendo algunas investigaciones sobre la construcción de árboles imparciales. Por ejemplo, el modelo GUÍA de Loh.
Manteniéndome lo más estrictamente posible dentro del marco de CART, me pregunto si hay algo que pueda hacer para minimizar este sesgo de selección. Por ejemplo, quizás agrupar / agrupar predictores de alta cardinalidad es una estrategia. ¿Pero hasta qué punto se debe hacer la agrupación? Si tengo un predictor con 30 niveles, ¿debo agrupar a 10 niveles? ¿15? 5?