Sesgo de selección en los árboles.

En el modelo predictivo aplicado de Kuhn y Johnson, los autores escriben:

Finalmente, estos árboles sufren de sesgo de selección: los predictores con un mayor número de valores distintos se ven favorecidos sobre los predictores más granulares (Loh y Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh y Shih (1997) comentaron que “el peligro ocurre cuando un conjunto de datos consiste en una mezcla de variables informativas y de ruido, y las variables de ruido tienen muchas más divisiones que las variables informativas. Entonces existe una alta probabilidad de que las variables de ruido se elijan para dividir los nodos superiores del árbol. La poda producirá un árbol con estructura engañosa o ningún árbol en absoluto ".

Kuhn, Max; Johnson, Kjell (17/05/2013). Modelado predictivo aplicado (ubicaciones de Kindle 5241-5247). Springer Nueva York. Versión Kindle.

Continúan describiendo algunas investigaciones sobre la construcción de árboles imparciales. Por ejemplo, el modelo GUÍA de Loh.

Manteniéndome lo más estrictamente posible dentro del marco de CART, me pregunto si hay algo que pueda hacer para minimizar este sesgo de selección. Por ejemplo, quizás agrupar / agrupar predictores de alta cardinalidad es una estrategia. ¿Pero hasta qué punto se debe hacer la agrupación? Si tengo un predictor con 30 niveles, ¿debo agrupar a 10 niveles? ¿15? 5?

cart bias

— dal233
fuente

Aquí hay una pregunta y respuesta relacionadas .

— dal233

Tenga en cuenta que CART no solo está sesgado contra factores con muchos niveles, sino también variables potencialmente continuas si el tamaño de su muestra es grande. ¿Hay alguna razón particular por la que desea permanecer dentro del marco de CART? Además de GUIDE, los árboles de inferencia condicional son otra opción para evitar el sesgo de selección.

— dmartin

Mi impresión es que hay más código comercial escrito para CART y, además, quiero que las cosas sean fáciles de explicar.

— dal233

Cuando dije "código comercial escrito para CART", también me refería a todo el ecosistema alrededor de CART. Como por ejemplo rpart.plot.

— dal233

? ctree y verá que el paquete de fiesta tiene muchas de las mismas características que rpart tiene. Datos que faltan se maneja a través de división sustituta así

— dmartin

Según su comentario, iría con un marco de inferencia condicional. El código está fácilmente disponible en R usando la función ctree en el paquete de fiesta. Tiene una selección variable imparcial, y aunque el algoritmo subyacente sobre cuándo y cómo hacer divisiones es diferente en comparación con CART, la lógica es esencialmente la misma. Otro beneficio esbozado por los autores (vea el documento aquí ) es que no tiene que preocuparse tanto por podar el árbol para evitar el sobreajuste. El algoritmo realmente se encarga de eso mediante el uso de pruebas de permutación para determinar si una división es "estadísticamente significativa" o no.

— dmartin
fuente