¿Pueden los modelos CART hacerse robustos?


14

Un colega de mi oficina me dijo hoy: "Los modelos de árbol no son buenos porque quedan atrapados por observaciones extremas".

Una búsqueda aquí resultó en este hilo que básicamente respalda el reclamo.

Lo que me lleva a la pregunta: ¿bajo qué situación puede ser robusto un modelo CART y cómo se muestra?

Respuestas:


15

No, no en sus formas actuales. El problema es que no se puede hacer que las funciones de pérdida convexa sean robustas a la contaminación por valores atípicos (esto es un hecho bien conocido desde los años 70 pero se sigue redescubriendo periódicamente; consulte, por ejemplo, este documento para un reciente descubrimiento de este tipo):

http://www.cs.columbia.edu/~rocco/Public/mlj9.pdf

Ahora, en el caso de los árboles de regresión, se puede usar el hecho de que CART usa marginales (o, alternativamente, proyecciones univariadas): se puede pensar en una versión de CART donde el criterio SD se reemplaza por una contraparte más sólida (MAD o mejor aún, Estimador Qn).

Editar:

Recientemente me encontré con un artículo anterior que implementaba el enfoque sugerido anteriormente (usando un estimador de escala M robusto en lugar del MAD). Esto impartirá robustez a los valores atípicos "y" para CART / RF (pero no a los valores atípicos ubicados en el espacio de diseño, lo que afectará las estimaciones de los hiperparámetros del modelo). Consulte:

Galimberti, G., Pillati, M. y Soffritti, G. (2007). Robustos árboles de regresión basados ​​en estimadores M. Statistica, LXVII, 173-190.


Gracias kwak Este artículo parece estar hablando de métodos de impulso. ¿Los resultados que presentan son válidos para el caso clasificador simple de un modelo CART? (en la superficie suena así, pero no revisé el artículo lo suficiente como para saber realmente)
Tal Galili

El resultado que presentan es válido para cualquier función de pérdida convexa, y fue discutido inicialmente por Tukey. Para resumir, la medida de propagación (Gini o entropía) utilizada para cuantificar la calidad de un nodo es sensible a la contaminación por valores atípicos (es decir, observaciones que están mal etiquetadas en el conjunto de datos). Este problema afecta tanto al edificio como a la etapa de poda. La contaminación de un conjunto de datos mediante la observación con una etiqueta imputada incorrectamente generalmente hará que el árbol resultante sea demasiado complejo (puede verificarlo usted mismo con bastante facilidad).
user603

Gracias Kwak! ¿Y no hay una función de pérdida que sea robusta?
Tal Galili

1
Sin función de pérdida convexa . Consulte este artículo "Un algoritmo rápido para el estimador determinante de covarianza mínimo" para ver un ejemplo de lo que se puede hacer con funciones de pérdida no convexas (aunque no está relacionado con la clasificación, vale la pena leer el artículo).
user603

2
@Tal CART es equivalente a impulsar, de un "clasificador de pivote" (el criterio que se encuentra en cada nodo del árbol, como un atributo mayor que algo o algún valor de atributo en establecer algo).

6

Podría considerar usar el ensacado de Breiman o los bosques aleatorios . Una buena referencia es Breiman "Bagging Predictors" (1996). También se resume en "Árboles de clasificación y regresión, embolsado y refuerzo" de Clifton Sutton en el Manual de estadísticas.

También puede ver la discusión de Andy Liaw y Matthew Wiener R News sobre el paquete randomForest.


2
No es para estropear la fiesta, pero es un misterio cómo se supone que el bosque aleatorio proporcionó robustez a la contaminación por los valores atípicos.
user603

3
@kwak Aún así, esta es una buena respuesta; los árboles en RF no ven todo el conjunto, por lo que muchos de ellos no estarán contaminados. Aún mejor: el seguimiento de las hojas en las que aparecen los casos OOB puede usarse para encontrar objetos mal etiquetados y eliminarlos. (Como recuerdo ahora, esto se menciona en el artículo de Breiman sobre RF).

44
El problema es que los valores atípicos harán que algunos árboles 'malos' (es decir, contaminados) se vean mejor que los buenos (no contaminados). Esto se llama efecto de enmascaramiento y es fácil de replicar con datos simulados. El problema surge porque el criterio que utiliza para evaluar los árboles no es en sí mismo sólido para los valores atípicos. Sé que estoy empezando a sonar como un mullah fundamentalista, pero a menos que todas y cada una de las herramientas que utilices sean robustas, se puede demostrar que tu procedimiento es sensible (en un nivel u otro) a los valores atípicos (y, por lo tanto, no es robusto).
user603

3

Si revisa el paquete 'gbm' en R (aumento de gradiente generalizado), el 'aumento' usa funciones de pérdida que no son necesariamente un error cuadrático medio. Esto se muestra en el argumento 'distribución' para la función 'gbm ()'. Por lo tanto, la elaboración del árbol a través del refuerzo será resistente a los valores atípicos, similar a cómo funcionan los estimadores M.

Podrías comenzar aquí .

Otro enfoque sería construir el árbol de la manera habitual (particiones basadas en SSE), pero podar el árbol mediante validación cruzada con una medida robusta de ajuste. Creo que xpred en rpart dará predictores con validación cruzada (para una variedad de diferentes complejidades de árbol), que luego puede aplicar su propia medida de error, como el valor absoluto medio.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.