¿Los árboles CART capturan interacciones entre predictores?


9

Este artículo afirma que en CART, debido a que se realiza una división binaria en una sola covariable en cada paso, todas las divisiones son ortogonales y, por lo tanto, no se consideran las interacciones entre covariables.

Sin embargo, muchas referencias muy serias afirman, por el contrario, que la estructura jerárquica de un árbol garantiza que las interacciones entre los predictores se modelan automáticamente (por ejemplo, este documento y, por supuesto, el Hastie).

¿Quién tiene la razón? ¿Los árboles cultivados en CART capturan interacciones entre variables de entrada?


La falla en el argumento es que las divisiones se hacen en subconjuntos de covariables definidas por divisiones realizadas previamente.

@mbq, por lo que las nuevas divisiones son condicionales con respecto a las divisiones anteriores ... Ya veo ... Supongo que estaba teniendo problemas para comprender que "condicionado por una división previa realizada en un predictor dado" era equivalente a "interactuar con este predictor "...
Antoine

Respuestas:



2

Respuesta corta

Los CART necesitan ayuda para capturar interacciones.

Respuesta larga

Tome el algoritmo codicioso exacto (Chen y Guestrin, 2016):

El algoritmo codicioso exacto

La media en la hoja será una expectativa condicional, pero cada división en el camino hacia la hoja es independiente de la otra. Si la característica A no importa por sí misma, pero importa en la interacción con la característica B, el algoritmo no se dividirá en la característica A. Sin esta división, el algoritmo no puede prever la división en la característica B, necesaria para generar la interacción.

x1,x2y=XOR(x1,x2)x1x2XOR

Con muchas características, regularización y el límite estricto en el número de divisiones, el mismo algoritmo puede omitir interacciones.

Soluciones

Interacciones explícitas como nuevas características

Un ejemplo de Zhang ("Ganar concursos de ciencia de datos", 2015):

Zhang sobre interacciones

Algoritmos de árbol no codiciosos

En la otra pregunta, Simone sugiere algoritmos basados ​​en búsqueda anticipada y árboles de decisión oblicuos .

Un enfoque de aprendizaje diferente.

Algunos métodos de aprendizaje manejan mejor las interacciones.

Aquí hay una tabla de Los elementos del aprendizaje estadístico (línea "Capacidad para extraer combinaciones lineales de características"):

Comparación de métodos de aprendizaje.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.