Enumeraré algunas propiedades y luego le daré mi valoración de lo que vale:
- CHAID usa divisiones de múltiples vías por defecto (las divisiones de múltiples vías significan que el nodo actual se divide en más de dos nodos). Esto puede o no ser deseado (puede conducir a mejores segmentos o una interpretación más fácil). Sin embargo, lo que definitivamente hace es reducir el tamaño de la muestra en los nodos y, por lo tanto, generar árboles menos profundos. Cuando se usa con fines de segmentación, esto puede ser contraproducente pronto, ya que CHAID necesita una muestra de gran tamaño para funcionar bien. CART realiza divisiones binarias (cada nodo se divide en dos nodos secundarios) de forma predeterminada.
- CHAID está destinado a trabajar con objetivos categóricos / discretizados (XAID fue para regresión, pero tal vez se han fusionado desde entonces). CART definitivamente puede hacer regresión y clasificación.
- CHAID utiliza una idea previa a la poda . Un nodo solo se divide si se cumple un criterio de significación. Esto se relaciona con el problema anterior de necesitar grandes tamaños de muestra ya que la prueba Chi-Square tiene solo poca potencia en muestras pequeñas (que efectivamente se reduce aún más por una corrección de Bonferroni para múltiples pruebas). CART, por otro lado, crece un árbol grande y luego poda el árbol nuevamente a una versión más pequeña.
- Por lo tanto, CHAID intenta evitar el sobreajuste desde el principio (solo se divide si hay una asociación significativa), mientras que CART puede sobreajustar fácilmente a menos que el árbol se pode . Por otro lado, esto permite que CART funcione mejor que CHAID dentro y fuera de la muestra (para una combinación de parámetros de ajuste dada).
- La diferencia más importante en mi opinión es que la selección de variables divididas y puntos divididos en CHAID se confunde menos fuertemente que en CART . Esto es en gran medida irrelevante cuando los árboles se usan para la predicción, pero es un problema importante cuando los árboles se usan para la interpretación: se dice que un árbol que tiene esas dos partes del algoritmo muy confundidas está "sesgado en la selección de variables" (un nombre desafortunado) . Esto significa que la selección de variables divididas prefiere variables con muchas divisiones posibles (por ejemplo, predictores métricos). CART está muy "sesgado" en ese sentido, CHAID no tanto.
- Con las divisiones sustitutas, CART sabe cómo manejar los valores perdidos (las divisiones sustitutas significan que con los valores perdidos (NA) para las variables predictoras, el algoritmo usa otras variables predictoras que no son tan "buenas" como la variable dividida primaria pero imitan las divisiones producidas por la primaria disidente). CHAID no tiene tal cosa afaik.
Entonces, dependiendo de para qué lo necesite, sugeriría usar CHAID si la muestra es de algún tamaño y los aspectos de interpretación son más importantes. Además, si se desean divisiones de vías múltiples o árboles más pequeños, CHAID es mejor. CART, por otro lado, es una máquina de predicción que funciona bien, por lo que si la predicción es su objetivo, iría por CART.