¿Cuándo usar la impureza de Gini y cuándo usar la ganancia de información?

¿Puede alguien explicarme cuándo usar la impureza de Gini y la ganancia de información para los árboles de decisión? ¿Me puede dar situaciones / ejemplos de cuándo es mejor usar cuál?

— Jack Twain
fuente

Debería probarlos como parte del ajuste de parámetros.

Teóricamente, la impureza de Gini minimiza el puntaje de Brier, mientras que la ganancia de entropía / información minimiza la pérdida de registro, por lo que cuál de los que está interesado hace alguna diferencia. Sin embargo, otras cosas como la probabilidad de que cada uno descubra efectos multivariantes en el crecimiento de árboles codiciosos en lugar de "distraerse" con los univariantes que también juegan en las cosas. Es decir, puede obtener una mejor generalización de una métrica de impurezas que no siempre selecciona la "mejor" división.

En la práctica (en el contexto de rf, más que el carrito), he encontrado que la entropía funciona mejor para conjuntos de datos de baja dimensión más limpios en los que intenta ajustar una señal más compleja de la mejor manera posible, mientras que Gini funciona mejor para ruidosos y altamente dimensionales en los que intentas descubrir una señal simple entre muchas señales potenciales ruidosas. Sin embargo, esta es solo mi experiencia y casi seguramente no se mantendrá en todos los casos.

Nota: comenzó como un comentario, pero se eliminó y se movió a una respuesta para formatear y expandir las cosas.

— Ryan Bressler
fuente