Larga historia corta : haz lo que @untitledprogrammer dijo, prueba ambos modelos y realiza una validación cruzada para ayudar a elegir uno.
Tanto los árboles de decisión (dependiendo de la implementación, por ejemplo, C4.5) como la regresión logística deberían ser capaces de manejar datos continuos y categóricos perfectamente. Para la regresión logística, querrás codificar de forma ficticia tus variables categóricas .
Como mencionó @untitledprogrammer, es difícil saber a priori qué técnica se basará mejor simplemente en los tipos de características que tiene, continuas o no. Realmente depende de su problema específico y de los datos que tenga. (Consulte el teorema del almuerzo gratuito )
Sin embargo, debe tener en cuenta que un modelo de regresión logística está buscando un único límite de decisión lineal en su espacio de características, mientras que un árbol de decisión esencialmente está dividiendo su espacio de características en medios espacios utilizando límites de decisión lineales alineados con ejes . El efecto neto es que tiene un límite de decisión no lineal, posiblemente más de uno.
Esto es bueno cuando sus puntos de datos no se separan fácilmente por un solo hiperplano, pero por otro lado, los árboles de decisiones son tan flexibles que pueden ser propensos a un sobreajuste. Para combatir esto, puedes intentar la poda. La regresión logística tiende a ser menos susceptible (¡pero no inmune!) Al sobreajuste.
Por último, otra cosa a tener en cuenta es que los árboles de decisión pueden tener en cuenta automáticamente las interacciones entre variables, por ejemplo, si tiene dos características independientes e . Con la regresión logística, tendrá que agregar manualmente esos términos de interacción usted mismo.x yXy
Entonces tienes que preguntarte:
- ¿Qué tipo de límite de decisión tiene más sentido en su problema particular?
- ¿Cómo quieres equilibrar el sesgo y la varianza?
- ¿Hay interacciones entre mis características?
Por supuesto, siempre es una buena idea probar ambos modelos y hacer una validación cruzada. Esto lo ayudará a descubrir cuál es más probable que tenga un mejor error de generalización.