¿Puede la máquina de aumento de gradiente de Friedman lograr un mejor rendimiento que el Bosque aleatorio de Breiman ? Si es así, ¿en qué condiciones o qué tipo de conjunto de datos puede mejorar gbm?
¿Puede la máquina de aumento de gradiente de Friedman lograr un mejor rendimiento que el Bosque aleatorio de Breiman ? Si es así, ¿en qué condiciones o qué tipo de conjunto de datos puede mejorar gbm?
Respuestas:
Lo siguiente proporciona una explicación de por qué Boosting generalmente supera a Random Forest en la práctica, pero estaría muy interesado en saber qué otros factores diferentes pueden explicar la ventaja de Boosting sobre RF en entornos específicos.
Por otro lado, Boosting reduce el sesgo (al agregar cada árbol nuevo en la secuencia para capturar lo que se perdió el árbol anterior), pero también la varianza (al combinar muchos modelos).
Entonces, Boosting reduce el error en ambos frentes, mientras que RF solo puede reducir el error a través de la reducción de la varianza. Por supuesto, como dije, podría haber otras explicaciones para el mejor desempeño de Boosting observado en la práctica. Por ejemplo, en la página 591 del libro mencionado, se dice que Boosting supera a RF en el problema de la esfera anidada porque en ese caso particular el límite de decisión real es aditivo . (?) También informan que Boosting funciona mejor que RF para el correo no deseado y los datos de vivienda de California.
Otra referencia que encontró que Boosting supera a RF es Caruana y Niculescu-Mizil 2006 . Desafortunadamente, informan los resultados pero no intentan explicar qué los causa. Compararon los dos clasificadores (y muchos más) en 11 problemas de clasificación binaria para 8 métricas de rendimiento diferentes.
Como lo dijo bayerj, ¡no hay forma de saber a priori!
Los bosques aleatorios son relativamente fáciles de calibrar: los parámetros predeterminados de la mayoría de las implementaciones (R o Python, por ejemplo) logran excelentes resultados.
Por otro lado, los GBM son difíciles de ajustar (un número demasiado grande de árboles conduce al sobreajuste, la profundidad máxima es crítica, la tasa de aprendizaje y el número de árboles actúan juntos ...) y más largos para entrenar (las implementaciones multiproceso son escasas) . Una sintonización suelta puede llevar a un bajo rendimiento.
Sin embargo, según mi experiencia, si pasa suficiente tiempo en GBM, es probable que logre un mejor rendimiento que el bosque aleatorio.
A loosely performed tuning may lead to dramatic performance?
¡Cuidado con la mala interpretación, porque en inglés dramatic
significa muy bueno, excepcional, fenomenal, etc.! Supongo que eso es lo contrario de lo que querías decir ... Además, ¿tienes alguna explicación sobre por qué los GBM ajustados cuidadosamente superan a la RF? Esta es básicamente la pregunta ...