Preguntas etiquetadas con boosting

Una familia de algoritmos que combina modelos débilmente predictivos en un modelo fuertemente predictivo. El enfoque más común se denomina aumento de gradiente, y los modelos débiles más utilizados son los árboles de clasificación / regresión.


2
Gradient Boosting Tree vs Random Forest
El impulso del árbol de gradiente propuesto por Friedman utiliza árboles de decisión como aprendices básicos. Me pregunto si deberíamos hacer que el árbol de decisión base sea lo más complejo posible (completamente desarrollado) o más simple. ¿Hay alguna explicación para la elección? Random Forest es otro método de conjunto …






1
¿Diferencias matemáticas entre GBM, XGBoost, LightGBM, CatBoost?
Existen varias implementaciones de la familia de modelos GBDT, tales como: GBM XGBoost LightGBM Catboost. ¿Cuáles son las diferencias matemáticas entre estas diferentes implementaciones? Catboost parece superar a las otras implementaciones incluso utilizando solo sus parámetros predeterminados de acuerdo con este punto de referencia , pero sigue siendo muy lento. …
33 boosting  xgboost 



5
¿Qué significa la profundidad de interacción en GBM?
Tenía una pregunta sobre el parámetro de profundidad de interacción en gbm en R. Esta puede ser una pregunta novata, por lo que me disculpo, pero ¿cómo el parámetro, que creo que denota el número de nodos terminales en un árbol, básicamente indica X-way interacción entre los predictores? Solo trato …

1
Aproximación de la función de pérdida XGBoost con la expansión Taylor
Como ejemplo, tome la función objetivo del modelo XGBoost en la iteración :ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) donde es la función de pérdida, es la salida del árbol ' y es la regularización. Uno de los (muchos) pasos clave para el cálculo rápido es la aproximación:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), donde y son las derivadas …

3
Al impulsar, ¿por qué los alumnos son "débiles"?
Consulte también una pregunta similar sobre estadísticas . Al impulsar algoritmos como AdaBoost y LPBoost , se sabe que los alumnos "débiles" que se combinan solo tienen que rendir mejor que la posibilidad de ser útiles, de Wikipedia: Los clasificadores que utiliza pueden ser débiles (es decir, mostrar una tasa …


2
Sobre la "fuerza" de los alumnos débiles
Tengo varias preguntas estrechamente relacionadas con los alumnos débiles en el aprendizaje conjunto (por ejemplo, impulsar). Esto puede sonar tonto, pero ¿cuáles son los beneficios de usar estudiantes débiles en lugar de fuertes? (por ejemplo, ¿por qué no impulsar con métodos de aprendizaje "fuertes"?) ¿Existe algún tipo de fuerza "óptima" …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.