antecedentes:
En xgboost, la iteración intenta ajustar un árbol sobre todos los ejemplos, lo que minimiza el siguiente objetivo:
donde son primer orden y de segundo orden sobre nuestra mejor estimación anterior (de la iteración ):
y es nuestra función de pérdida.
La pregunta (finalmente):
Cuando y consideran una característica específica en una división específica, usan la siguiente heurística para evaluar solo algunos candidatos divididos: clasifican todos los ejemplos por su , pasan la lista ordenada y suman su segunda derivada . Consideran un candidato dividido solo cuando la suma cambia más de . ¿¿¿Porqué es eso???
La explicación que me dan se me escapa:
Afirman que podemos reescribir la ecuación anterior así:
y no sigo el álgebra, ¿puedes mostrar por qué es igual?
Y luego afirman que "esto es exactamente una pérdida cuadrática ponderada con etiquetas y pesos ", una declaración con la que estoy de acuerdo, pero no entiendo cómo se relaciona con el algoritmo de candidato dividido que están usando ...
Gracias y lo siento si es demasiado largo para este foro.