XGBoost para clasificación es un modelo que combina los principios de los árboles de decisión y la regresión logística.
La función de regresión logística calcula las probabilidades que son lineales en la escala logit:
z=XwP(y=1|X)=11+exp(−z)
A diferencia de la regresión logística, las "características" en X se construyen como los nodos terminales de un conjunto de árboles de decisión, por lo que cada fila de Xrecoge las hojas terminales para cada muestra; la fila es unTvector binario de disparo, para TEl número de árboles. (Cada árbol XGBoost se genera de acuerdo con un algoritmo particular, pero eso no es relevante aquí).
Existen n columnas en X, una columna para cada nodo terminal. No existe una expresión para el número total de nodos terminales, porque el número de nodos puede variar entre los árboles (y, por lo general, lo hace, en mi experiencia).
Cada hoja del árbol tiene un "peso" asociado. Ese peso se registra enw. Ser conforme conX, existen n elementos en w.
O, como alternativa, las probabilidades de registro para una muestra es la suma de los pesos de sus hojas terminales. La probabilidad de que la muestra pertenezca a la clase 1 es la transformación de logit inverso de la suma.