La definición del parámetro min_child_weight en xgboost se da como:
suma mínima de peso de instancia (hessian) necesaria en un niño. Si el paso de partición del árbol da como resultado un nodo hoja con una suma de peso de instancia menor que min_child_weight, entonces el proceso de construcción abandonará la partición adicional. En el modo de regresión lineal, esto simplemente corresponde al número mínimo de instancias necesarias para estar en cada nodo. Cuanto más grande, más conservador será el algoritmo.
He leído bastantes cosas en xgboost, incluido el documento original (consulte la fórmula 8 y la que se encuentra justo después de la ecuación 9), esta pregunta y la mayoría de las cosas relacionadas con xgboost que aparecen en las primeras páginas de una búsqueda en Google. ;)
Básicamente, todavía no estoy contento de por qué estamos imponiendo una restricción a la suma de la arpillera. Mi único pensamiento en este momento del artículo original es que se relaciona con la sección de bosquejo de cuantiles ponderados (y la reformulación a partir de la ecuación 3 pérdida cuadrada ponderada) que tiene como el 'peso' de cada instancia.
Otra pregunta se relaciona con ¿por qué es simplemente el número de instancias en modo de regresión lineal? Supongo que esto está relacionado con la segunda derivada de la ecuación de suma de cuadrados.