¿Ventaja de GLM en nodos terminales de un árbol de regresión?

Así que estoy jugando con la idea de escribir un algoritmo que crezca y elimine un árbol de regresión de los datos y luego, en los nodos terminales del árbol, se ajuste a un GLM. He estado tratando de leer sobre la idea, pero parece que no puedo encontrar ningún nombre consistente para la técnica. Lo he leído como árboles de regresión híbrida (HRT), árboles modelo y árboles funcionales. Las búsquedas en estos términos resultan muy poco.

¿Me estoy perdiendo otro nombre para esto? ¿Dónde puedo encontrar investigaciones sobre la efectividad de esto?

regression generalized-linear-model cart

— ApeWithPants
fuente

Como usted dice, esta idea ha sido explorada antes (aunque con diferentes nombres) y en realidad hay una amplia literatura sobre ese tema. Los nombres que asocio con esta línea de trabajo son Wei-Yin Loh, Probal Chaudhuri, Hongshik Ahn, Joao Gama, Antonio Ciampi o Achim Zeileis. Puede encontrar una descripción bastante completa de pros y contras y diferentes algoritmos (ligeramente desactualizados) en esta tesis .

Los árboles con GLM tienen las siguientes (des) ventajas (parafraseado desde aquí ; puede encontrar fácilmente la preimpresión buscando en Google):

La forma funcional de un GLM a veces puede parecer demasiado rígida para todo el conjunto de datos, incluso si el modelo puede encajar bien en una submuestra.
Especialmente con grandes conjuntos de datos o conjuntos de datos donde el conocimiento sobre los procesos subyacentes es limitado, la configuración de modelos paramétricos útiles puede ser difícil y su desempeño con respecto a la predicción puede no ser suficiente.
Los árboles pueden incorporar relaciones no lineales o encontrar la relación funcional por sí mismos y, por lo tanto, pueden tener un mayor poder predictivo en entornos donde los modelos clásicos están sesgados o incluso fallan.
Debido a su carácter exploratorio, los árboles con GLM pueden revelar patrones ocultos dentro de los datos modelados con GLM o proporcionar una explicación adicional de resultados sorprendentes o contraintuitivos al incorporar información adicional de otras covariables.
Pueden ser útiles para identificar segmentos de datos para los cuales un modelo asumido a priori se ajusta bien. Puede ser que, en general, este modelo tenga un ajuste deficiente pero que esto se deba a cierta contaminación (por ejemplo, la fusión de dos archivos de datos separados o errores sistemáticos durante la recopilación de datos en una fecha determinada). Los árboles con GLM pueden dividir los datos de una manera que nos permita encontrar los segmentos que tienen un ajuste deficiente y encontrar segmentos para los cuales el ajuste puede ser bastante bueno.
La estructura en forma de árbol permite que los efectos de estas covariables sean no lineales y altamente interactivos en lugar de asumir una influencia lineal en la media vinculada.
Los árboles con GLM pueden conducir a una visión adicional para un modelo paramétrico asumido a priori, especialmente si los mecanismos subyacentes son demasiado complejos para ser capturados por el GLM.
Los árboles con GLM pueden detectar automáticamente las interacciones, la no linealidad, la especificación errónea del modelo, la influencia covariable no registrada, etc.
Se pueden usar como una herramienta exploratoria en conjuntos de datos complejos y grandes para los que tiene una serie de ventajas.
En comparación con un GLM global, un árbol modelo GLM puede aliviar el problema del sesgo y la especificación errónea del modelo y proporcionar un mejor ajuste.
En comparación con los algoritmos de árbol con constantes, la especificación de un modelo paramétrico en los nodos terminales puede agregar estabilidad adicional y, por lo tanto, reducir la varianza de los métodos de árbol.
Al ser un híbrido de árboles y modelos clásicos de tipo GLM, el rendimiento generalmente se encuentra entre esos dos polos: tienden a exhibir un mayor poder predictivo que los modelos clásicos pero menos que los árboles no paramétricos.
Añaden cierta complejidad en comparación con el modelo clásico debido al proceso de división, pero generalmente son más parsimonos que los árboles no paramétricos.
Muestran una mayor varianza de predicción que un modelo global en los experimentos de bootstrap, pero mucho menos que los árboles no paramétricos (incluso los podados).
Usar un GLM en el nodo de un árbol generalmente conduce a árboles más pequeños
El uso de un GLM en el nodo de un árbol generalmente conduce a predicciones más estables en comparación con un árbol con solo una constante (pero no tan estable como el ensacado o los bosques de árboles)
La dimensión VC de un árbol con GLM en los nodos es más alta que el árbol equivalente con solo una constante (ya que este último es un caso especial del primero)

Con respecto a la "efectividad" (supongo que se refiere al rendimiento predictivo) de los árboles con GLM, la mayoría de los documentos citados en los dos enlaces anteriores proporcionan alguna investigación al respecto. Sin embargo, no se ha hecho una comparación amplia y completa de todos los algoritmos con competidores como los árboles estándar, que yo sepa.

— Momo
fuente