He estado analizando un conjunto de datos de ~ 400k registros y 9 variables. La variable dependiente es binaria. He ajustado una regresión logística, un árbol de regresión, un bosque aleatorio y un árbol impulsado por gradiente. Todos ellos dan virtualmente idénticos números de bondad de ajuste cuando los valido en otro conjunto de datos.
¿Por qué esto es tan? Supongo que es porque mis observaciones a la relación variable son muy altas. Si esto es correcto, ¿con qué relación de observación a variable los diferentes modelos comenzarán a dar resultados diferentes?