Utilizo Python para ejecutar un modelo de bosque aleatorio en mi conjunto de datos desequilibrado (la variable de destino era una clase binaria). Al dividir el conjunto de datos de entrenamiento y prueba, luché si usar muestreo estratificado (como el código que se muestra) o no. Hasta ahora, observé en mi proyecto que el caso estratificado conduciría a un mayor rendimiento del modelo. Pero creo que si usaré mi modelo para predecir los nuevos casos que probablemente diferirían en la distribución de la clase objetivo con mi conjunto de datos actual. Así que me incliné por aflojar esta restricción y usar la división no estratificada. ¿Alguien puede dar consejos para aclarar este punto?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)