Quiero saber si el proceso descrito a continuación es válido / aceptable y si hay alguna justificación disponible.
La idea: los algoritmos de aprendizaje supervisados no asumen estructuras / distribuciones subyacentes sobre los datos. Al final del día, generan estimaciones puntuales. Espero cuantificar la incertidumbre de las estimaciones de alguna manera. Ahora, el proceso de construcción del modelo ML es inherentemente aleatorio (por ejemplo, en el muestreo para la validación cruzada para el ajuste de hiperparámetros y en el submuestreo en GBM estocástico), por lo que una tubería de modelado me dará una salida diferente para los mismos predictores con cada semilla diferente. Mi idea (ingenua) es ejecutar este proceso una y otra vez para llegar a una distribución de la predicción, y espero poder hacer declaraciones sobre la incertidumbre de las predicciones.
Si es importante, los conjuntos de datos con los que trabajo suelen ser muy pequeños (~ 200 filas).
¿Esto tiene sentido?
Para aclarar, en realidad no estoy cargando los datos en el sentido tradicional (es decir, no estoy volviendo a muestrear los datos). Se usa el mismo conjunto de datos en cada iteración, solo estoy explotando la aleatoriedad en xval y GBM estocástico.