Tengo algunos modelos predictivos cuyo rendimiento me gustaría probar (es decir, tomar mi conjunto de datos, "rebobinarlo" a un punto anterior en el tiempo y ver cómo el modelo hubiera funcionado de manera prospectiva).
El problema es que algunos de mis modelos se construyeron a través de un proceso interactivo. Por ejemplo, siguiendo el consejo de las Estrategias de modelado de regresión de Frank Harrell , en un modelo utilicé splines cúbicas restringidas para manejar posibles asociaciones no lineales entre las características y la respuesta. Asigné los grados de libertad de cada spline en función de una combinación de conocimiento de dominio y medidas univariadas de fuerza de asociación. Pero los grados de libertad que quiero permitir a mi modelo obviamente dependen del tamaño del conjunto de datos, que varía drásticamente cuando se realiza una prueba inversa. Si no quiero seleccionar manualmente los grados de libertad por separado para cada vez que se realiza una prueba de retroceso del modelo, ¿cuáles son mis otras opciones?
Para otro ejemplo, actualmente estoy trabajando en la detección de valores atípicos mediante la búsqueda de puntos con un alto apalancamiento. Si estuviera contento de hacer esto a mano, simplemente miraría cada punto de datos de alto apalancamiento, comprobaría que los datos estaban limpios y los filtraría o los limpiaría a mano. Pero esto se basa en un montón de conocimientos de dominio, por lo que no sé cómo automatizar el proceso.
Agradecería consejos y soluciones tanto (a) al problema general de automatizar partes interactivas del proceso de construcción del modelo, o (b) consejos específicos para estos dos casos. ¡Gracias!