Esta pregunta puede ser demasiado abierta para obtener una respuesta definitiva, pero espero que no.
Los algoritmos de aprendizaje automático, como SVM, GBM, Random Forest, etc., generalmente tienen algunos parámetros libres que, más allá de alguna guía práctica, deben ajustarse a cada conjunto de datos. Esto generalmente se hace con algún tipo de técnica de muestreo (bootstrap, CV, etc.) para ajustar el conjunto de parámetros que dan el mejor error de generalización.
Mi pregunta es, ¿puedes ir demasiado lejos aquí? La gente habla de hacer búsquedas en la cuadrícula, etc., pero ¿por qué no tratar esto simplemente como un problema de optimización y profundizar en el mejor conjunto de parámetros posible? Pregunté sobre algunos mecanismos de esto en esta pregunta, pero no ha recibido mucha atención. Tal vez la pregunta se hizo mal, pero tal vez la pregunta en sí representa un mal enfoque que la gente generalmente no hace.
Lo que me molesta es la falta de regularización. Al volver a muestrear, podría encontrar que el mejor número de árboles para crecer en un GBM para este conjunto de datos es 647 con una profundidad de interacción de 4, pero ¿qué tan seguro puedo estar de que esto sea cierto para los nuevos datos (suponiendo que la nueva población es idéntico al conjunto de entrenamiento)? Sin un valor razonable para 'reducir' (o si lo desea, sin información previa informativa) el re-muestreo parece ser lo mejor que podemos hacer. Simplemente no escucho hablar de esto, así que me pregunto si hay algo que me falta.
Obviamente, hay un gran costo computacional asociado con hacer muchas iteraciones para exprimir hasta el último bit de potencia predictiva de un modelo, por lo que claramente esto es algo que haría si tuviera el tiempo / gruñido para hacer la optimización y cada bit La mejora del rendimiento es valiosa.