¿Qué pasa si alta precisión de validación pero baja precisión de prueba en investigación?

Tengo una pregunta específica sobre la validación en la investigación de aprendizaje automático.

Como sabemos, el régimen de aprendizaje automático les pide a los investigadores que capaciten a sus modelos en los datos de capacitación, que elijan entre los modelos candidatos por conjunto de validación e informen la precisión del conjunto de prueba. En un estudio muy riguroso, el conjunto de prueba solo se puede usar una vez. Sin embargo, nunca puede ser el escenario de la investigación, porque tenemos que mejorar nuestro rendimiento hasta que la precisión de la prueba sea mejor que los resultados de vanguardia antes de que podamos publicar (o incluso enviar) un documento.

Ahora viene el problema. Digamos que el 50% es el resultado más avanzado, y mi modelo generalmente puede alcanzar una precisión de 50-51, que es mejor en promedio.

Sin embargo, mi mejor precisión de validación (52%) produce una precisión de prueba muy baja, por ejemplo, 49%. Luego, tengo que informar el 49% como mi rendimiento general si no puedo mejorar aún más la validación acc, lo que creo que no es de esperar. Esto realmente me impide estudiar el problema, pero no le importa a mis compañeros, porque no ven el 52% acc, lo que creo que es un caso atípico.

Entonces, ¿cómo suele ser la gente en su investigación?

La validación de ps k-fold no es de ayuda, porque la misma situación aún puede suceder.

machine-learning cross-validation reproducible-research

— Mou
fuente

Por definición, cuando la precisión del entrenamiento (o cualquier métrica que esté usando) es mayor que su prueba, tiene un modelo sobreajustado . En esencia, su modelo ha aprendido detalles que lo ayudan a desempeñarse mejor en sus datos de entrenamiento que no son aplicables a la población de datos más grande y, por lo tanto, resultan en un peor rendimiento.

No estoy seguro de por qué dices que la validación de k-fold no sería útil. Su propósito es ayudar a evitar el ajuste excesivo de sus modelos. ¿Quizás no tienes suficientes datos? Una declaración como esta es importante, especialmente si va a defender cualquier investigación cuando tales métodos de validación cruzada son muy recomendables.

Dice que no puede usar el conjunto de prueba solo una vez (¿de nuevo supongo un tamaño de muestra más pequeño?). En mi experiencia, el camino más común seguido es la validación cruzada k-fold de su modelo. Tomemos un ejemplo con un CV de 10 veces para un tamaño de muestra de 100 y supongamos que su problema de clasificación es binario para simplificar los cálculos. Por lo tanto, he dividido mis datos en 10 pliegues diferentes . Luego ajusto mi modelo a pliegues de 9/10 y luego predigo el 1/10 que dejé fuera. Para esta primera ejecución, la matriz de confusión resultante es:

    0  1
0   4  1
1   2  3

Luego repito este análisis nuevamente con el siguiente 1/10 veces fuera y entreno en el otro 9/10. Y obtengo mi próxima matriz de confusión. Una vez completado, tengo 10 matrices de confusión. Luego sumaría estas matrices (por lo que tenía las 100 muestras predichas) y luego reportaría mis estadísticas (precisión, PPV, puntaje F1, Kappa, etc.). Si su precisión no está donde desea que esté, hay muchas otras posibilidades.

Su modelo necesita ser mejorado (cambiar los parámetros)
Es posible que deba probar un algoritmo de aprendizaje automático diferente (no todos los algoritmos creados son iguales)
Necesita más datos (relación sutil difícil de encontrar)
Es posible que deba intentar transformar sus datos (dependiendo del algoritmo utilizado)
Es posible que no haya una relación entre sus variables dependientes e independientes.

El hecho es que una métrica de prueba más baja (p. Ej., Precisión) que su entrenamiento es indicativa de sobreajustar su modelo, no algo que desea cuando intenta crear un nuevo modelo predictivo.

— cdeterman
fuente

Gracias por responder. Lo que me preocupa es la investigación de aprendizaje automático para publicaciones, en lugar de aplicar técnicas de aprendizaje automático. A menudo, los puntos de referencia proporcionan la división estándar de entrenamiento, validación y conjuntos de pruebas. Además, k-fold solo reduce la varianza. Todavía puedo encontrarme con la situación, donde mi validación (promedio) acc. es alto pero la prueba acc. es bajo.

— Mou

A veces es divertido que si rediseño un poco mi modelo, puedo ignorar el valor atípico porque mi modelo (y, por lo tanto, la clase de hipótesis) cambia, pero esto no funciona para ajustar los hiperparámetros porque estamos eligiendo un modelo de la hipótesis clase. Sin embargo, de hecho, nosotros, los investigadores, tenemos una clase de hipótesis indefinida, estamos tratando de hacer lo que queramos. Eso realmente me molesta durante la investigación, ya que a menudo, la diferencia de precisión suele ser muy pequeña, digamos 0.1%.

— Mou

@ Mou, supongo que todavía estoy un poco inseguro de cuál es tu pregunta principal. Parece que hay múltiples preguntas. Tratar con valores atípicos es un tema diferente. ¿Estás tratando de optimizar los parámetros o evaluar un modelo final? Esto puede ser específico para diferentes campos, pero los cambios de 0.1% son bastante insignificantes. Puede seguir las opciones enumeradas en mi respuesta o aceptar que solo puede obtener mucho del modelo y los datos actuales. El modelo todavía parece estar sobreajustado (aunque ligeramente).

— cdeterman

Estoy de acuerdo contigo. Tengo que aceptar que mi modelo no es tan bueno. Pero hace varios días, cuando el alto cv acc. + prueba baja acc. no saltó a mi pantalla, mi modelo era la mejor del mundo. Ahora, no es así, aunque no cambié nada. Además, no tengo esperanzas de superar el 52% en cv acc., Lo que atasca mi investigación, pero mis compañeros no deben preocuparse por eso.

— Mou

Debe haber cambiado algo para que los números cambien o hay alguna aleatorización que no ha configurado seedpara tener en cuenta la reproducibilidad. Sospecho que su procedimiento de CV tiene alguna aleatorización que, cuando se repite, puede arrojar resultados ligeramente diferentes (pero esto es solo una suposición). Realmente sugiero que explore otros modelos o transformación de datos para intentar mejorar su rendimiento.

— cdeterman