La suspensión se usa a menudo como sinónimo de validación con un conjunto de pruebas independiente, aunque existen diferencias cruciales entre dividir los datos al azar y diseñar un experimento de validación para pruebas independientes.
Se pueden usar conjuntos de pruebas independientes para medir el rendimiento de generalización que no se puede medir mediante muestreo o validación de espera, por ejemplo, el rendimiento para casos futuros desconocidos (= casos que se miden más tarde, después de que finalice la capacitación). Esto es importante para saber cuánto tiempo se puede usar un modelo existente para nuevos datos (piense, por ejemplo, en la deriva del instrumento). En términos más generales, esto puede describirse como la medición del rendimiento de extrapolación para definir los límites de aplicabilidad.
Otro escenario en el que la retención puede ser realmente beneficiosa es: es muy fácil asegurarse de que los datos de entrenamiento y prueba estén separados adecuadamente, mucho más fácil que para la validación de remuestreo: por ejemplo
- decidir la división (p. ej., asignación aleatoria de casos)
- medida
- Los datos de medición y referencia de los casos de entrenamiento => modelado \ ni las mediciones ni la referencia de los casos de prueba se entregan a la persona que modela.
- modelo final + mediciones de los casos retenidos => predicción
- compare las predicciones con la referencia para casos retenidos.
Dependiendo del nivel de separación que necesite, cada paso puede ser realizado por otra persona. Como primer nivel, no entregar ningún dato (ni siquiera las mediciones) de los casos de prueba al modelador permite estar muy seguro de que no se filtre ningún dato de prueba en el proceso de modelado. En un segundo nivel, el modelo final y las medidas del caso de prueba podrían entregarse a otra persona, y así sucesivamente.
Sí, paga por la menor eficiencia de las estimaciones de retención en comparación con la validación de remuestreo. Pero he visto muchos documentos en los que sospecho que la validación de remuestreo no separa correctamente los casos (en mi campo tenemos muchos datos agrupados / jerárquicos / agrupados).
Aprendí mi lección sobre fugas de datos para volver a muestrear retrayendo un manuscrito una semana después del envío cuando descubrí que tenía una fuga previamente no detectada (al ejecutar pruebas de permutación) en mi procedimiento de división (error tipográfico en el cálculo del índice).
A veces, la retención puede ser más eficiente que encontrar a alguien que esté dispuesto a dedicar tiempo para verificar el código de remuestreo (por ejemplo, para datos agrupados) para obtener el mismo nivel de certeza sobre los resultados. Sin embargo, en mi humilde opinión, generalmente no es eficiente hacer esto antes de que se encuentre en la etapa en la que de todos modos necesita medir, por ejemplo, el rendimiento futuro (primer punto), en otras palabras, cuando de todos modos necesita configurar un experimento de validación para el modelo existente.
OTOH, en situaciones de tamaño de muestra pequeño, la retención no es una opción: necesita mantener suficientes casos de prueba para que los resultados de la prueba sean lo suficientemente precisos como para permitir la conclusión necesaria (recuerde: 3 de los 3 casos de prueba correctos para la clasificación significa un intervalo de confianza binomial del 95% que oscila muy por debajo de 50:50 ¡adivinando!) Frank Harrell señalaría la regla general de que al menos ca. Se necesitan 100 casos (de prueba) para medir adecuadamente una proporción [como la fracción de casos pronosticados correctamente] con una precisión útil.
Actualización: hay situaciones en las que la división adecuada es particularmente difícil de lograr, y la validación cruzada se vuelve inviable. Considere un problema con una serie de factores de confusión. La división es fácil si estos factores de confusión están estrictamente anidados (por ejemplo, un estudio con varios pacientes tiene varias muestras de cada paciente y analiza una cantidad de células de cada muestra): se divide en el nivel más alto de la jerarquía de muestreo (según el paciente) . Pero es posible que tenga factores de confusión independientes que no están anidados, por ejemplo, variación diaria o variación causada por diferentes experimentadores que ejecutan la prueba. Luego debe asegurarse de que la división sea independiente para todosfactores de confusión en el nivel más alto (los factores de confusión anidados serán automáticamente independientes). Cuidar esto es muy difícil si algunos factores de confusión solo se identifican durante el estudio, y diseñar y realizar un experimento de validación puede ser más eficiente que lidiar con divisiones que casi no dejan datos ni para entrenamiento ni para pruebas de los modelos sustitutos.