La validación cruzada K-fold (CV) divide aleatoriamente sus datos en particiones K y, a su vez, mantiene una de esas partes K como un caso de prueba y agrupa las otras partes K-1 como datos de entrenamiento. Leave One Out (LOO) es el caso especial en el que tomas tus N elementos de datos y haces N-fold CV. En cierto sentido, Hold Out es otro caso especial, donde solo elige uno de sus K pliegues como prueba y no gira a través de todos los K pliegues.
Hasta donde yo sé, el CV 10 veces es más o menos el rigor, ya que utiliza sus datos de manera eficiente y también ayuda a evitar elecciones de partición desafortunadas. Hold Out no hace un uso eficiente de sus datos, y LOO no es tan robusto (o algo así), pero 10 veces es correcto.
Si sabe que sus datos contienen más de una categoría, y una o más categorías son mucho más pequeñas que el resto, algunas de sus particiones aleatorias K podrían no contener ninguna de las categorías pequeñas, lo que sería malo. Para asegurarse de que cada partición sea razonablemente representativa, utilice la estratificación: divida sus datos en categorías y luego cree particiones aleatorias eligiendo aleatoria y proporcionalmente de cada categoría.
Todas estas variaciones en K-fold CV eligen entre sus datos sin reemplazo. El programa de arranque elige datos con reemplazo, por lo que el mismo dato se puede incluir varias veces y es posible que algunos datos no se incluyan en absoluto. (Cada "partición" también tendrá N elementos, a diferencia de K-fold, en el que cada partición tendrá N / K elementos).
(Sin embargo, tendré que admitir que no sé exactamente cómo se usaría el bootstrap en el CV. El principio de las pruebas y el CV es asegurarse de que no pruebes los datos en los que entrenaste, para que obtengas Una idea más realista de cómo su técnica + coeficientes podrían funcionar en el mundo real).
EDITAR: Se reemplazó "Hold Out no es eficiente" con "Hold Out no hace un uso eficiente de sus datos" para ayudar a aclarar, según los comentarios.