He leído que la validación cruzada de dejar uno fuera proporciona una estimación relativamente "imparcial del verdadero rendimiento de generalización" (por ejemplo, aquí ) y que esta es una propiedad ventajosa del CV de dejar uno fuera.
Sin embargo, no veo cómo esto se deduce de las propiedades del CV de dejar uno afuera. ¿Por qué el sesgo de este estimador es bajo en comparación con otros?
Actualizar:
Sigo investigando el tema, y creo que tiene que ver con el hecho de que este estimador es menos pesimista que, digamos, la validación de K-fold, ya que usa todos los datos, excepto una instancia, pero sería genial leer un matemático derivación de esto.