Estoy más (y con mayor frecuencia) molesto por la "validación" que apunta al error de generalización de los modelos predictivos en los que los datos de la prueba no son independientes (p. Ej., Por lo general, las mediciones múltiples por paciente en los datos, fuera de la rutina o las mediciones de división de validación cruzada no pacientes ).
Aún más molesto, los documentos que dan resultados de validación cruzada tan defectuosos más un conjunto de pruebas independiente que demuestra el sesgo demasiado optimista de la validación cruzada, pero ni una sola palabra de que el diseño de la validación cruzada es incorrecto ...
(Estaría perfectamente feliz si se presentaran los mismos datos "sabemos que la validación cruzada debería dividir a los pacientes, pero estamos atascados con un software que no permite esto. Por lo tanto, probamos un conjunto de pacientes de prueba verdaderamente independiente además ")
(También soy consciente de que bootstrapping = remuestreo con reemplazo generalmente funciona mejor que la validación cruzada = remuestreo sin reemplazo. Sin embargo, encontramos datos espectroscópicos (espectros simulados y configuración de modelo ligeramente artificial pero espectros reales) que validaron cruzados repetidos / iterados y fuera -of-bootstrap tenía una incertidumbre general similar; oob tenía más sesgo pero menos varianza: para reencontrar, estoy mirando esto desde una perspectiva muy pragmática: la validación cruzada repetida vs fuera de bootstrap no importa siempre que muchos documentos ni dividir según el paciente ni informar / discutir / mencionar la incertidumbre aleatoria debido al tamaño limitado de la muestra de prueba).
Además de estar equivocado, esto también tiene el efecto secundario de que las personas que realizan una validación adecuada a menudo tienen que defender por qué sus resultados son mucho peores que todos los demás resultados en la literatura.