¿Debo volver a mezclar mis datos?

Tenemos un conjunto de muestras biológicas que fue bastante costoso de obtener. Ponemos estas muestras a través de una serie de pruebas para generar datos que se utilizan para construir un modelo predictivo. Para este propósito, hemos dividido las muestras en conjuntos de entrenamiento (70%) y pruebas (30%). Hemos creado con éxito un modelo y lo hemos aplicado en el conjunto de pruebas para descubrir que el rendimiento era "menos que óptimo". Los experimentadores ahora quieren mejorar las pruebas biológicas para crear un mejor modelo. Siempre que no podamos obtener nuevas muestras, ¿podría sugerirnos que volvamos a mezclar las muestras para crear nuevos conjuntos de capacitación y validación o para mantener la división original? (No tenemos ninguna indicación de que la división haya sido problemática).

— DavidDong
fuente

¿Cómo dividiste los datos? Al azar, a mano, o algún otro método? Aunque, en verdad, la parte sobre "crear un modelo con éxito" es una parte MUCHO más grande del problema. Antes de hacer cosas costosas, debe ver si está usando el tipo de modelo apropiado, si ha sobreajustado sus datos de entrenamiento y si tiene los datos apropiados para lo que está tratando de predecir.

— Wayne

Por cierto, olvidé activar el modo cinismo antes de "crear un modelo con éxito"

— DavidDong

Como ya usa una muestra reservada, diría que debe conservarla y construir sus nuevos modelos en la misma muestra de entrenamiento para que todos los modelos consideren las mismas relaciones entre las características. Además, si realiza la selección de funciones, las muestras deben omitirse antes de cualquiera de estas etapas de filtrado; es decir, la selección de características debe incluirse en el ciclo de validación cruzada.

Es de destacar que existen métodos más potentes que una división de 0,67 / 0,33 para la selección del modelo, a saber, la validación cruzada de k-fold o la exclusión. Ver, por ejemplo, Los elementos del aprendizaje estadístico (§7.10, págs. 241-248), www.modelselection.org o Una encuesta de procedimientos de validación cruzada para la selección de modelos por Arlot y Celisse (se requieren antecedentes matemáticos más avanzados).

— chl
fuente