¿Cómo elegir la capacitación, la validación cruzada y los tamaños de los conjuntos de prueba para datos de tamaño de muestra pequeño?

10

Suponga que tengo un tamaño de muestra pequeño, por ejemplo, N = 100 y dos clases. ¿Cómo debo elegir la capacitación, la validación cruzada y los tamaños de los conjuntos de prueba para el aprendizaje automático?

Yo elegiría intuitivamente

Tamaño del set de entrenamiento como 50
Conjunto de validación cruzada tamaño 25, y
Tamaño de prueba como 25.

Pero probablemente esto tiene más o menos sentido. ¿Cómo debería realmente decidir estos valores? ¿Puedo probar diferentes opciones (aunque supongo que no es tan preferible ... una mayor posibilidad de sobreaprendizaje)?

¿Qué pasa si tuviera más de dos clases?

— est
fuente

2

100 es demasiado pequeño para mí. Optaría por una estrategia de exclusión para la validación cruzada y la evaluación de pruebas.

— Memming

No he visto ninguna literatura sobre esto (tamaños mínimos de muestra para la validación). No estoy seguro de por qué. Parece un tema importante.

— Charles

15

Seguramente encontró la pregunta muy similar: ¿ Elección de K en la validación cruzada de K-fold ?
(Incluyendo el enlace al trabajo de Ron Kohavi)
Si el tamaño de la muestra ya es pequeño, recomiendo evitar cualquier optimización basada en datos. En cambio, limítese a modelos en los que pueda corregir hiperparámetros según su conocimiento sobre el modelo y la aplicación / datos. Esto hace que uno de los niveles de validación / prueba sea innecesario, dejando más de sus pocos casos para el entrenamiento de los modelos sustitutos en la validación cruzada restante.
En mi humilde opinión, de todos modos no puede permitirse modelos muy elegantes con ese tamaño de muestra. Y casi con certeza no puede permitirse el lujo de hacer comparaciones de modelos significativas (seguro que no, a menos que use reglas de puntuación adecuadas y técnicas de análisis emparejado).
Esta decisión es mucho más importante que la elección precisa de (por ejemplo, 5 veces frente a 10 veces), con la importante excepción de que dejar uno fuera no es $k$ recomendado en general.
Curiosamente, con estos problemas de clasificación de tamaño de muestra muy pequeño, la validación es a menudo más difícil (en términos de necesidades de tamaño de muestra) en comparación con la capacitación de un modelo decente. Si necesita literatura sobre esto, consulte, por ejemplo, nuestro documento sobre planificación del tamaño de la muestra:
Beleites, C. y Neugebauer, U. y Bocklitz, T. y Krafft, C. y Popp, J .: Planificación del tamaño de la muestra para modelos de clasificación. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceptado en arXiv: 1211.1323
Otro punto importante es hacer un buen uso de la posibilidad de repetir / repetir la validación cruzada (que es una de las razones contra LOO): esto le permite medir la estabilidad de las predicciones contra perturbaciones (es decir, pocos casos diferentes) del entrenamiento datos.

Literatura:
- Beleites, C. y Salzer, R .: Evaluación y mejora de la estabilidad de modelos quimiométricos en situaciones de pequeño tamaño de muestra Anal Bioanal Chem, 2008, 390, 1261-1271.
  DOI: 10.1007 / s00216-007-1818-6
- Dixon, SJ; Heinrich, N .; Holmboe, M .; Schaefer, ML; Reed, RR; Trevejo, J. & Brereton, RG: Aplicación de métodos de clasificación cuando los tamaños de los grupos son desiguales mediante la incorporación de probabilidades previas a tres enfoques comunes: Aplicación a simulaciones y quimio señales urinarias de ratón, Chemom Intell Lab Syst, 2009, 99, 111-120.
  DOI: 10.1016 / j.chemolab.2009.07.016
Si decide una sola ejecución en un conjunto de prueba de retención (sin iteraciones / repeticiones)
- tenga en cuenta que la mayoría de los errores que puede cometer con la validación cruzada (que conducirá a un sesgo optimista) también pueden ocurrir con un conjunto de pruebas de resistencia.
- verifique el ancho del intervalo de confianza resultante para la medición del rendimiento y asegúrese de que esto permita una interpretación significativa de los resultados (consulte el documento de planificación del tamaño de la muestra).

— cbeleites descontentos con SX
fuente

+1 únicamente por el asesoramiento sobre la optimización de parámetros y la complejidad del modelo. Pero todos estos consejos son fantásticos.

— charles

1

Dado que el tamaño de su muestra es pequeño, una buena práctica sería omitir la sección de validación cruzada y usar una relación de 60 - 40 o 70 - 30.

Como puede ver en la sección 2.8 de Introducción a la clementina y la minería de datos y también en MSDN Library - Minería de datos - Conjuntos de capacitación y pruebas , es común una relación de 70-30. De acuerdo con las conferencias de Andrew Ng Machine Learning, se recomienda una proporción de 60 - 20 - 20.

Espero haber sido útil. Atentamente.

— mrdatamx
fuente