He etiquetado los datos compuestos por 10000 ejemplos positivos y 50000 ejemplos negativos, dando un total de 60000 ejemplos. Obviamente estos datos están desequilibrados.
Ahora digamos que quiero crear mi conjunto de validación, y quiero usar el 10% de mis datos para hacerlo. Mi pregunta es la siguiente:
¿Debo asegurarme de que mi conjunto de validación TAMBIÉN esté desequilibrado (como un guiño a la verdadera distribución del conjunto de entrenamiento), o debo asegurarme de que mi conjunto de validación esté equilibrado? Entonces, por ejemplo, mi conjunto de validación debe estar hecho de:
- 10% de ejemplos positivos + 10% de negativos, dando 1000+ y 5000- ejemplos. (Este conjunto de validación refleja el desequilibrio de datos original).
- ¿O debe hacerse el conjunto de validación de, digamos, 10% positivo, dando 1000+ y (10/5 = 2%) negativos, también dando 1000- ejemplos?
(La misma pregunta para el conjunto de prueba).
Parece que hay muchos métodos sobre cómo entrenar con datos desequilibrados, pero no puedo ver dónde encontrar mejores prácticas sobre si mi conjunto de validación TAMBIÉN debería reflejar el desequilibrio original o no. Finalmente, NO estoy haciendo validación cruzada, usaré un solo conjunto de validación y una red neuronal.
¡Gracias!