Encontré esto confuso cuando uso la caja de herramientas de red neuronal en Matlab.
Dividió el conjunto de datos sin procesar en tres partes:
- conjunto de entrenamiento
- conjunto de validación
- equipo de prueba
Noto que en muchos algoritmos de entrenamiento o aprendizaje, los datos a menudo se dividen en 2 partes, el conjunto de entrenamiento y el conjunto de prueba.
Mis preguntas son:
- ¿Cuál es la diferencia entre el conjunto de validación y el conjunto de prueba?
- ¿El conjunto de validación es realmente específico para la red neuronal? O es opcional.
- Para ir más allá, ¿hay alguna diferencia entre la validación y las pruebas en el contexto del aprendizaje automático?
The training set is used to fit the models; the validation set is used to estimate prediction error for model selection; the test set is used for assessment of the generalization error of the final chosen model. Ideally, the test set should be kept in a “vault,” and be brought out only at the end of the data analysis.