Se sorprendería al descubrir que 80/20 es una proporción bastante común, a menudo conocida como el principio de Pareto . Por lo general, es una apuesta segura si usa esa proporción.
Sin embargo, dependiendo de la metodología de capacitación / validación que emplee, la relación puede cambiar. Por ejemplo: si usa una validación cruzada 10 veces, entonces terminaría con un conjunto de validación del 10% en cada pliegue.
Se ha investigado cuál es la proporción adecuada entre el conjunto de entrenamiento y el conjunto de validación :
La fracción de patrones reservados para el conjunto de validación debe ser inversamente proporcional a la raíz cuadrada del número de parámetros ajustables libres.
En su conclusión, especifican una fórmula:
Relación de tamaño de conjunto de validación (v) a conjunto de entrenamiento (t), v / t, escalas como ln (N / h-max), donde N es el número de familias de reconocedores y h-max es la mayor complejidad de esas familias.
Lo que quieren decir con complejidad es:
Cada familia de reconocedores se caracteriza por su complejidad, que puede o no estar relacionada con la dimensión VC , la longitud de la descripción, el número de parámetros ajustables u otras medidas de complejidad.
Tomando la primera regla de oro (el conjunto de medievalización debe ser inversamente proporcional a la raíz cuadrada del número de parámetros ajustables libres), puede concluir que si tiene 32 parámetros ajustables, la raíz cuadrada de 32 es ~ 5.65, la fracción debe ser 1 / 5.65 o 0.177 (v / t). Aproximadamente el 17.7% debe reservarse para validación y el 82.3% para capacitación.