Práctica común
a) Datos de capacitación: utilizados para elegir los parámetros del modelo.
i) E.g., finding intercept and slope parameters for an ordinary linear
regression model.
ii) The noise in the training data-set is used in some extent
in over-fitting model parameters.
b) Datos de validación: se utilizan para elegir hiperparámetros.
i) E.g., we may want to test three different models at step 1.a, say
linear model with one, two or three variables.
ii) The validation data-set is independent from training data, and thus, they provide
'unbiased' evaluation to the models, which help to decide which
hyper-parameter to use.
iii) We note that, a model trained in 1.a, say y = b_0+b_1*x_1, does
not learn anything from this data-set. So, the noise in this data-
set is not used to over-fit the parameters (b_0, b_1), but, over-
fit exists in choosing which linear model to use (in terms of
number of variables).
c) Datos de prueba: se utilizan para obtener la confianza de la salida de los dos pasos anteriores
i) Used once a model is completely trained
Otra forma de ver la parte 1
a) Nuestro grupo de candidatos modelo es un conjunto de 5 dimenson, es decir,
i) Dimension 1: number of variables to keep in the regression model,
e.g., [1, 2, 3].
ii) Dimension 2-5: (b_0, b_1, b_2, b_3).
b) El paso 1a reduce los candidatos modelo de 5 dimensiones a 1 dimensión.
c) El paso 1b reduce los candidatos modelo de 1 dimensión a dimensión 0, que es un modelo único.
d) Sin embargo, el OP puede pensar que el resultado 'final' anterior no está funcionando lo suficientemente bien en el conjunto de datos de prueba y, por lo tanto, rehace todo el proceso nuevamente, por ejemplo, usando la regresión de cresta en lugar de la regresión lineal ordinaria. Luego, el conjunto de datos de prueba se usa varias veces y, por lo tanto, el ruido en estos datos puede producir un sobreajuste al decidir si usar regresión lineal o regresión de cresta.
e) Para tratar con un conjunto de modelos de alta dimensión con parámetros, hiperparámetros, tipos de modelos y métodos de preprocesamiento, cualquier división de los datos disponibles para nosotros es esencialmente definir un proceso de toma de decisiones que
i) Sequentially reducing the model pool to zero-dimension.
ii) Allocating data noise overfitting to different steps of dimension
reductions (overfitting the noise in the data is not avoidable but
could be allocated smartly).
Conclusión y respuestas a la pregunta de OP
a) Dos divisiones (entrenamiento y prueba), tres divisiones (capacitación, validación y prueba) o un número mayor de divisiones se trata esencialmente de reducir la dimensionalidad y asignar los datos (especialmente el ruido y el riesgo de sobreajuste).
b) En algún momento, puede llegar a un grupo de candidatos modelo 'final', y luego, puede pensar en cómo diseñar el proceso de reducción de la dimensión secuencialmente de modo que
i) At each step of reducing the dimensions, the output is satisfactory,
e.g., not using just 10 data points with large noise to estimate a
six-parameter liner model.
ii) There are enough data for you to reduce the dimension to zero
finally.
c) ¿Qué pasa si no puedes lograr b?
i) Use model and data insight to reduce the overall dimensionality of
your model pool. E.g., liner regression is sensitive to outliers thus
not good for data with many large outliers.
ii) Choose robust non-parametric models or models with less number of
parameter if possible.
iii) Smartly allocating the data available at each step of reducing the
dimensionality. There is some goodness of fit tests to help us decide
whether the data we use to train the model is enough or not.