En muchas aplicaciones de aprendizaje automático, los llamados métodos de aumento de datos han permitido construir mejores modelos. Por ejemplo, suponga un conjunto de entrenamiento de imágenes de gatos y perros. Al girar, reflejar, ajustar el contraste, etc., es posible generar imágenes adicionales a partir de las originales.
En el caso de las imágenes, el aumento de datos es relativamente sencillo. Sin embargo, supongamos (por ejemplo) que uno tiene un conjunto de entrenamiento de muestras y unos cientos de variables continuas que representan cosas diferentes. El aumento de datos ya no parece tan intuitivo. ¿Qué se podría hacer en tal caso?