Hay muchas motivaciones, dependiendo del problema. Pero la idea es la misma: agregar conocimiento a priori sobre algún problema para lograr una mejor solución y hacer frente a la complejidad. Una forma más de decirlo es: selección de modelo. Aquí un buen ejemplo de selección de modelo .
Otra idea, profundamente relacionada con ella, es encontrar una medida de similitud de muestras de datos (hay diferentes términos que se relacionan con esa idea: mapeos topográficos, distancia métrica, aprendizaje múltiple, ...).
Ahora, consideremos un ejemplo práctico: reconocimiento óptico de caracteres. Si toma la imagen de un personaje, esperaría que el clasificador se encargue de las variaciones: si gira, desplaza o escala la imagen, debería poder detectarla. Además, si aplica una modificación ligeramente a la entrada, esperaría que la respuesta / comportamiento de su clasificador varíe ligeramente también, porque ambas muestras (la original y la modificada son muy similares). Aquí es donde entra en vigor la aplicación de la suavidad.
Hay una gran cantidad de documentos relacionados con esta idea, pero esta (invariancia de transformación en reconocimiento de patrones, distancia tangente y propagación tangente, Simard et al.) Ilustra estas ideas con gran detalle.