Según tengo entendido, el problema es el siguiente: en el reconocimiento de imágenes, las entradas a su red podrían ser los píxeles (escala de grises o solo 1 y 0 para blanco y negro). Si lo desea, por ejemplo, reconocer números escritos a mano, es muy difícil trabajar solo con dichos valores, ya que nunca se sabe dónde estará exactamente el número (es decir, los valores negros).
¿El píxel 140 es negro o 142 negro? En ambos casos, bien podría ser un tres. En el ejemplo de edad / peso, estas entradas están bien definidas. La característica 2 es el peso. La característica 3 es la edad. Estas "dimensiones" no deberían "saltar" en su conjunto de datos.
Entonces: en su entrenamiento de imagen, los "tres" o "autos" o "casas" deben reconocerse independientemente de su ubicación en la imagen, es decir, los valores de píxeles, es decir, el vector de entrada / característica, es decir, las dimensiones en lugar de las claramente definidas entradas como datos del paciente.
¿Cómo se resuelve esto en el reconocimiento de imágenes? Utiliza trucos adicionales, por ejemplo, convolución.