Este es un riff en la primera respuesta de Djib2011. La respuesta corta tiene que ser no. Más tiempo: en primer lugar, las fotos siempre se codifican como un tensor de la siguiente manera. Una imagen es una cantidad de píxeles. Si se considera que la foto tiene m filas yn columnas, cada píxel se especifica por su ubicación de fila y columna, es decir, por el par (m, n). En particular, hay m * n píxeles, que es muy grande incluso para fotos 'pequeñas'. Cada píxel de la foto está codificado por un número entre cero y uno (intensidad de negrura) si la foto es en blanco y negro. Está codificado por tres números (intensidades RGB) si la foto es en color. Entonces uno termina con un tensor que es 1xmxn o 3xmxn. El reconocimiento de imágenes se realiza a través de CNN que, aprovechando el hecho de que las fotos no cambian tanto de píxel a píxel, se comprimenlos datos a través de filtros y agrupación. Entonces, el punto es que el trabajo de CNN al comprimir la increíble cantidad de puntos de datos (o características) de una foto en una cantidad menor de valores. Entonces, sea cual sea el formato con el que comience, CNN comienza comprimiendo aún más los datos de la foto. De ahí la independencia per se del tamaño de la representación de la foto.
Sin embargo, una CNN exigirá que todas las imágenes que se ejecuten sean del mismo tamaño. Entonces, existe esa dependencia que cambiará dependiendo de cómo se guarde la imagen. Además, en la medida en que diferentes formatos de archivo del mismo tamaño producen diferentes valores para sus tensores, no se puede usar el mismo modelo CNN para identificar fotos almacenadas por diferentes métodos.