Tengo más de 10000 imágenes que alrededor de 2000 son duplicados en otros formatos (como en JPEG, PNG, GIF). Ambos números están aumentando cada día. Necesito eliminar esos duplicados y para eso debo saber cómo encontrarlos primero.
Mi primer pensamiento fue verificar los píxeles de una imagen y encontrar otras imágenes que tengan los mismos píxeles de colores en las mismas coordenadas. Pero esta opción no siempre funciona. Digamos que busco un duplicado. En cuanto al objeto de búsqueda, elijo un archivo PNG de 8 bits. Encontrará todos los duplicados de esa imagen, pero solo el PNG de 8 bits, a veces GIF de 8 bits y rara vez JPEG (debido a las imágenes algorítmicas, supongo).
Mi segundo pensamiento fue duplicar todas esas imágenes y volver a colorearlas en una estricta paleta de dos colores (digamos blanco y negro) y hacer el mismo escaneo como se indicó anteriormente. Una vez más, la imagen JPEG no es 100% similar al formato PNG o GIF (¿la misma razón que la anterior?).
El tercer pensamiento fue disminuir el porcentaje de cuánto necesita la imagen para estar familiarizado y aumentar cuánto pueden variar los colores, lo que resulta en la eliminación de imágenes no deseadas ...
¿Alguna idea?