El término "escala-invariante" significa lo siguiente aquí. Digamos que tiene la imagen I , y ha detectado una característica (también conocida como un punto de interés) f en algún lugar (x, y) y en algún nivel de escala s . Ahora supongamos que tiene una imagen I ' , que es una versión a escala de I (por ejemplo, disminuida). Luego, si su detector de características es invariante de escala, debería poder detectar la característica correspondiente f ' en I' en la ubicación correspondiente (x ', y') y la escala correspondiente s ' , donde (x, y, s) y (x ', y', s ') están relacionados por la transformación de escala adecuada.
En otras palabras, si su detector invariante de escala ha detectado un punto característico correspondiente a la cara de alguien, y luego acerca o aleja con su cámara en la misma escena, aún debe detectar un punto característico en esa cara.
Por supuesto, también querría un "descriptor de características" que le permitiera hacer coincidir las dos características, que es exactamente lo que SIFT le ofrece.
Entonces, a riesgo de confundirlo aún más, hay dos cosas que son invariantes de escala aquí. Uno es el detector de puntos de interés DoG, que es invariante de escala, ya que detecta un tipo particular de características de imagen (blobs) independientemente de su escala. En otras palabras, el detector DoG detecta gotas de cualquier tamaño. La otra cosa invariante de escala es el descriptor de características, que es un histograma de orientación de gradiente, que se mantiene más o menos similar para la misma característica de imagen a pesar de un cambio en la escala.
Por cierto, la diferencia de gaussianos se usa aquí como una aproximación al filtro laplaciano de gaussianos.