No estoy seguro de si solo desea unir dos imágenes (por ejemplo, encontrar los puntos comunes), o si desea intentar algo como CBIR (recuperación de imágenes basada en contenido: buscar en una base de datos con una imagen de plantilla para encontrar todo lo que contiene el objeto).
Actualmente estoy investigando CBIR, así que estoy bastante actualizado con los métodos actuales. Aquí y aquí están los enlaces a mis respuestas a problemas similares a los suyos de stackoverflow, debe echar un vistazo.
Ahora, para hablar un poco sobre SIFT. Cuando se introdujo por primera vez Lowe por , el término SIFT se aplicó tanto al proceso de detección de características como a los descriptores de características calculados en los puntos de interés detectados. Hasta el día de hoy, los descriptores de SIFT han demostrado ser increíblemente increíbles. Los descriptores tienen algunas propiedades interesantes que @Totero ya mencionó.
El método de detección SIFT , por otro lado, que hoy en día se conoce cada vez más como DoG (diferencia de gaussianos), ya no es lo más avanzado. Todavía se usa ampliamente, pero para el proceso de detección de características, hay más métodos hoy en día, algunos de los cuales son mejores o complementan muy bien los tipos de puntos clave invariantes extractos del proceso DoG.
La mayoría de los trabajos actuales (mire los enlaces en las preguntas enlazadas de stackoverflow) tienen una práctica más: combinan múltiples formas de detectar características y luego usan descriptores SIFT (que aún se balancean como descriptores) para calcular las representaciones vectoriales invariantes. Actualmente estoy trabajando con una combinación de DoG (se centran en partes de imágenes en forma de esquina) y regiones MSER (se centran en puntos distinguidos en forma de gotas a través de múltiples escalas). Es posible que desee probar y experimentar y arrojar aún más tipos de detectores de características, si encuentra que esta combinación no es satisfactoria en su base de datos de imágenes en particular.
Además, si estás interesado, aquí hay un documento que evalúa las interpretaciones de diferentes combinaciones de detección y descriptores. No lo he leído desde que DoG & MSER + SIFT funciona bien para mí, pero lo he leído y el documento es bastante bueno.
PD: use Google Scholar si no tiene acceso a la base de datos IEEEXplore a la que me vinculé.