Entonces, estaba leyendo el documento sobre SURF (Bay, Ess, Tuytelaars, Van Gool: Características robustas aceleradas (SURF) ) y no puedo comprender este párrafo a continuación:
Debido al uso de filtros de caja e imágenes integrales, no tenemos que aplicar iterativamente el mismo filtro a la salida de una capa previamente filtrada, sino que podemos aplicar filtros de caja de cualquier tamaño exactamente a la misma velocidad directamente en la imagen original y incluso en paralelo (aunque este último no se explota aquí). Por lo tanto, el espacio de escala se analiza aumentando el tamaño del filtro en lugar de reducir de forma iterativa el tamaño de la imagen, figura 4.
This is figure 4 in question.
PD: El documento tiene una explicación de la imagen integral, sin embargo, todo el contenido del documento se basa en el párrafo particular anterior. Si alguien ha leído este documento, ¿puede mencionar brevemente lo que está sucediendo aquí? Toda la explicación matemática es bastante compleja para tener una buena comprensión en primer lugar, por lo que necesito ayuda. Gracias.
Editar, un par de problemas:
1)
Cada octava se subdivide en un número constante de niveles de escala. Debido a la naturaleza discreta de las imágenes integrales, la diferencia de escala mínima entre 2 escalas posteriores depende de la longitud lo de los lóbulos positivos o negativos de la derivada parcial de segundo orden en la dirección de derivación (x o y), que se establece en un tercio de la longitud del tamaño del filtro. Para el filtro 9x9, esta longitud lo es 3. Para dos niveles sucesivos, debemos aumentar este tamaño en un mínimo de 2 píxeles (un píxel en cada lado) para mantener el tamaño desigual y garantizar así la presencia del píxel central. . Esto da como resultado un aumento total del tamaño de la máscara en 6 píxeles (ver figura 5).
Figure 5
No pude entender las líneas en el contexto dado.
Para dos niveles sucesivos, debemos aumentar este tamaño en un mínimo de 2 píxeles (un píxel en cada lado) para mantener el tamaño desigual y así garantizar la presencia del píxel central.
Sé que están tratando de hacer algo con la longitud de la imagen, incluso si están tratando de hacerlo extraño, de modo que haya un píxel central que les permita calcular el máximo o el mínimo del gradiente de píxeles. Estoy un poco dudoso sobre su significado contextual.
2)
Para calcular el descriptor se utiliza la wavelet de Haar.
3)
¿Cuál es la necesidad de tener un filtro aproximado?
4. No tengo ningún problema con la forma en que descubrieron el tamaño del filtro. Ellos "hicieron" algo empíricamente. Sin embargo, tengo un problema persistente con esta línea
La salida del filtro 9x9, introducida en la sección anterior, se considera como la capa de escala inicial, a la que nos referiremos como escala s = 1.2 (aproximación de derivados gaussianos con σ = 1.2).
¿Cómo se enteraron del valor de σ? Además, ¿cómo se realiza el cálculo de la escala en la imagen a continuación? La razón por la que estoy afirmando sobre esta imagen es porque el valor de s=1.2
sigue recurriendo, sin indicar claramente su origen.
5.
La matriz de Hesse representada en términos de L
cuál es la convolución del gradiente de segundo orden del filtro gaussiano y la imagen.
Sin embargo, se dice que el determinante "aproximado" contiene solo términos que involucran un filtro gaussiano de segundo orden.
El valor de w
es:
Mi pregunta es por qué el determinante se calcula así, y cuál es la relación entre la matriz de Hesse aproximada y la matriz de Hesse.