The Scale Space Theory Entendimiento

En la teoría-espacio escala de la representación en el espacio escala de la señal , (en el caso de la imagen ) se da como: donde $f(x), x = (x_1, ..., x_d)$ $d = 2$ $L(x, y; t) = g(x, y; t) * f(x, y)$ es un núcleo gaussiano con el parámetro y es una convolución. Al cambiar elparámetro , recibimos una imagen más o menos suavizada. Como resultado, la representación más gruesa (parámetro ) no contendrá objetos pequeños o ruido. $g(x, y; t)$ $t$ $*$ $t$ $t$

El punto principal es encontrar una forma de detección de características invariantes de escala, ¿verdad? De modo que para algunas imágenes con una copia de tamaño reducido, las características como puntos clave se detectarán correctamente, incluso si el tamaño es diferente, sin encontrar otros puntos clave de ruido.

En el documento están utilizando los derivados normalizados. . ¿Cuál es el significado de usar la derivada normalizada , cómo ayuda en la invariabilidad de escala? $\gamma$ $\delta_{\xi, \gamma-norm} = t^{\gamma / 2} \delta_x$ $\gamma$
De esta imagen podemos ver que cerca de las mismas posiciones se encuentran los diferentes puntos clave (diferentes en tamaño). ¿Cómo es eso posible?

Funciones detectadas

Si puede explicar el algoritmo paso a paso de detección de características invariantes de escala, esto sería genial. ¿Qué se hace realmente? Las derivadas pueden tomarse por o . Blob puede detectarse tomando la derivada de por las variables . ¿Cómo está ayudando la derivada de aquí? $x, y$ $t$ $L$ $(x, y)$ $t$

El artículo que estaba leyendo es: Detección de características con selección automática de escala

image-processing computer-vision scale-space

— maximus
fuente

$\gamma$ $t$ $t$
Puede encontrar puntos clave en varias escalas en la misma ubicación. Eso es porque buscas los máximos locales sobre escalas. Aquí está la intuición: piense en la imagen de una cara. A una escala fina, obtienes una gota correspondiente a la nariz. En una escala de curso, obtienes una gota que corresponde a toda la cara. Los dos blobs están centrados en el mismo punto, pero tienen escalas diferentes.
Aquí está todo el algoritmo:
- Decida qué características de la imagen le interesan (p. Ej., Manchas, esquinas, bordes)
- Defina una "función de detector" correspondiente en términos de derivados, por ejemplo, un laplaciano para blobs.
- Calcule los derivados que necesita para la función de su detector en un rango de escalas.
- $t^{m \gamma / 2}$ $m$
- Calcule la función del detector en todo el espacio de la escala.
- $x, y, t$
- Estos son sus puntos de interés o puntos clave.

Editar:

$t^{\gamma / 2}$
$t$ $x$ $y$ $t$ $x$ $y$
Desea encontrar máximos locales sobre escalas porque puede tener características de imagen de diferente tamaño en la misma ubicación. Piense en una imagen de círculos concéntricos, como una diana. Le dará altas respuestas de un laplaciano en varias escalas. O piense en una imagen de un ojo humano real filtrada por un laplaciano en una gama de escalas. Obtendrá una respuesta alta en una escala fina para la pupila, una respuesta alta y una escala mediana para el iris, y una respuesta alta en una escala gruesa para todo el ojo.

El punto es que no sabes a qué escala las características de interés pueden estar adelantadas. Entonces miras a todas las escalas.

— Dima
fuente

t^{γ / 2}

$t^{\gamma / 2}$

t

$t$

t

$t$

t

$t$

x, y

$x,y$

x, y, t

$x,y,t$

t

$t$

@maximus Consulte la edición de la respuesta.

— Dima

@maximus, me equivoqué antes. gamma no es el nivel de escala. He arreglado la respuesta.

— Dima