La clasificación de imágenes es la tarea de asignar una de las etiquetas previamente conocidas a una imagen dada. Por ejemplo, sabe que se le darán un par de fotos y cada imagen tiene exactamente una de . El algoritmo debe decir lo que muestra la foto.
El conjunto de datos de referencia para la clasificación de imágenes es ImageNet ; especialmente tu desafío de reconocimiento visual a gran escala (LSVRC) . Tiene exactamente 1000 clases y una gran cantidad de datos de entrenamiento (creo que hay una versión reducida con aproximadamente 250px x 250px, pero muchas imágenes parecen ser de Flicker).
Este desafío generalmente se resuelve con CNN (u otras redes neuronales).
¿Hay algún documento que intente un enfoque que no utilice redes neuronales en LSVRC?
Para aclarar la pregunta: Por supuesto, hay otros algoritmos de clasificación como vecinos más cercanos o SVM. Sin embargo, dudo que funcionen para todas esas clases / esa cantidad de datos. Al menos para -NNs, estoy seguro de que la predicción sería extremadamente lenta; para SVM supongo que tanto la adaptación como la predicción serían muy lentas (?).