En lo que respecta a la clasificación basada en píxeles, usted es perfecto. Cada píxel es un vector n-dimensional y se asignará a alguna clase de acuerdo con alguna métrica, ya sea que use Máquinas de vectores de soporte, MLE, algún tipo de clasificador knn, etc.
Sin embargo, en lo que respecta a los clasificadores basados en regiones, ha habido grandes desarrollos en los últimos años, impulsados por una combinación de GPU, grandes cantidades de datos, la nube y una amplia disponibilidad de algoritmos gracias al crecimiento del código abierto (facilitado por github). Uno de los desarrollos más grandes en visión / clasificación por computadora ha sido en redes neuronales convolucionales (CNN). Las capas convolucionales "aprenden" características que pueden basarse en el color, como con los clasificadores tradicionales basados en píxeles, pero también crean detectores de bordes y todo tipo de extractores de características que podrían existir en una región de píxeles (de ahí la parte convolucional) nunca podría extraer de una clasificación basada en píxeles. Esto significa que es menos probable que clasifiquen erróneamente un píxel en el medio de un área de píxeles de algún otro tipo; si alguna vez ha realizado una clasificación y tiene hielo en el medio del Amazonas, comprenderá este problema.
Luego aplica una red neuronal completamente conectada a las "características" aprendidas a través de las convoluciones para hacer la clasificación. Una de las otras grandes ventajas de las CNN es que son invariantes a escala y rotación, ya que generalmente hay capas intermedias entre las capas de convolución y la capa de clasificación que generalizan las características, utilizando la agrupación y el abandono, para evitar el sobreajuste y ayudar con los problemas relacionados. escala y orientación.
Existen numerosos recursos en redes neuronales convolucionales, aunque la mejor tiene que ser la clase Standord de Andrei Karpathy , quien es uno de los pioneros en este campo, y toda la serie de conferencias está disponible en YouTube .
Claro, hay otras formas de lidiar con la clasificación basada en píxeles versus área, pero este es actualmente el enfoque más avanzado y tiene muchas aplicaciones más allá de la clasificación de teledetección, como la traducción automática y los autos sin conductor.
Aquí hay otro ejemplo de clasificación basada en la región , usando Open Street Map para los datos de entrenamiento etiquetados, incluidas las instrucciones para configurar TensorFlow y ejecutar en AWS.
Aquí hay un ejemplo usando Google Earth Engine de un clasificador basado en la detección de bordes, en este caso para riego por pivote, usando nada más que un núcleo gaussiano y convoluciones, pero nuevamente, mostrando el poder de los enfoques basados en regiones / bordes.
Si bien la superioridad del objeto sobre la clasificación basada en píxeles es bastante aceptada, aquí hay un artículo interesante en Cartas de detección remota que evalúa el rendimiento de la clasificación basada en objetos .
Finalmente, un ejemplo divertido, solo para mostrar que incluso con clasificadores regionales / convolucionales, la visión por computadora sigue siendo realmente difícil; afortunadamente, las personas más inteligentes de Google, Facebook, etc., están trabajando en algoritmos para poder determinar la diferencia entre perros, gatos y diferentes razas de perros y gatos. Por lo tanto, los usuarios interesados en la teledetección pueden dormir tranquilos por la noche: D