Quizás un caso más simple aclarará las cosas. Digamos que elegimos una muestra de píxeles 1x2 en lugar de 100x100.
Píxeles de muestra de la imagen
+----+----+
| x1 | x2 |
+----+----+
Imagine que al trazar nuestro conjunto de entrenamiento, nos dimos cuenta de que no se puede separar fácilmente con un modelo lineal, por lo que elegimos agregar términos polinómicos para que se ajusten mejor a los datos.
Digamos que decidimos construir nuestros polinomios al incluir todas las intensidades de píxeles y todos los múltiplos posibles que se pueden formar a partir de ellos.
Como nuestra matriz es pequeña, enumeremoslas:
x1, x2, x21, x22, x1×x2, x2×x1
Al interpretar la secuencia de características anterior, se puede ver que hay un patrón. Los primeros dos términos, grupo 1, son características que consisten solo en su intensidad de píxeles. Los siguientes dos términos, grupo 2, son características que consisten en el cuadrado de su intensidad. Los dos últimos términos, grupo 3, son el producto de todas las combinaciones de intensidades de píxeles por pares (dos).
grupo 1: x1, x2
grupo 2: x21, x22
grupo 3: x1×x2, x2×x1
Pero espera, hay un problema. Si observa los términos del grupo 3 en la secuencia ( y x 2 × x 1 ) notará que son iguales. Recuerda nuestro ejemplo de vivienda. Imagina tener dos características x1 = pies cuadrados, y x2 = pies cuadrados, para la misma casa ... ¡Eso no tiene ningún sentido! Ok, entonces necesitamos deshacernos de la función duplicada, digamos arbitrariamente x 2 × x 1x1×x2x2×x1x2×x1 . Ahora podemos reescribir la lista de características del grupo tres como:
grupo 3: X1× x2
Contamos las características en los tres grupos y obtenemos 5.
Pero este es un ejemplo de juguete. Vamos a derivar una fórmula genérica para calcular el número de características. Usemos nuestros grupos originales de características como punto de partida.
s i ze gr o u p 1 + s i ze gr o u p 2 + s i ze gr o u p 3 = m × n + m × n + m × n = 3 × m × n
Ah! Pero tuvimos que deshacernos del producto duplicado en el grupo 3.
C( m × n , 2 )
Entonces nuestra fórmula genérica sería:
m × n + m × n + C(m×n,2)=2m×n+C(m×n,2)
Vamos a usarlo para calcular la cantidad de características en nuestro ejemplo de juguete:
2×1×2+C(1×2,2)=4+1=5
¡Eso es!