A pesar de que todas las imágenes en el conjunto de datos MNIST están centradas, con una escala similar y boca arriba sin rotaciones, tienen una variación significativa en la escritura a mano que me desconcierta cómo un modelo lineal logra una precisión de clasificación tan alta.
Hasta donde puedo visualizar, dada la importante variación en la escritura a mano, los dígitos deben ser linealmente inseparables en un espacio dimensional de 784, es decir, debe haber un límite no lineal poco complejo (aunque no muy complejo) que separa los diferentes dígitos. , similar al ejemplo bien citado de donde las clases positivas y negativas no pueden separarse por ningún clasificador lineal. Me parece desconcertante cómo la regresión logística de clases múltiples produce una precisión tan alta con características completamente lineales (sin características polinómicas).
Como ejemplo, dado cualquier píxel en la imagen, diferentes variaciones escritas a mano de los dígitos y pueden hacer que ese píxel se ilumine o no. Por lo tanto, con un conjunto de pesos aprendidos, cada píxel puede hacer que un dígito parezca un y un . Solo con una combinación de valores de píxeles debería ser posible decir si un dígito es un o un . Esto es cierto para la mayoría de los pares de dígitos. Entonces, ¿cómo es que la regresión logística, que ciegamente basa su decisión de manera independiente en todos los valores de píxeles (sin considerar ninguna dependencia entre píxeles), es capaz de lograr tan altas precisiones.
Sé que estoy equivocado en alguna parte o simplemente estoy sobreestimando la variación en las imágenes. Sin embargo, sería genial si alguien pudiera ayudarme con una intuición sobre cómo los dígitos son 'casi' linealmente separables.