Como AdamO sugiere en el comentario anterior, realmente no puede hacerlo mejor que leer el Capítulo 4 de Los Elementos del Aprendizaje Estadístico (que llamaré HTF) que compara LDA con otros métodos de clasificación lineal, dando muchos ejemplos, y también discute el uso de LDA como una técnica de reducción de dimensiones en la línea de PCA que, como señala ttnphns, es bastante popular.
Desde el punto de vista de la clasificación, creo que la diferencia clave es esta. Imagina que tienes dos clases y quieres separarlas. Cada clase tiene una función de densidad de probabilidad. La mejor situación posible sería si conociera estas funciones de densidad, porque entonces podría predecir a qué clase pertenecería un punto evaluando las densidades específicas de la clase en ese punto.
Algunos tipos de clasificadores funcionan al encontrar una aproximación a las funciones de densidad de las clases. LDA es uno de estos; supone que las densidades son multivariadas normales con la misma matriz de covarianza. Esta es una suposición sólida, pero si es aproximadamente correcta, obtienes un buen clasificador. Muchos otros clasificadores también adoptan este tipo de enfoque, pero intentan ser más flexibles que asumir la normalidad. Por ejemplo, vea la página 108 de HTF.
Por otro lado, en la página 210, HTF advierte:
Si la clasificación es el objetivo final, entonces aprender bien las densidades de clase separadas puede ser innecesario y, de hecho, puede ser engañoso.
Otro enfoque es simplemente buscar un límite entre las dos clases, que es lo que hace el perceptrón. Una versión más sofisticada de esto es la máquina de vectores de soporte. Estos métodos también se pueden combinar con la adición de características a los datos mediante una técnica llamada kernelization. Esto no funciona con LDA porque no conserva la normalidad, pero no es un problema para un clasificador que solo está buscando un hiperplano de separación.
La diferencia entre LDA y un clasificador que busca un hiperplano de separación es como la diferencia entre una prueba t y alguna alternativa no paramérica en las estadísticas ordinarias. El último es más robusto (para los valores atípicos, por ejemplo), pero el primero es óptimo si se cumplen sus supuestos.
Una observación más: podría valer la pena mencionar que algunas personas pueden tener razones culturales para usar métodos como LDA o regresión logística, que pueden deletrear obligatoriamente tablas ANOVA, pruebas de hipótesis y tranquilizar cosas como esas. LDA fue inventada por Fisher; El perceptrón era originalmente un modelo para una neurona humana o animal y no tenía conexión con las estadísticas. También funciona a la inversa; algunas personas pueden preferir métodos como las máquinas de vectores de soporte porque tienen el tipo de crédito inconformista de vanguardia que los métodos del siglo XX simplemente no pueden igualar. No significa que estén mejor. (Un buen ejemplo de esto se discute en Machine Learning for Hackers , si no recuerdo mal).