La predicción de Bayes de la probabilidad de pertenencia a la clase posterior de la LDA también sigue una curva logística.
[Efron, B. La eficiencia de la regresión logística en comparación con el análisis discriminante normal, J Am Stat Assoc, 70, 892-898 (1975).]
Si bien ese documento muestra que la eficiencia relativa de LDA es superior a LR si se cumplen las suposiciones de LDA (Ref: Documento de Efron anterior, último punto de @tthnps), según los Elementos de aprendizaje estadístico en la práctica, casi no hay diferencia.
[Hastie, T. y Tibshirani, R. y Friedman, J. Los elementos del aprendizaje estadístico; Minería de datos, inferencia y predicción Springer Verlag, Nueva York, 2009]
Esa eficiencia relativa enormemente aumentada de LDA ocurre principalmente en casos asintóticos donde el error absoluto es prácticamente insignificante de todos modos.
[Harrell, FE y Lee, KL Una comparación de la discriminación del análisis discriminante y la regresión logística bajo normalidad multivariada, Bioestadística: Estadística en Ciencias Biomédicas, de Salud Pública y del Medio Ambiente, 333-343 (1985).]
Aunque en la práctica me he encontrado con situaciones de tamaño de muestra pequeño y de alta dimensión donde el LDA parece superior (a pesar de que tanto la normalidad multivariada como los supuestos de la matriz de covarianza igual no se cumplen visiblemente).
[ Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. y Salzer, R. Raman, clasificación espectroscópica de tejidos de astrocitoma: utilizando información de referencia blanda., Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]
Pero tenga en cuenta que en nuestro artículo, el LR posiblemente está luchando con el problema de que se pueden encontrar direcciones con una separabilidad (casi) perfecta. El LDA, por otro lado, puede tener un sobreajuste menos severo.
Los supuestos famosos de LDA solo son necesarios para demostrar la óptimaidad. Si no se cumplen, el procedimiento aún puede ser una buena heurística.
Una diferencia que es importante para mí en la práctica porque los problemas de clasificación en los que trabajo a veces / con frecuencia resultan en realidad no son tan claramente problemas de clasificación: LR se puede hacer fácilmente con datos donde la referencia tiene niveles intermedios de membresía en la clase. Después de todo, es una técnica de regresión .
[ver documento vinculado anteriormente]
Puede decir que LR concentra más que LDA en ejemplos cerca del límite de la clase y básicamente ignora los casos en la "parte trasera" de las distribuciones.
Esto también explica por qué es menos sensible a los valores atípicos (es decir, aquellos en la parte posterior) que LDA.
(las máquinas de vectores de soporte serían un clasificador que va en esta dirección hasta el final: aquí se ignora todo menos los casos en el límite)