Cuando las clases están bien separadas, las estimaciones de los parámetros para la regresión logística son sorprendentemente inestables. Los coeficientes pueden llegar al infinito. LDA no sufre de este problema.
Si hay valores covariables que pueden predecir el resultado binario perfectamente, entonces el algoritmo de regresión logística, es decir, la puntuación de Fisher, ni siquiera converge. Si está utilizando R o SAS, recibirá una advertencia de que se calcularon las probabilidades de cero y uno y que el algoritmo se ha bloqueado. Este es el caso extremo de una separación perfecta, pero incluso si los datos solo se separan en gran medida y no perfectamente, el estimador de máxima probabilidad podría no existir e incluso si existe, las estimaciones no son confiables. El ajuste resultante no es bueno en absoluto. Hay muchos hilos que tratan el problema de la separación en este sitio, así que eche un vistazo.
Por el contrario, a menudo no se encuentran problemas de estimación con el discriminante de Fisher. Todavía puede suceder si la matriz de covarianza entre o dentro es singular, pero esa es una instancia bastante rara. De hecho, si hay una separación completa o cuasi completa entonces mejor porque el discriminante tiene más probabilidades de tener éxito.
También vale la pena mencionar que, contrariamente a la creencia popular, LDA no se basa en ningún supuesto de distribución. Solo exigimos implícitamente la igualdad de las matrices de covarianza de la población, ya que se utiliza un estimador agrupado para la matriz de covarianza interna. Bajo los supuestos adicionales de normalidad, probabilidades previas iguales y costos de clasificación errónea, el LDA es óptimo en el sentido de que minimiza la probabilidad de clasificación errónea.
¿Cómo proporciona LDA vistas de baja dimensión?
Es más fácil ver eso para el caso de dos poblaciones y dos variables. Aquí hay una representación gráfica de cómo funciona LDA en ese caso. Recuerde que estamos buscando combinaciones lineales de las variables que maximicen la separabilidad.
Por lo tanto, los datos se proyectan en el vector cuya dirección logra mejor esta separación. Cómo encontramos que ese vector es un problema interesante de álgebra lineal, básicamente maximizamos un cociente de Rayleigh, pero dejemos eso de lado por ahora. Si los datos se proyectan en ese vector, la dimensión se reduce de dos a uno.
El caso general de más de dos poblaciones y variables se trata de manera similar. Si la dimensión es grande, entonces se usan más combinaciones lineales para reducirla, los datos se proyectan en planos o hiperplanos en ese caso. Existe un límite para la cantidad de combinaciones lineales que se pueden encontrar, por supuesto, y este límite resulta de la dimensión original de los datos. Si denotamos el número de variables predictoras por y el número de poblaciones por , resulta que el número es como máximo .pg min(g−1,p)
Si puede nombrar más pros o contras, sería bueno.
La representación de baja dimensión no viene sin inconvenientes, sin embargo, la más importante es, por supuesto, la pérdida de información. Esto es un problema menor cuando los datos son linealmente separables, pero si no lo son, la pérdida de información podría ser sustancial y el clasificador funcionará mal.
También puede haber casos en los que la igualdad de las matrices de covarianza no sea una suposición sostenible. Puede emplear una prueba para asegurarse, pero estas pruebas son muy sensibles a las desviaciones de la normalidad, por lo que debe hacer esta suposición adicional y también probarla. Si se descubre que las poblaciones son normales con matrices de covarianza desiguales, se podría usar una regla de clasificación cuadrática (QDA), pero encuentro que esta es una regla bastante incómoda, sin mencionar que es contraintuitivo en altas dimensiones.
En general, la principal ventaja de la LDA es la existencia de una solución explícita y su conveniencia computacional, que no es el caso para técnicas de clasificación más avanzadas como SVM o redes neuronales. El precio que pagamos es el conjunto de supuestos que lo acompañan, a saber, la separabilidad lineal y la igualdad de las matrices de covarianza.
Espero que esto ayude.
EDITAR : Sospecho que mi afirmación de que la LDA en los casos específicos que mencioné no requiere ninguna suposición distributiva que no sea la igualdad de las matrices de covarianza me ha costado un voto negativo. Sin embargo, esto no es menos cierto, así que permítanme ser más específico.
Si dejamos que denotan las medias de la primera y segunda población, y denotan la matriz de covarianza agrupada, El discriminante de Fisher resuelve el problemax¯i, i=1,2Spooled
maxa(aTx¯1−aTx¯2)2aTSpooleda=maxa(aTd)2aTSpooleda
Se puede demostrar que la solución de este problema (hasta una constante) es
a=S−1pooledd=S−1pooled(x¯1−x¯2)
Esto es equivalente a la LDA que deriva bajo el supuesto de normalidad, matrices de covarianza iguales, costos de clasificación errónea y probabilidades anteriores, ¿verdad? Pues sí, excepto ahora que no hemos asumido la normalidad.
No hay nada que le impida utilizar el discriminante anterior en todos los entornos, incluso si las matrices de covarianza no son realmente iguales. Puede que no sea óptimo en el sentido del costo esperado de clasificación errónea (ECM), pero este es un aprendizaje supervisado para que siempre pueda evaluar su rendimiento, utilizando, por ejemplo, el procedimiento de suspensión.
Referencias
Bishop, Christopher M. Redes neuronales para el reconocimiento de patrones. Oxford university press, 1995.
Johnson, Richard Arnold y Dean W. Wichern. Análisis estadístico multivariado aplicado. Vol. 4. Englewood Cliffs, Nueva Jersey: Prentice Hall, 1992.