La clasificación en LDA es la siguiente (enfoque de la regla de Bayes). [Sobre la extracción de discriminantes uno podría mirar aquí .]
Según el teorema de Bayes, la probabilidad buscada de que estamos tratando con la clase mientras observamos actualmente el punto es , dondex P ( k | x ) = P ( k ) ∗ P ( x | k ) / P ( x )kxPAG( k | x ) = P( k ) ∗ P( x | k ) / P( x )
k P ( x ) x P ( x | k ) x kPAG( k ) - probabilidad incondicional (de fondo) de la clase ; - probabilidad incondicional (fondo) del punto ; : probabilidad de presencia del punto en la clase , si la clase tratada es .kPAG( x )XPAG( x | k )Xkk
"Observando que actualmente el punto " es la condición base, , por lo que se puede omitir el denominador. Por lo tanto, .P ( x ) = 1 P ( k | x ) = P ( k ) ∗ P ( x | k )XPAG( x ) = 1PAG( k | x ) = P( k ) ∗ P( x | k )
x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )PAG( k ) es una probabilidad previa (preanalítica) de que la clase nativa para es ; es especificado por el usuario. Por lo general, por defecto todas las clases reciben = 1 / número_de_clases iguales . Para calcular , es decir, la probabilidad posterior (post-analítica) de que la clase nativa para es , se debe conocer .XkPAG( k )PAG( k )PAG( k | x )XkPAG( x | k )
PAG( x | k ) - probabilidad per se - no se puede encontrar, para los discriminantes, el problema principal de LDA, son variables continuas, no discretas. La cantidad que expresa en este caso y proporcional a ella es la densidad de probabilidad (función PDF). Por la presente, necesitamos calcular PDF para el punto en la clase , , en -dimensional distribución normal formada por valores de discriminantes. [Ver Wikipedia Distribución normal multivariante]x k P D F ( x | k ) p pP(x|k)xkPDF(x|k)pp
PDF(x|k)=e−d/2(2π)p/2|S|−−−√)
donde - distancia de Mahalanobis al cuadrado [Ver Wikipedia Distancia de Mahalanobis] en el espacio de los discriminantes desde el punto hasta un centroide de clase; - matriz de covarianza entre los discriminantes , observada dentro de esa clase.x SdxS
Calcule de esta manera para cada una de las clases. para el punto clase expresan el buscado por nosotros. Pero con la reserva anterior de que PDF no es probabilidad per se, solo proporcional a ello, deberíamos normalizar , dividiendo por la suma de s sobre todas las clases. Por ejemplo, si hay 3 clases en total, , , , entoncesP ( k ) ∗ P D F ( x | k ) x k P ( k ) ∗ P ( x | k ) P ( k ) ∗ P D F ( x | k ) P ( k ) ∗ P D F ( x | k )PDF(x|k)P(k)∗PDF(x|k)xkP(k)∗P(x|k)P(k)∗PDF(x|k)P(k)∗PDF(x|k)l mklm
P(k|x)=P(k)∗PDF(x|k)/[P(k)∗PDF(x|k)+P(l)∗PDF(x|l)+P(m)∗PDF(x|m)]
LDA asigna el punto a la clase para la cual es la más alta.P ( k | x )xP(k|x)
Nota. Este fue el enfoque general. Por defecto, muchos programas LDA usan una matriz agrupada dentro de la clase para todas las clases en la fórmula para PDF anterior. Si es así, los simplifica fórmula mucho porque tales en LDA es la matriz de identidad (véase la nota al pie inferior aquí ), y por lo tanto y se convierte en la distancia euclídea al cuadrado (recordatorio: la agruparon dentro de la clase que estamos hablando es de covarianzas entre los discriminantes, no entre las variables de entrada, cuya matriz generalmente se designa como ).S | S | = 1 d S S wSS|S|=1dSSw
Además . Antes de que el enfoque de clasificación Bayes anterior a la clasificación se introdujera en LDA, Fisher, pionero de LDA, propuso calcular las ahora llamadas funciones de clasificación lineal de Fisher para clasificar puntos en LDA. Para el punto la puntuación de la función de pertenecer a la clase es la combinación lineal , donde son las variables predictoras en el análisis.k b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k V 1 , V 2 , . . . V pxkbkv1V1x+bkv2V2x+...+ConstkV1,V2,...Vp
Coeficiente , siendo el número de clases y siendo el elemento de la dispersión agrupada dentro de clase matriz de variables. g s v w p Vbkv=(n−g)∑pwsvwV¯kwgsvwp V
Constk=log(P(k))−(∑pvbkvV¯kv)/2 .
El punto se asigna a la clase para la cual su puntaje es el más alto. Resultados clasificación obtenida por el método de esta Fisher (que evita la extracción de discriminantes dedica a la compleja eigendecomposition) son idénticos a los obtenidos por Bayes método sólo si agruparon dentro de la clase de matriz de covarianza se utiliza con Bayes método basado en discriminantes (ver 'Nota' arriba) y todos los discriminantes se están utilizando en la clasificación. El método de Bayes es más general porque también permite usar matrices separadas dentro de la clase.x