¿Existe una relación entre la regresión y el análisis discriminante lineal (LDA)? ¿Cuáles son sus similitudes y diferencias? ¿Hay alguna diferencia si hay dos clases o más de dos clases?
¿Existe una relación entre la regresión y el análisis discriminante lineal (LDA)? ¿Cuáles son sus similitudes y diferencias? ¿Hay alguna diferencia si hay dos clases o más de dos clases?
Respuestas:
Supongo que la pregunta es sobre LDA y la regresión lineal (no logística).
Existe una relación considerable y significativa entre la regresión lineal y el análisis discriminante lineal . En caso de que la variable dependiente (DV) consista solo en 2 grupos, los dos análisis son realmente idénticos. A pesar de que los cálculos son diferentes y los resultados (regresión y coeficientes discriminantes) no son los mismos, son exactamente proporcionales entre sí.
Ahora para la situación de más de dos grupos. Primero, establezcamos que LDA (su etapa de extracción, no de clasificación) es equivalente (resultados linealmente relacionados) al análisis de correlación canónica si convierte el DV de agrupación en un conjunto de variables ficticias (con una redundante de ellas abandonadas) y hace canónica análisis con conjuntos "IVs" y "dummies". Las variaciones canónicas en el conjunto de "IVs" que obtiene son lo que LDA llama "funciones discriminantes" o "discriminantes".
Entonces, ¿cómo se relaciona el análisis canónico con la regresión lineal? El análisis canónico es en esencia un MANOVA (en el sentido de "Regresión lineal múltiple multivariante" o "Modelo lineal general multivariado") profundizado en una estructura latentede las relaciones entre los DV y los IV. Estas dos variaciones se descomponen en sus interrelaciones en "variantes canónicas" latentes. Tomemos el ejemplo más simple, Y vs X1 X2 X3. La maximización de la correlación entre los dos lados es una regresión lineal (si predices Y por X) o, que es lo mismo, es MANOVA (si predices X por Y). La correlación es unidimensional (con magnitud R ^ 2 = traza de Pillai) porque el conjunto menor, Y, consiste solo en una variable. Ahora tomemos estos dos conjuntos: Y1 Y2 vs X1 x2 x3. La correlación que se maximiza aquí es bidimensional porque el conjunto menor contiene 2 variables. La primera y más fuerte dimensión latente de la correlación se llama primera correlación canónica, y la parte restante, ortogonal a ella, la segunda correlación canónica. Asi que, MANOVA (o regresión lineal) solo pregunta cuáles son los roles parciales (los coeficientes) de las variables en toda la correlación bidimensional de conjuntos; mientras que el análisis canónico solo va más abajo para preguntar cuáles son los roles parciales de las variables en la primera dimensión correlacional y en la segunda.
Por lo tanto, el análisis de correlación canónica es una regresión lineal multivariante profundizada en una estructura latente de relación entre los DV y los IV. El análisis discriminante es un caso particular de análisis de correlación canónica ( ver exactamente cómo ). Entonces, aquí estaba la respuesta sobre la relación de LDA con la regresión lineal en un caso general de más de dos grupos.
Tenga en cuenta que mi respuesta no ve en absoluto LDA como técnica de clasificación. Estaba discutiendo LDA solo como técnica de extracción de latentes. La clasificación es la segunda etapa independiente de LDA (la describí aquí ). @Michael Chernick se estaba centrando en ello en sus respuestas.
regression formulation of LDA
es sorprendentemente difícil encontrar algo: hay varios trabajos de investigación publicados después de 2000 que dicen que tal formulación no existe o tratando de sugerir uno. ¿Hay quizás una buena referencia [antigua]?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
. Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. Si no puedes encontrarlos en Internet, puedo enviarte. Si encuentra más y mejores fuentes, háganoslo saber.
Aquí hay una referencia a uno de los artículos de Efron: La eficiencia de la regresión logística en comparación con el análisis discriminante normal , 1975.
Otro artículo relevante es Ng & Jordan, 2001, Sobre clasificadores discriminatorios versus generativos: una comparación de regresión logística e ingenua Bayes . Y aquí hay un resumen de un comentario al respecto de Xue y Titterington , 2008, que menciona los documentos de O'Neill relacionados con su tesis doctoral:
La comparación de clasificadores generativos y discriminativos es un tema permanente. Como una contribución importante a este tema, basándose en sus comparaciones teóricas y empíricas entre el clasificador ingenuo de Bayes y la regresión logística lineal, Ng y Jordan (NIPS 841 --- 848, 2001) afirmaron que existen dos regímenes distintos de rendimiento entre la generación y clasificadores discriminativos con respecto al tamaño del conjunto de entrenamiento. Sin embargo, en este trabajo, nuestros estudios empíricos y de simulación, como complemento de su trabajo, sugieren que la existencia de los dos regímenes distintos puede no ser tan confiable. Además, para los conjuntos de datos del mundo real, hasta ahora no existe un criterio general teóricamente correcto para elegir entre los enfoques discriminativos y generativos para la clasificación de una observación. en una clase ; la elección depende de la confianza relativa que tengamos en la corrección de la especificación de o para los datos Esto puede ser hasta cierto punto una demostración de por qué Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) y O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) prefieren el análisis discriminante lineal basado en la normalidad (LDA) cuando no se produce una especificación errónea del modelo, pero otros estudios empíricos pueden preferir la regresión logística lineal. Además, sugerimos que el emparejamiento de LDA suponiendo una matriz de covarianza diagonal común (LDA) o el clasificador Bayes ingenuo y la regresión logística lineal puede no ser perfecto y, por lo tanto, puede no ser confiable para cualquier reclamo derivado de la comparación entre LDA o el clasificador ingenuo de Bayes y la regresión logística lineal para generalizar a todos los clasificadores generativos y discriminativos.
Hay muchas otras referencias sobre esto que puede encontrar en línea.
El propósito de esta respuesta es explicar la relación matemática exacta entre el análisis discriminante lineal (LDA) y la regresión lineal multivariada (MLR). Resulta que el marco correcto es proporcionado por la regresión de rango reducido (RRR).
Mostraremos que LDA es equivalente a RRR de la matriz de indicadores de clase blanqueada en la matriz de datos.
Sea la matriz n × d con puntos de datos x i en filas y variables en columnas. Cada punto pertenece a una de las k clases o grupos. El punto x i pertenece al número de clase g ( i ) .
Supongamos que es la matriz del grupo de codificación del indicador n × k de la siguiente manera: G i j = 1 si x i pertenece a la clase j , y G i j = 0 en caso contrario. Hay n j puntos de datos en la clase j ; por supuesto ∑ n j = n .
Suponemos que los datos están centrados y que la media global es igual a cero, . Sea μ j la media de la clase j .
La matriz de dispersión total se puede descomponer en la suma de las matrices de dispersión entre clases y dentro de clase definidas de la siguiente manera: C b Se puede verificar queC=Cb+Cw. LDA busca ejes discriminantes que tienen una varianza máxima entre grupos y una varianza mínima dentro de los grupos de la proyección. Específicamente, el primer eje discriminante es el vector unitariowmaximizandow⊤Cbw/(w⊤C
Suponiendo que es rango completo, la solución LDA W L D A es la matriz de vectores propios de C - 1 w C b (ordenados por los valores propios en orden decreciente).
Esta era la historia habitual. Ahora hagamos dos observaciones importantes.
Para simplificar, comenzaremos con el caso de un conjunto de datos equilibrado.
.
The proof is straightforward. For the given , optimal can be found via regression: . Plugging this into the loss function, we get
This finishes the proof. For unbalanced datasets we need to replace with .
One can similarly show that adding ridge regularization to the reduced rank regression is equivalent to the regularized LDA.
In his answer, @ttnphns made a connection to canonical correlation analysis (CCA). Indeed, LDA can be shown to be equivalent to CCA between and . In addition, CCA between any and can be written as RRR predicting whitened from . The rest follows from this.
It is hard to say who deserves the credit for what is presented above.
There is a recent conference paper by Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Based Regressions that presents exactly the same proof as above but creates the impression that they invented this approach. This is definitely not the case. Torre wrote a detailed treatment of how most of the common linear multivariate methods can be seen as reduced rank regression, see A Least-Squares Framework for Component Analysis, 2009, and a later book chapter A unification of component analysis methods, 2013; he presents the same argument but does not give any references either. This material is also covered in the textbook Modern Multivariate Statistical Techniques (2008) by Izenman, who introduced RRR back in 1975.
The relationship between LDA and CCA apparently goes back to Bartlett, 1938, Further aspects of the theory of multiple regression -- that's the reference I often encounter (but did not verify). The relationship between CCA and RRR is described in the Izenman, 1975, Reduced-rank regression for the multivariate linear model. So all of these ideas have been around for a while.
Linear regression and linear discriminant analysis are very different. Linear regression relates a dependent variable to a set of independent predictor variables. The idea is to find a function linear in the parameters that best fits the data. It does not even have to be linear in the covariates. Linear discriminant analysis on the other hand is a procedure for classifying objects into categories. For the two-class problem it seeks to find the best separating hyperplane for dividing the groups into two catgories. Here best means that it minimizes a loss function that is a linear combination of the error rates. For three or more groups it finds the best set of hyperplanes (k-1 for the k class problem). In discriminant analysis the hypoerplanes are linear in the feature variables.
The main similarity between the two is term linear in the titles.