El crédito por esta respuesta es para @ttnphns, quien explicó todo en los comentarios anteriores. Aún así, me gustaría proporcionar una respuesta extendida.
A su pregunta: ¿Los resultados de LDA en características estandarizadas y no estandarizadas serán exactamente iguales? --- la respuesta es sí . Primero daré un argumento informal, y luego procederé con algunas matemáticas.
Imagine un conjunto de datos 2D que se muestra como un diagrama de dispersión en un lado de un globo (imagen del globo original tomada desde aquí ):
Aquí los puntos rojos son una clase, los puntos verdes son otra clase y la línea negra es el límite de la clase LDA. Ahora el cambio de escala de los ejes o corresponde a estirar el globo horizontal o verticalmente. Es intuitivamente claro que aunque la pendiente de la línea negra cambiará después de tal estiramiento, las clases serán exactamente tan separables como antes, y la posición relativa de la línea negra no cambiará. Cada observación de prueba se asignará a la misma clase que antes del estiramiento. Entonces se puede decir que el estiramiento no influye en los resultados de LDA.xy
Ahora, matemáticamente, LDA encuentra un conjunto de ejes discriminantes calculando vectores propios de , donde y están dentro y entre las clases dispersar matrices. De manera equivalente, estos son vectores propios generalizados del problema de valor propio generalizado .W−1BWBBv=λWv
Considere una matriz de datos centrada con variables en columnas y puntos de datos en filas, de modo que la matriz de dispersión total esté dada por . Estandarizar los datos equivale a escalar cada columna de por un número determinado, es decir, reemplazarla con , donde es una matriz diagonal con coeficientes de escala (inversos de las desviaciones estándar de cada columna) en la diagonal. Después de dicho cambio de escala, la matriz de dispersión cambiará de la siguiente manera: , y la misma transformación ocurrirá conXT=X⊤XXXnew=XΛΛTnew=ΛTΛWnew y .Bnew
Sea un vector propio del problema original, es decir,Si multiplicamos esta ecuación con a la izquierda e insertamos en ambos lados antes de , obtenemos es decir que significa quev
Bv=λWv.
ΛΛΛ−1vΛBΛΛ−1v=λΛWΛΛ−1v,
BnewΛ−1v=λWnewΛ−1v,
Λ−1ves un vector propio después de reescalar con exactamente el mismo valor propio que antes.
λ
Entonces el eje discriminante (dado por el vector propio) cambiará, pero su valor propio, que muestra cuánto están separadas las clases, permanecerá exactamente igual. Además, la proyección en este eje, que originalmente fue dada por , ahora será dada por , es decir, también permanecerá exactamente igual (tal vez hasta un factor de escala).XvXΛ(Λ−1v)=Xv
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
No, esta afirmación es incorrecta. El problema de la estandarización con LDA es el mismo que en cualquier método multivariante. Por ejemplo, PCA. La distancia de Mahalanobis no tiene nada que ver con ese tema.