Hacer análisis de componentes principales o análisis factorial en datos binarios

Tengo un conjunto de datos con una gran cantidad de respuestas Sí / No. ¿ Puedo usar componentes principales (PCA) o cualquier otro análisis de reducción de datos (como el análisis factorial) para este tipo de datos? Por favor, avise cómo hago esto usando SPSS.

— Cathy
fuente

¿Qué te hizo considerar PCA específicamente como opuesto al análisis discriminante?

— Chris Simokat

Ver también: stats.stackexchange.com/a/186026/3277

— ttnphns

La cuestión de las variables dicotómicas o binarias en PCA o análisis factorial es eterna. Hay opiniones polares de "es ilegal" a "está bien", a través de algo como "puedes hacerlo pero obtendrás demasiados factores". Mi propia opinión actual es la siguiente. Primero, considero que la variable binaria observada es discreta y que es inadecuado tratarla de manera continua. ¿Puede esta variable discreta dar lugar a factor o componente principal?

Análisis factorial (FA). El factor por definición es un latente continuo que carga variables observables ( 1 , 2 ). En consecuencia, este último no puede ser sino continuo (o intervalo, más prácticamente hablando) cuando está suficientemente cargado por factor. Además, FA, debido a su naturaleza de regresión lineal, supone que la parte restante, no cargada, llamada uniqness, es continua, y por lo tanto, las variables observables deberían ser continuas incluso cuando se cargan ligeramente. Por lo tanto, las variables binarias no pueden legislar en FA. Sin embargo, hay al menos dos formas: (A) Suponga que las dicotomías como variables continuas rugosas continúan y haga FA con correlaciones tetracóricas, en lugar de Pearson; (B) Suponga que el factor carga una variable dicotómica no lineal sino logísticamente y realice el Análisis de Rasgos Latentes (también conocido como Teoría de Respuesta al Ítem) en lugar de FA lineal. Leer más .
Análisis de componentes principales (PCA). Si bien tiene mucho en común con FA, PCA no es un modelo sino un método de resumen. Los componentes no cargan variables en el mismo sentido conceptual que los factores cargan variables. En PCA, los componentes cargan variables y las variables cargan componentes. Esta simetría se debe a que PCA per se es simplemente una rotación de ejes variables en el espacio. Las variables binarias no proporcionarán una verdadera continuidad para un componente por sí mismas, ya que no son continuas, pero la pseudocontinuidad puede ser proporcionada por el ángulo de rotación de PCA que puede aparecer. Por lo tanto, en PCA, y en contraste con FA, puede obtener dimensiones aparentemente continuas (ejes rotados) con variables puramente binarias (ejes no rotados ): el ángulo es la causa de la continuidad $^1$

(0,0) $^2$

Algunas preguntas relacionadas sobre FA o PCA de datos binarios: 1 , 2 , 3 , 4 , 5 , 6 . Las respuestas allí potencialmente pueden expresar opiniones diferentes a las mías.

$^1$ entidades de nivel, para variables como puntos o categorías como puntos, sus coordenadas en el espacio de los ejes principales son valores de escala legítimos. Pero no para los puntos de datos (casos de datos) de datos binarios, sus "puntajes" son valores pseudo continuos: no son medidas intrínsecas, solo algunas coordenadas superpuestas.

$^2$ $1$

Ejemplo de datos binarios (solo un caso simple de dos variables):

Los diagramas de dispersión a continuación muestran los puntos de datos un poco alterados (para representar la frecuencia) y muestran los ejes del componente principal como líneas diagonales que llevan puntajes de componentes en ellos [esos puntajes, según mi afirmación, son valores pseudo continuos]. La gráfica izquierda en cada imagen muestra PCA basada en desviaciones "en bruto" del origen, mientras que la gráfica derecha muestra PCA basada en desviaciones escaladas (diagonal = unidad) de la misma.

1) PCA tradicional pone el (0,0)origen en la media de datos (centroide). Para datos binarios, la media no es un valor de datos posible. Sin embargo, es el centro físico de gravedad. PCA maximiza la variabilidad al respecto.

(No olvide, también, que en una variable binaria, la media y la varianza están estrictamente unidas, son, por así decirlo, "una cosa". Estandarizar / escalar variables binarias, es decir, hacer PCA basado en correlaciones no covarianzas, en la instancia actual significará que usted impide que las variables más equilibradas, que tienen una mayor varianza, influyan en el PCA en mayor medida que las variables más sesgadas).

2) Puede hacer PCA en datos no centrados, es decir, dejar que el origen (0,0)vaya a la ubicación (0,0). Es PCA en X'X/nmatriz MSCP ( ) o en matriz de similitud de coseno. PCA maximiza la protuberabilidad del estado sin atributo.

3) Puede dejar que el origen se (0,0)encuentre en el punto de datos de la suma más pequeña de las distancias de Manhattan desde allí a todos los demás puntos de datos: L1 medoide. Medoid, en general, se entiende como el punto de datos más "representativo" o "típico". Por lo tanto, PCA maximizará la atipicalidad (además de la frecuencia). En nuestros datos, el medoide L1 cayó en (1,0)coordenadas originales.

4) O coloque el origen (0,0)en las coordenadas de datos donde la frecuencia es la más alta - modo multivariado. Es la (1,1)celda de datos en nuestro ejemplo. PCA maximizará (estará impulsado por) los modos junior.

5) En el cuerpo de la respuesta se mencionó que las correlaciones tetracóricas son un buen tema para realizar análisis factoriales, para variables binarias. Lo mismo podría decirse sobre PCA: puede hacer PCA en base a correlaciones tetracóricas . Sin embargo, eso significa que está suponiendo una variable continua subyacente dentro de una variable binaria.

— ttnphns
fuente

Sobre la conexión entre FA en ítems binarios y modelos IRT (1- y 2-PL), aquí hay dos artículos que pueden ser interesantes: Takane & de Leeuw, Sobre la relación entre la teoría de respuesta al ítem y el análisis factorial de variables discretizadas , Psychometrika ( 1987) 52 (3): 393; y uno más reciente, Kamata & Bauer, Una nota sobre la relación entre los modelos de análisis de factores y la teoría de respuesta a ítems , SEM (2008) 15: 136.

— chl