Crear un solo índice a partir de varios componentes principales o factores retenidos de PCA / FA

Estoy usando el Análisis de componentes principales (PCA) para crear un índice requerido para mi investigación. Mi pregunta es cómo debo crear un índice único utilizando los componentes principales retenidos calculados a través de PCA.

Por ejemplo, decidí retener 3 componentes principales después de usar PCA y calculé los puntajes para estos 3 componentes principales. ¿Cuáles son las formas apropiadas de crear, para cada encuestado, un índice único de estos 3 puntajes?

¿Es relevante agregar las 3 puntuaciones calculadas para tener un valor compuesto?
¿O para promediar las 3 puntuaciones para tener ese valor?
¿O debería mantener solo el primer componente principal (el más fuerte) y usar su puntaje como índice?

Alternativamente, uno podría usar el Análisis Factorial (FA) pero la misma pregunta sigue siendo: ¿cómo crear un índice único basado en varios puntajes factoriales?

— usuario179313
fuente

Las PC no están correlacionadas por definición. Por lo tanto, como variables, no duplican la información del otro de ninguna manera. Eso significa que no hay razón para crear un solo valor (variable compuesta) a partir de ellos. O, a veces, multiplicarlos podría ser de interés, tal vez, pero no sumar o promediar.

— ttnphns

Estoy de acuerdo con @ttnphns: sus dos primeras opciones no tienen mucho sentido, y todo el esfuerzo de "combinar" tres PC en un índice parece equivocado. Tome 1st PC como su índice o use un enfoque completamente diferente.

— ameba dice Reinstate Monica

@ttnphns no correlacionados, no independientes. Puede haber información redundante repetida en las PC, pero no de forma lineal.

— conjeturas

@amoeba Gracias por el recordatorio. Redacté versiones para la etiqueta y su extracto en stats.stackexchange.com/tags/valuation/info .

— whuber

@ttnphns ¿Consideraría publicar una respuesta aquí según su comentario anterior? Acabo de comenzar una recompensa aquí porque siguen apareciendo variaciones de esta pregunta y no podemos cerrarlas como duplicados porque no hay una respuesta satisfactoria en ninguna parte.

— ameba dice Reinstate Monica

Respuestas:

Esta respuesta es deliberadamente no matemática y está orientada hacia un psicólogo no estadístico (digamos) que pregunta si puede sumar / promediar puntajes de factores diferentes para obtener un puntaje de "índice compuesto" para cada encuestado.

Sumar o promediar los puntajes de algunas variables supone que las variables pertenecen a la misma dimensión y son medidas fungibles. (En la pregunta, "variables" son puntajes de componentes o factores , que no cambian la cosa, ya que son ejemplos de variables).

Realmente (Fig. 1), los encuestados 1 y 2 pueden verse igualmente atípicos (es decir, desviados de 0, el lugar geométrico del centro de datos o el origen de la escala), ambos con la misma puntuación media y . El valor es válido, como el grado de atipicidad, para la construcción tan perfectamente como lo fue para e $(.8+.8)/2=.8$ $(1.2+.4)/2=.8$ $.8$ $X+Y$ $X$ $Y$ por separado. Las variables correlacionadas, que representan la misma dimensión, pueden verse como mediciones repetidas de la misma característica y la diferencia o no equivalencia de sus puntajes como error aleatorio. Por lo tanto, se recomienda sumar / promediar los puntajes ya que se espera que los errores aleatorios se cancelen entre sí en spe .

Eso no es así si e no se correlacionan lo suficiente como para ver la misma "dimensión". Para entonces, la desviación / atipicidad de un encuestado se transmite por la distancia euclidiana desde el origen (Fig. 2). $X$ $Y$

Esa distancia es diferente para los encuestados 1 y 2: y $\sqrt{.8^2+.8^2} \approx 1.13$ $\sqrt{1.2^2+.4^2} \approx 1.26$ $X=.8$ $Y=-.8$ $X=0$ $Y=0$

$w_XX_i+w_YY_i$ $X$ $Y$ $w_X$ $w_Y$ se establecen constantes para todos los encuestados i, que es la causa de la falla. Para relacionar la desviación bivariada de un encuestado, en un círculo o elipse, se deben introducir los pesos que dependen de sus puntajes; La distancia euclidiana considerada anteriormente es en realidad un ejemplo de tal suma ponderada con pesos que dependen de los valores. Y si es importante para usted incorporar variaciones desiguales de las variables (por ejemplo, de los componentes principales, como en la pregunta), puede calcular la distancia euclidiana ponderada, la distancia que se encontrará en la figura 2 después de que el círculo se alargue.

$|.8|+|.8|=1.6$ $|1.2|+|.4|=1.6$ $X=.8$ $Y=-.8$ $1.6$ $0$

(Podría exclamar "Haré que todos los puntajes de datos sean positivos y calcularé la suma (o promedio) con buena conciencia ya que he elegido la distancia de Manhattan", pero por favor piense: ¿tiene usted la razón para mover el origen libremente? Componentes o factores principales, por ejemplo, se extraen bajo la condición de que los datos se hayan centrado en la media, lo que tiene sentido. Otro origen habría producido otros componentes / factores con otras puntuaciones. No, la mayoría de las veces no se puede jugar con el origen: el locus de "encuestado típico" o de "rasgo de nivel cero", como desees jugar).

En resumen , si el objetivo de la construcción compuesta es reflejar las posiciones de los encuestados en relación con un "cero" o lugar geométrico típico, pero las variables apenas se correlacionan, algún tipo de distancia espacial desde ese origen, y no media (o suma), ponderada o no ponderado, se debe elegir.

Bueno, la media (suma) tendrá sentido si decide ver las variables (no correlacionadas) como modos alternativos para medir lo mismo . De esta manera, ignora deliberadamente la naturaleza diferente de las variables. En otras palabras, conscientemente abandonas la Fig. 2 a favor de la Fig. 1: "olvidas" que las variables son independientes. Entonces, suma o promedio. Por ejemplo, se podría promediar la puntuación en "bienestar material" y en "bienestar emocional", así como las puntuaciones en "coeficiente intelectual espacial" y en "coeficiente intelectual verbal". Este tipo de puramente pragmático, los compuestos satísticamente no aprobados se denominan índices de batería (una colección de pruebas o cuestionarios que miden cosas no relacionadas o correlacionadas cuyas correlaciones ignoramos se llama "batería"). Los índices de batería solo tienen sentido si los puntajes tienen la misma dirección (por ejemplo, tanto la riqueza como la salud emocional se consideran un polo "mejor"). Su utilidad fuera de la configuración ad hoc estrecha es limitada.

Si las variables están en relaciones intermedias, están considerablemente correlacionadas y no son lo suficientemente fuertes como para verlas como duplicados, alternativas, entre sí, a menudo sumamos (o promediamos) sus valores de manera ponderada. Luego, estos pesos deben diseñarse cuidadosamente y deben reflejar, de una manera u otra, las correlaciones. Esto es lo que hacemos, por ejemplo, mediante PCA o análisis factorial (FA) donde calculamos especialmente las puntuaciones de componentes / factores. Si sus variables ya son puntajes de componentes o factores (como dice la pregunta OP aquí) y están correlacionadas (debido a la rotación oblicua), puede someterlas (o directamente la matriz de carga) al PCA / FA de segundo orden para encontrar los pesos y obtenga el PC / factor de segundo orden que le servirá el "índice compuesto".

Pero si los puntajes de sus componentes / factores no estaban correlacionados o estaban débilmente correlacionados, no hay razón estadística ni para sumarlos sin rodeos ni para inferir pesos. Use algo de distancia en su lugar. El problema con la distancia es que siempre es positivo: puede decir qué tan atípico es un encuestado, pero no puede decir si está "arriba" o "abajo". Pero este es el precio que tiene que pagar por exigir un índice único del espacio de rasgos múltiples. Si quieres desviarte y firmar en ese espacio, diría que eres demasiado exigente.

En el último punto, el OP pregunta si es correcto tomar solo el puntaje de una variable más fuerte con respecto a su varianza, el primer componente principal en este caso, como el único proxy para el "índice". Tiene sentido si esa PC es mucho más fuerte que las demás. Aunque uno podría preguntar "si es mucho más fuerte, ¿por qué no extrajo / retuvo solo la suela?".

— ttnphns
fuente

Creación de índice compuesto utilizando PCA a partir de enlaces de series temporales a http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .

En ese artículo en la página 19, los autores mencionan una forma de crear un Índice No Estandarizado (NSI) usando la proporción de variación explicada por cada factor a la variación total explicada por los factores elegidos. Este NSI se normalizó.

— SACHIN GARG
fuente

Esa sección en la página 19 hace exactamente esa cuestionable y problemática sumando manzanas y naranjas contra lo que nos advirtieron la ameba y yo en los comentarios anteriores. La suma de variables no correlacionadas en un índice apenas tiene ningún significado estadístico .

— ttnphns

A veces agregamos construcciones / escalas / pruebas que no están correlacionadas y miden cosas diferentes. Ese sería el índice de la batería (las pruebas que se consideran bastante diferentes / no correlacionadas se denominan "batería"). Un índice de batería podría tener algún sentido pragmático local , aunque casi carece de un significado estadístico , como se dijo en el comentario anterior.

— ttnphns

vea también la pregunta stats.stackexchange.com/q/236786/3277 .

— ttnphns

-1 debido a lo que está escrito arriba.

— ameba dice Reinstate Monica