Esta respuesta es deliberadamente no matemática y está orientada hacia un psicólogo no estadístico (digamos) que pregunta si puede sumar / promediar puntajes de factores diferentes para obtener un puntaje de "índice compuesto" para cada encuestado.
Sumar o promediar los puntajes de algunas variables supone que las variables pertenecen a la misma dimensión y son medidas fungibles. (En la pregunta, "variables" son puntajes de componentes o factores , que no cambian la cosa, ya que son ejemplos de variables).
Realmente (Fig. 1), los encuestados 1 y 2 pueden verse igualmente atípicos (es decir, desviados de 0, el lugar geométrico del centro de datos o el origen de la escala), ambos con la misma puntuación media y ( 1.2 + .4 ) / 2 = .8 . El valor .8 es válido, como el grado de atipicidad, para la construcción X + Y tan perfectamente como lo fue para X e Y(.8+.8)/2=.8(1.2+.4)/2=.8.8X+YXYpor separado. Las variables correlacionadas, que representan la misma dimensión, pueden verse como mediciones repetidas de la misma característica y la diferencia o no equivalencia de sus puntajes como error aleatorio. Por lo tanto, se recomienda sumar / promediar los puntajes ya que se espera que los errores aleatorios se cancelen entre sí en spe .
Eso no es así si e Y no se correlacionan lo suficiente como para ver la misma "dimensión". Para entonces, la desviación / atipicidad de un encuestado se transmite por la distancia euclidiana desde el origen (Fig. 2).XY
Esa distancia es diferente para los encuestados 1 y 2: y√.82+.82−−−−−−−√≈1.131.22+.42−−−−−−−−√≈1.26X=.8Y=−.8X=0Y=0
wXXi+wYYiXYwXwYse establecen constantes para todos los encuestados i, que es la causa de la falla. Para relacionar la desviación bivariada de un encuestado, en un círculo o elipse, se deben introducir los pesos que dependen de sus puntajes; La distancia euclidiana considerada anteriormente es en realidad un ejemplo de tal suma ponderada con pesos que dependen de los valores. Y si es importante para usted incorporar variaciones desiguales de las variables (por ejemplo, de los componentes principales, como en la pregunta), puede calcular la distancia euclidiana ponderada, la distancia que se encontrará en la figura 2 después de que el círculo se alargue.
|.8|+|.8|=1.6|1.2|+|.4|=1.6X=.8Y=−.81.60
(Podría exclamar "Haré que todos los puntajes de datos sean positivos y calcularé la suma (o promedio) con buena conciencia ya que he elegido la distancia de Manhattan", pero por favor piense: ¿tiene usted la razón para mover el origen libremente? Componentes o factores principales, por ejemplo, se extraen bajo la condición de que los datos se hayan centrado en la media, lo que tiene sentido. Otro origen habría producido otros componentes / factores con otras puntuaciones. No, la mayoría de las veces no se puede jugar con el origen: el locus de "encuestado típico" o de "rasgo de nivel cero", como desees jugar).
En resumen , si el objetivo de la construcción compuesta es reflejar las posiciones de los encuestados en relación con un "cero" o lugar geométrico típico, pero las variables apenas se correlacionan, algún tipo de distancia espacial desde ese origen, y no media (o suma), ponderada o no ponderado, se debe elegir.
Bueno, la media (suma) tendrá sentido si decide ver las variables (no correlacionadas) como modos alternativos para medir lo mismo . De esta manera, ignora deliberadamente la naturaleza diferente de las variables. En otras palabras, conscientemente abandonas la Fig. 2 a favor de la Fig. 1: "olvidas" que las variables son independientes. Entonces, suma o promedio. Por ejemplo, se podría promediar la puntuación en "bienestar material" y en "bienestar emocional", así como las puntuaciones en "coeficiente intelectual espacial" y en "coeficiente intelectual verbal". Este tipo de puramente pragmático, los compuestos satísticamente no aprobados se denominan índices de batería (una colección de pruebas o cuestionarios que miden cosas no relacionadas o correlacionadas cuyas correlaciones ignoramos se llama "batería"). Los índices de batería solo tienen sentido si los puntajes tienen la misma dirección (por ejemplo, tanto la riqueza como la salud emocional se consideran un polo "mejor"). Su utilidad fuera de la configuración ad hoc estrecha es limitada.
Si las variables están en relaciones intermedias, están considerablemente correlacionadas y no son lo suficientemente fuertes como para verlas como duplicados, alternativas, entre sí, a menudo sumamos (o promediamos) sus valores de manera ponderada. Luego, estos pesos deben diseñarse cuidadosamente y deben reflejar, de una manera u otra, las correlaciones. Esto es lo que hacemos, por ejemplo, mediante PCA o análisis factorial (FA) donde calculamos especialmente las puntuaciones de componentes / factores. Si sus variables ya son puntajes de componentes o factores (como dice la pregunta OP aquí) y están correlacionadas (debido a la rotación oblicua), puede someterlas (o directamente la matriz de carga) al PCA / FA de segundo orden para encontrar los pesos y obtenga el PC / factor de segundo orden que le servirá el "índice compuesto".
Pero si los puntajes de sus componentes / factores no estaban correlacionados o estaban débilmente correlacionados, no hay razón estadística ni para sumarlos sin rodeos ni para inferir pesos. Use algo de distancia en su lugar. El problema con la distancia es que siempre es positivo: puede decir qué tan atípico es un encuestado, pero no puede decir si está "arriba" o "abajo". Pero este es el precio que tiene que pagar por exigir un índice único del espacio de rasgos múltiples. Si quieres desviarte y firmar en ese espacio, diría que eres demasiado exigente.
En el último punto, el OP pregunta si es correcto tomar solo el puntaje de una variable más fuerte con respecto a su varianza, el primer componente principal en este caso, como el único proxy para el "índice". Tiene sentido si esa PC es mucho más fuerte que las demás. Aunque uno podría preguntar "si es mucho más fuerte, ¿por qué no extrajo / retuvo solo la suela?".