¿Suma de puntajes de calificación vs puntajes de factores estimados?

Me interesaría recibir sugerencias sobre cuándo usar " puntajes de factores " sobre la suma simple de puntajes al construir escalas. Es decir, "refinado" sobre los métodos "no refinados" de puntuación de un factor. De DiStefano et al. (2009; pdf ), énfasis agregado:

Hay dos clases principales de métodos de cálculo de puntaje factorial: refinado y no refinado. Los métodos no refinados son procedimientos acumulativos relativamente simples para proporcionar información sobre la ubicación de los individuos en la distribución de factores. La simplicidad se presta a algunas características atractivas, es decir, los métodos no refinados son fáciles de calcular y de interpretar. Los métodos de cálculo refinados crean puntajes de factores utilizando enfoques más sofisticados y técnicos. Son más exactos y complejos que los métodos no refinados y proporcionan estimaciones que son puntajes estandarizados.

En mi opinión, si el objetivo es crear una escala que se pueda utilizar en todos los estudios y entornos, entonces tiene sentido una simple suma o puntaje promedio de todos los ítems de la escala. Pero supongamos que el objetivo es evaluar los efectos del tratamiento de un programa y el contraste importante está dentro de la muestra: tratamiento versus grupo de control. ¿Hay alguna razón por la que podríamos preferir puntajes de factores a escalas de sumas o promedios?

Para ser concreto sobre las alternativas, tome este simple ejemplo:

library(lavaan)
library(devtools)

# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
  gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
  source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
  head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1  3  4  3  4  3  3  4  4  3
# 2  2  1  2  2  4  3  2  1  3
# 3  1  3  4  4  4  2  1  2  2
# 4  1  2  1  2  1  2  1  3  2
# 5  3  3  4  4  1  1  2  4  1
# 6  2  2  2  2  2  2  1  1  1

# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf

# non-refined -----------------------------------------------------------------
  mydata$sumScore <- rowSums(mydata[, 1:9])
      mydata$avgScore <- rowSums(mydata[, 1:9])/9
  hist(mydata$avgScore)

# refined ---------------------------------------------------------------------
  model <- '
            tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
           '
  fit <- sem(model, data = mydata, meanstructure = TRUE,
             missing = "pairwise", estimator = "WLSMV")
  factorScore <- predict(fit)
  hist(factorScore[,1])

factor-analysis sem scales

— Eric Green
fuente

He eliminado "intervenciones" del título para hacer que la pregunta parezca más general y porque las intervenciones posiblemente no tengan una relación única y específica sobre la distinción entre los dos tipos de cálculo de construcciones. Si no está de acuerdo, puede revertir mi edición.

— ttnphns

They are more exactEste énfasis adicional no debería distraernos del hecho de que incluso los puntajes de los factores son inevitablemente inexactos ("subdeterminados").

— ttnphns

Consulte también esta pregunta similar: stats.stackexchange.com/q/31967/3277 .

— ttnphns

Creo que "intervenciones" es relevante como un caso de uso especial, pero no necesita estar en el título. He destacado el tema clave en la pregunta. En cuanto al énfasis en "más exacto", tenía curiosidad por pensar acerca de este punto, dada la observación que hace acerca de que los puntajes de los factores son indeterminados. Gracias por los enlaces a otras preguntas.

— Eric Green

"more exact". Entre los puntajes de factores calculados linealmente, el método de regresión es más "exacto" en el sentido de "más correlacionado con los valores de factores verdaderos desconocidos". Entonces sí, más exacto (dentro del enfoque algebraico lineal), pero no totalmente exacto.

— ttnphns

Respuestas:

He estado luchando con esta idea yo mismo en algunos proyectos actuales. Creo que debes preguntarte qué se estima aquí. Si se ajusta un modelo de un factor, las puntuaciones de los factores estiman el factor latente. La suma o media directa de sus variables de manifiesto estima otra cosa, a menos que cada observación cargue por igual en el factor, y las unicidades también sean las mismas. Y esa otra cosa probablemente no sea una cantidad de gran interés teórico.

Entonces, si un modelo de un factor se ajusta, probablemente le aconsejen usar los puntajes de los factores. Considero su comparabilidad entre los estudios, pero dentro de un estudio en particular, creo que los puntajes de los factores tienen mucho para ellos.

Donde se pone interesante es cuando un modelo de un factor no se ajusta, ya sea porque se aplica un modelo de dos factores (o superior) o porque la estructura de covarianza es más complicada de lo que predice un modelo de factores. Para mí, la pregunta es si el total directo de las variables se refiere a algo real. Esto es particularmente cierto si los datos tienen más de una dimensión. En la práctica, lo que sucede a menudo es que tiene un montón de variables relacionadas (elementos en una encuesta, tal vez), con una o dos de ellas muy diferentes de las demás. Puedes decir "al infierno con esto" y tomar el promedio de todo, independientemente de lo que signifique. O puedes ir con las puntuaciones de los factores. Si se ajusta a un modelo de un factor, lo que generalmente sucederá es que el análisis factorial disminuirá las variables menos útiles (o al menos, aquellas variables que realmente pertenecen a un segundo puntaje de factor). En efecto, los identifica como pertenecientes a una dimensión diferente y los ignora.

Así que creo que el puntaje factorial puede podar los datos para dar algo más unidimensional de lo que comenzaste. Pero no tengo una referencia para esto, y todavía estoy tratando de descubrir en mi propio trabajo si me gusta este enfoque. Para mí, el gran peligro es sobreajustar cuando pasas los puntajes a otro modelo con los mismos datos. Los puntajes ya son la respuesta a una pregunta de optimización, entonces, ¿dónde deja eso el resto del análisis? Odio pensar

Pero al final del día, ¿tiene sentido una suma o un total de variables si algo como un modelo de un factor no se aplica?

Muchas de estas preguntas no surgirían si la gente diseñara mejores escalas para empezar.

— Placidia
fuente

Agradezco tus comentarios, @Placidia. ¡Traes algo de claridad mientras nos recuerdas el desastre más grande! Creo que este es un punto interesante a tener en cuenta: "Si el modelo del factor se ajusta, entonces los puntajes del factor estiman el factor latente. La suma directa o la media de sus variables manifiestas estima otra cosa, a menos que cada observación cargue por igual en el factor, y las singularidades también son las mismas. Y esa otra cosa probablemente no sea una cantidad de gran interés teórico ".

— Eric Green

+1 para una respuesta muy reflexiva. Un par de ideas para agregar: 1) con respecto a la comparabilidad entre los estudios, es importante reconocer que, a diferencia de las cargas de componentes, que pueden cambiar bastante en respuesta a las variables incluidas / excluidas del modelo, las cargas de factores comunes son estimaciones de parámetros. Posteriormente, deberían replicarse (dentro del error de muestreo) de un estudio a otro, y por lo tanto, también deberían hacerlo los puntajes de los factores. 2) Si le preocupa el uso de puntajes de factores, puede mirar los índices de determinación y qué tan bien sus correlaciones de puntajes de factores reflejan las correlaciones latentes ...

— jsakaluk

... como creo que esta es una estrategia discutida en DiStefanno et. Alabama. papel para evaluar si los puntajes de los factores pueden ser "confiables". Y finalmente 3) si su objetivo, como lo describe Placidia, es analizar algo que es en gran medida unidimensional, podría considerar un enfoque de análisis de bifactores, que, según tengo entendido, primero extrae un factor común sobre el que se carga cada variable, y luego la ortogonal posterior Los factores se extraen para subconjuntos de variables, que aparentemente reflejan los factores distinguibles más importantes, más allá de la dimensión común que une todas las variables.

— jsakaluk

Placidia, en la última edición de tu respuesta, te limitas repetidamente por la expresión one-factor model. Solo me pregunto por qué. ¿Estás diciendo que en un modelo de 2 factores los puntajes de los factores ya no estimate the latent factor? ¿Porque? Y también, ¿cómo define el "modelo de un factor" en el contexto de un cuestionario en desarrollo (el contexto probable de la Q): es que el cuestionario es de factor único / escala o que cada elemento incluido se cuenta perteneciendo estrictamente a un factor /¿escala? Por favor, ¿te importaría dejarlo más claro?

— ttnphns

Quería evitar posibles malentendidos. Si cree en un modelo de dos factores, presumiblemente el uso de totales de resumen estaría fuera de la mesa. Necesita dos resúmenes para dos dimensiones en los datos. Quería aclarar que mi respuesta fue sobre elegir entre la estadística de resumen y la puntuación de factor del modelo de un factor. Afirmo que la puntuación de un factor puede ser útil incluso si el modelo es falso. La sugerencia de @ jsakaluk de ajustar un modelo multifactor y elegir el primer factor también es posible, y podría ser mejor en algunos casos.

— Placidia

Sumar o promediar elementos cargados por el factor común es una forma tradicional de calcular el puntaje de confianza (el constructo que representa el factor). Es una versión más simple del "método burdo" de calcular puntajes de factores ; El punto principal del método es el uso de cargas de factores como ponderaciones de puntaje. Mientras que los métodos refinados para calcular puntajes usan coeficientes de puntaje especialmente estimados (calculados a partir de las cargas) como los pesos.

Esta respuesta no universalmente "sugiere cuándo usar puntajes de factores [refinados] sobre la suma simple de puntajes de ítems", que es un dominio vasto, sino que se enfoca en mostrar algunas implicaciones obvias concretas, prefiriendo una forma de calcular la construcción sobre la otra camino.

Considere una situación simple con algún factor y dos elementos cargados por él. De acuerdo con la Nota 1 aquí explicando cómo se calculan las puntuaciones de los factores de regresión, los coeficientes de puntuación de los factores y para calcular las puntuaciones de los factores de provienen $F$ $b_1$ $b_2$ $F$

$s_1=b_1r_{11}+b_2r_{12}$ ,

$s_2=b_1r_{12}+b_2r_{22}$ ,

donde y son las correlaciones entre el factor y los elementos: las cargas del factor; es la correlación entre los elementos. Los coeficientes son los que distinguen los puntajes de factores de la suma simple y no ponderada de los puntajes de los ítems. Porque, cuando calcula solo la suma (o media), establece deliberadamente ambas para que sean iguales. Mientras que en los puntajes de factores "refinados", las s se obtienen de las ecuaciones anteriores y generalmente no son iguales. $s_1$ $s_2$ $r_{12}$ $b$ $b$ $b$

Para simplificar, y dado que el análisis factorial a menudo se realiza en correlaciones, tomemos las s como correlaciones, no covarianzas. Entonces y son unidades y pueden omitirse. Luego, $r$ $r_{11}$ $r_{22}$

$b_1 = \frac{s_2r_{12}-s_1}{r_{12}^2-1}$ ,

$b_2 = \frac{s_1r_{12}-s_2}{r_{12}^2-1}$ ,

por tanto $b_1-b_2= -\frac{(r_{12}+1)(s_1-s_2)}{r_{12}^2-1}.$

Estamos interesados en cómo esta desigualdad potencial entre las s depende de la desigualdad entre las cargas s y la correlación . La función se muestra a continuación en la gráfica de superficie y también en una gráfica de mapa de calor. $b$ $s$ $r_{12}$ $b_1-b_2$

Claramente, como las cargas son iguales ( ) los coeficientes también son iguales, siempre. A medida que crece, crece en respuesta, y cuanto más rápido, mayor es . $s_1-s_2=0$ $b$ $s_1-s_2$ $b_1-b_2$ $r_{12}$

Por lo tanto, si dos elementos se cargan por su factor aproximadamente por igual, puede establecer de manera segura sus pesos iguales, es decir, calcular la suma simple, porque los pesos (que determinan los puntajes de los factores de regresión) también son aproximadamente iguales. No se aleja mucho de los puntajes de factores (a). $b$

Pero considere dos cargas diferentes, digamos, y , la diferencia es . Si elige simplemente sumar los puntajes dados por un encuestado, el grado de equivocación de su decisión con respecto al puntaje del factor estimado depende de qué tan fuertemente se correlacionan los ítems entre sí. Si se correlacionan no muy fuertemente, su sesgo no es demasiado pronunciado (b). Pero si se correlacionan realmente fuerte, el sesgo también es fuerte, por lo que una suma simple no funcionará (c). Interpretando la razón en las tres situaciones: $s_1=.70$ $s_2=.45$ $.25$

C. Si se correlacionan fuertemente, el elemento cargado más débil es un duplicado junior del otro. ¿Cuál es la razón para contar ese indicador / síntoma más débil en presencia de su sustituto más fuerte? No hay mucha razón Y las puntuaciones de los factores se ajustan para eso (mientras que la suma simple no lo hace). Tenga en cuenta que en un cuestionario multifactorial, el "elemento cargado más débil" es a menudo el elemento de otro factor, cargado más alto allí; mientras que en el factor presente este elemento se restringe, como vemos ahora, en el cálculo de los puntajes de los factores, y eso es correcto.

si. Pero si los artículos, aunque cargados como antes de manera desigual, no se correlacionan tan fuertemente, entonces son indicadores / síntomas diferentes para nosotros. Y podría contarse "dos veces", es decir, solo sumarse. En este caso, los puntajes de los factores intentan respetar el elemento más débil en la medida en que su carga aún lo permite, ya que es una forma de realización diferente del factor.

a. También se pueden contar dos ítems dos veces, es decir, simplemente sumados, siempre que tengan cargas similares, suficientemente altas, por el factor, cualquiera que sea la correlación entre estos ítems. (Los puntajes de factor agregan más peso a ambos elementos cuando se correlacionan no demasiado apretados, sin embargo, los pesos son iguales). No parece irrazonable que generalmente toleremos o admitamos elementos bastante duplicados si todos están fuertemente cargados. Si no le gusta esto (a veces es posible que desee), puede eliminar los duplicados del factor manualmente.

Por lo tanto, en el cálculo de las puntuaciones de los factores (refinados) (al menos por el método de regresión), aparentemente existen intrigas de "llevarse bien / salir" entre las variables que constituyen el constructo, en su influencia en las puntuaciones . Los indicadores igualmente fuertes se toleran entre sí, como también lo hacen los indicadores desigualmente fuertes y no fuertemente correlacionados. El "cierre" ocurre con un indicador más débil fuertemente correlacionado con indicadores más fuertes. La suma / promediación simple no tiene esa intriga de "eliminar un duplicado débil".

Por favor, vea también esta respuesta que advierte que el factor teóricamente es más una "esencia interna" que una colección o montón de "sus" fenómenos indicativos. Por lo tanto, resumir a ciegas los elementos, sin tener en cuenta ni sus cargas ni sus correlaciones, es potencialmente problemático. Por otro lado, el factor, como se calificó, puede ser solo una especie de suma de sus elementos, por lo que todo se trata de una mejor concepción de los pesos en la suma.

Echemos un vistazo también a la deficiencia del método grueso o de suma más general y abstracto .

Al comienzo de la respuesta, he dicho que obtener un puntaje de construcción a través de la suma / promediación simple es un caso particular del método aproximado de cálculo de puntaje de factor por el cual los coeficientes de puntaje s se reemplazan por cargas de factor s (cuando las cargas entran dicotomizadas como 1 (cargado) y 0 (descargado) obtenemos exactamente esa simple suma o promedio de elementos). $b$ $a$

Supongamos es un puntaje de factor de encuestado (estimación del valor) y es su valor de factor verdadero (siempre desconocido). También sabemos que cada uno de los elementos y cargados por el factor común (con las cargas y ) consisten en ese factor común más el factor único (suponemos que este último comprende el factor específico S y el término de error e). Entonces, al calcular los puntajes de los factores como lo hacen los paquetes a través de s, tenemos $\hat F_i$ $i$ $F_i$ $X1$ $X2$ $a1$ $a2$ $F$ $U$ $b$

$\hat F_i = b1X1_i+b2X2_i = b1(F_i+U1_i)+b2(F_i+U2_i) = (b1+b2)F_i+b1U1_i+b2U2_i$ .

Si está cerca de cero y son equivalentes. A menos que los factores únicos estén completamente ausentes (o a menos que conozcamos sus valores, lo que no sabemos) nunca podremos proporcionar puntajes que reflejen los valores de precisión. Sin embargo, podríamos idear los dos coeficientes de tal manera que sea posiblemente mínimo entre los encuestados; entonces se guardan estrecha correlación con . Un método u otro, al estimar los coeficientes de puntaje s de las cargas s y los valores $b1U1_i+b2U2_i$ $\hat F_i$ $F_i$ $U$ $\hat F$ $F$ $b$ $\text{var}[b1U1_i+b2U2_i]$ $\hat F$ $F$ $b$ $a$ $X$ podemos hacer puntajes ser bastante representativo de . $\hat F$ $F$

Pero observe el "método grueso", donde las cargas s se admiten en lugar de s a la aproximación anterior de por : $a$ $b$ $F$ $\hat F$

$\hat F_i = a1X1_i+a2X2_i= ~...~ =(a1+a2)F_i+a1U1_i+a2U2_i$ .

Lo que vemos aquí es la ponderación de factores únicos por esos mismos coeficientes que son el grado en que las variables son ponderadas por el factor común . Arriba, las s se calcularon con la ayuda de s, cierto, pero no eran s en sí mismas; y ahora 's en sí mismos llegaron a peso, ya que son - a peso lo que se refiere a no . Esta es la crudeza que cometemos cuando usamos el "método aproximado" de cálculo de puntaje factorial, incluida la suma / promediación simple de ítems como su variante específica. $b$ $a$ $a$ $a$

— ttnphns
fuente

Gracias, @ttnphns, por la útil respuesta. Para mí tiene sentido que los artículos con cargas aproximadamente iguales se puedan sumar (a). Desafortunadamente, no creo que haya encontrado una situación en mi trabajo en la que, al usar una escala existente que supuestamente sea unidimensional, encuentre que los artículos tienen cargas iguales.

— Eric Green

Así que me interesó particularmente su explicación de una situación en la que las cargas difieren y la sugerencia de examinar las correlaciones entre artículos. Me interesa saber si tiene alguna regla general para correlaciones "fuertes" (c) / "no fuertes" (b) o cargas "suficientemente altas" en (a).

— Eric Green

Finalmente, notaré que el telón de fondo de esta pregunta es una norma disciplinaria abrumadora (al menos en psicología) para usar escalas "validadas" que requieren sumas simples (promedios) incluso cuando se administra la escala a una nueva población no normalizada. A menudo, el objetivo son las comparaciones de muestras cruzadas (incluso cuando no se justifica), lo que hace que las sumas simples sean un enfoque común.

— Eric Green

Los estudios de intervención son un caso de uso interesante en mi mente porque la comparación de intereses está dentro de la muestra. Me parece que nos importa más el tamaño del efecto del tratamiento que el puntaje "bruto" de cualquiera de los grupos en la medida, especialmente cuando se usa la escala fuera de la población utilizada para desarrollar / normalizar la escala. Si las puntuaciones de los factores son "mejores" en algunas situaciones, entonces parece que vale la pena lanzar el enfoque simple a favor de uno que tenga más sentido conceptual sabiendo que, en última instancia, solo queremos ver los tamaños del efecto del tratamiento.

— Eric Green

(cont.) Use "validated" scalesno requiere necesariamente sumas simples: si la validación fue buena (muestra grande representativa, buenas correlaciones, número correcto de factores, ajuste agradable, etc.), los puntajes de los factores calculados (sus coeficientes) pueden tomarse como normativos pesos para ser utilizados en nuevas poblaciones. A este respecto, no veo ninguna ventaja en la suma simple.

— ttnphns