¿Por qué establecer pesos en 1 en el análisis factorial confirmatorio?

8

Escribo esta pregunta con referencia a un ejemplo en p138-142 del siguiente documento: ftp://ftp.software.ibm.com/software/analytics/spss/documentation/amos/20.0/en/Manuals/IBM_SPSS_Amos_User_Guide.pdf .

Aquí hay figuras ilustrativas y una tabla: Ejemplo CFA

Entiendo que la variable latente no tiene una métrica natural y que se establece un factor de carga en 1 para solucionar este problema. Sin embargo, hay una serie de cosas que no entiendo (completamente):

¿Cómo soluciona un factor de carga a 1 para solucionar este problema de indeterminación de escala?
¿Por qué arreglar a 1, en lugar de algún otro número?
Entiendo que al fijar uno de los pesos de regresión del factor-> indicador a 1, hacemos todos los otros pesos de regresión para ese factor en relación con él. Pero, ¿qué sucede si establecemos un factor de carga particular en 1 pero luego resulta que las puntuaciones más altas en el factor predicen puntuaciones más bajas en la variable observada en cuestión? Después de establecer inicialmente la carga del factor en 1, ¿podemos llegar a un peso de regresión estandarizado negativo o a un peso de regresión estandarizado negativo?
En este contexto, he visto cargas de factores referidas tanto como coeficientes de regresión como covarianzas. ¿Ambas definiciones son completamente correctas?
¿Por qué necesitábamos fijar space-> visperc y verbal-paragrap ambos en 1? ¿Qué hubiera pasado si hubiéramos arreglado uno de esos caminos a 1?
Mirando el coeficiente estandarizado, ¿cómo puede ser que el coeficiente no estandarizado para wordmean> oración> paragrap, pero mirando los coeficientes estandarizados paragrap> wordmean> oración. Pensé que al fijar el párrafo a 1 inicialmente, todas las demás variables cargadas en el factor se hicieron relativas al párrafo.

También agregaré una pregunta que imagino que tiene una respuesta relacionada: ¿por qué fijar el coeficiente de regresión para los términos únicos (por ejemplo, err_v-> visperc) a 1? ¿Qué significaría que err_v tenga un coeficiente de 1 en la predicción de visperc?

Agradecería mucho las respuestas incluso si no abordan todas las preguntas.

factor-analysis confirmatory-factor

— user1205901 - Restablecer Monica
fuente

1

Aquí hay dos artículos interesantes sobre el ajuste de escala de variables latentes: González y Griffin (2001): Parámetros de prueba en SEM: Cada "uno" importa ( www-personal.umich.edu/~gonzo/papers/sem.pdf ), Little, Slegers y Card (2006): una forma no arbitraria de identificar y escalar variables latentes en modelos SEM y MACS ( agencylab.ku.edu/~agencylab/manuscripts/… )

— Patrick Coulombe

¿Qué pasa si establece más de 1 peso en uno? ¿Los resultados son iguales?

— Behacad

10

Porque luego le permite usar la relación entre la variable latente y la variable observada para determinar la varianza de la variable latente. Por ejemplo, considere la regresión de Y en X. Si se me permite cambiar la varianza de X, digamos, multiplicándola por una constante, entonces puedo cambiar el coeficiente de regresión arbitrariamente. Si, en cambio, fijo el valor del coeficiente de regresión, entonces esto determina la varianza de X.
Por convención, y para facilitar la comparación de los coeficientes entre sí.
En ese caso, la variable latente simplemente se invierte. Por ejemplo, supongamos que nuestra variable latente es la habilidad matemática, nuestra variable observada es el número de errores en una prueba y fijamos el coeficiente de regresión a 1. Entonces nuestra variable latente se convertirá en "dificultad con las matemáticas" en lugar de la habilidad matemática, y el Los coeficientes para cualquier otra variable observada cambiarán en consecuencia.
Si la variable observada y la variable latente están estandarizadas (es decir, una desviación estándar igual a 1), entonces el coeficiente de regresión es igual a la covarianza.
Está fijando espacial -> visperc a 1 que permite la estimación de la varianza de espacial (ver respuesta a (1) arriba). Asimismo, la fijación verbal -> paragrap permite la estimación de la varianza de verbal. Un modelo con solo una de estas restricciones no sería identificable.
Porque las diferencias entre los coeficientes no estandarizados y estandarizados dependen no solo de la variación verbal, sino también de las variaciones de párrafo, oración y significado de las palabras. Por ejemplo, el coeficiente estandarizado para wordmean es igual al coeficiente no estandarizado multiplicado por $\frac{SD_{verbal}}{SD_{wordmean}}$ o $2.234 \times \frac{\sqrt{9.682}}{\sqrt{(2.234^2 \times 9.682) + 19.925}} = 0.841$ .

Finalmente, tenga en cuenta que err_v es análogo al término de error en un modelo de regresión, por ejemplo,

v i s p e r c = β_{0} + β_{1} s p a t i a l + e r r_v

$visperc = \beta_0 + \beta_1 spatial + err\_v$ Fijamos el coeficiente en err_v (es decir, en el término de error) a 1 para poder estimar la varianza del error (es decir, la varianza de err_v).

— Phil Schumm
fuente

7

Puedo estar malinterpretando la frase "indeterminación de escala", pero creo que se establece en uno para la identificabilidad. (Es decir, el número de incógnitas en este sistema de ecuaciones no debe exceder el número de ecuaciones). Sin establecer uno de los enlaces en uno, hay demasiadas incógnitas. ¿Es eso lo mismo que la indeterminación de escala?
En la mayoría de las aplicaciones SEM, está trabajando con matrices de covarianza, no con los datos sin procesar. Existe un algoritmo alternativo que utiliza los datos originales, llamado PLS (Parciales Mínimos Cuadrados), que podría arrojar algo de luz adicional sobre las cosas para usted.

— Wayne
fuente

1. La mayoría de los artículos han tendido a tratar la indeterminación de escala e identificabilidad como si fueran cuestiones separadas. Un argumento a favor de la distinción es que si agregamos más variables observadas, entonces la proporción de conocimientos a incógnitas aumenta, pero eso no elimina la necesidad de que una carga se establezca en 1. 2. Gracias por el consejo sobre PLS .

— user1205901 - Reinstale a Monica

4

Piensa en la interpretación como si fuera una simple regresión. El coeficiente refleja la diferencia de unidades en la variable dependiente asociada con una diferencia de 1 unidad en la variable independiente. Por lo tanto, si un cambio de 1 unidad en el IV está asociado con un cambio de 1 unidad en el DV, entonces las unidades son funcionalmente equivalentes. Necesita una unidad para la variable latente porque desea estimar su varianza, que no es sin unidades. El problema de identificación está relacionado, ya que para un CFA simple con 1 variable latente y 3 indicadores, el modelo no se identifica a menos que se establezca la restricción.
Puede establecerlo en cualquier número, y la naturaleza general de los resultados será la misma (se verifica fácilmente observando el ajuste del modelo, que será idéntico). Es más fácil interpretar el modelo si lo configura en 1.
Independientemente de cómo arregle cualquiera de las cargas de factores, puede obtener elementos cargados positiva y negativamente para la misma variable latente. Puede probar esto multiplicando uno de sus indicadores por -1 y estimando su modelo nuevamente.
Funcionalmente son lo mismo si el coeficiente de regresión no está ajustado (es decir, la variable dependiente solo tiene 1 flecha apuntando hacia él). Si este es el caso, uno puede ser calculado del otro.
¡Intentalo! Cada variable latente necesita una escala, por las razones ya mencionadas.
Este es un problema de escala y es exactamente la razón para usar coeficientes estandarizados. Puedo hacer que cualquier coeficiente de regresión sea arbitrariamente grande dividiendo el DV por números cada vez más grandes. Por lo tanto, un cambio de 1 unidad en el IV producirá cambios cada vez más grandes en las unidades del DV. Al normalizar y comparar cosas similares, evitamos este problema.
Fijar la carga del factor de error en 1 simplemente facilita la interpretación. Hace que la ecuación de regresión respectiva en el SEM tome la forma familiar de Y = BX + e (o Y = BX + 1 * e).

— DL Dahly
fuente

Estoy confundido sobre lo que dices en el n. ° 5 sobre cómo fijar la covarianza a 1. Seguramente quisiste decir correlación y no covarianza (a menos que ambas variables tengan una varianza de 1), ¿correcto? Además, si se refería a establecer la correlación en 1, parece que las dos variables se habrían reducido efectivamente a una sola variable (y no simplemente se habrían puesto en la misma escala), dado que siempre tomarían el mismo valor

— Patrick Coulombe

2

Stata tiene una muy buena documentación sobre SEM aquí , busque la sección "Identificación 2", tiene respuestas a todas sus preguntas.

la ausencia de escala se produce porque su variable latente no es observable. puede llegar a respuestas numéricas en la encuesta de felicidad, pero la felicidad en sí misma no se mide directamente. ahora tienes que vincular de alguna manera las respuestas como 1 a 10 a la felicidad. así que designa una de las preguntas como un ancla y establece su carga en 1.

no tiene que ser 1, podría ser cualquier valor, pero 1 es conveniente.

tanto espacial como verbal no son observables, por lo que debe establecer la escala para ambos, por lo tanto, tiene anclajes para cada uno.

— Aksakal
fuente