Mi descargo de responsabilidad : me doy cuenta de que esta pregunta ha estado latente durante algún tiempo, pero parece ser importante, y una que pretendía obtener múltiples respuestas. Soy psicólogo social y, por lo que parece, probablemente esté un poco más cómodo con tales diseños que Henrik (aunque sus preocupaciones sobre las interpretaciones causales son totalmente legítimas).
¿En qué condiciones es SEM una técnica de análisis de datos adecuada?
Para mí, esta pregunta en realidad llega a dos subpreguntas distintas:
- ¿Por qué usar SEM en primer lugar?
- Si un investigador ha decidido usar SEM, ¿cuáles son los requisitos relacionados con los datos para usar SEM?
¿Por qué usar SEM en primer lugar?
El SEM es un enfoque más matizado y complicado, y por lo tanto menos accesible, para el análisis de datos que otros enfoques de modelado lineal generales más típicos (por ejemplo, ANOVA, correlaciones, regresión y sus extensiones, etc.). Cualquier cosa que se te ocurra hacer con esos enfoques, puedes hacerlo con SEM.
Como tal, creo que los posibles usuarios primero deben evaluar enérgicamente por qué se ven obligados a usar SEM en primer lugar. Sin duda, SEM ofrece algunos beneficios poderosos a sus usuarios, pero he revisado documentos en los que ninguno de estos beneficios se utiliza, y el producto final es una sección de análisis de datos en un documento que es innecesariamente más difícil de entender para los lectores típicos. . Simplemente no vale la pena, para el investigador o el lector, si no se obtienen los beneficios de SEM frente a otros enfoques de análisis de datos.
Entonces, ¿qué veo como los principales beneficios de un enfoque SEM? Los grandes, en mi opinión, son:
(1) Modelado de variables latentes : SEM permite a los usuarios examinar relaciones estructurales (varianzas, covarianzas / correlaciones, regresiones, diferencias de medias grupales) entre variables latentes no observadas, que son esencialmente la covarianza compartida entre un grupo de variables (por ejemplo, elementos de una ansiedad medir a sus estudiantes podrían usar).
El gran punto de venta para analizar variables latentes (p. Ej., Ansiedad latente) versus una puntuación observada del constructo (p. Ej., Un promedio de los ítems de ansiedad) es que las variables latentes están libres de errores: las variables latentes están formadas por covarianza compartida. y se teoriza que el error covary con nada. Esto se traduce en un mayor poder estadístico, ya que los usuarios ya no tienen que preocuparse por la falta de fiabilidad de la medición que atenúa los efectos que intentan modelar.
Otra razón más discreta para considerar el uso de SEM es que, en algunos casos, es una forma más válida de construcción de probar nuestras teorías sobre construcciones. Si sus alumnos, por ejemplo, estuvieran usando tres medidas diferentes de ansiedad, ¿no sería mejor comprender las causas / consecuencias de lo que esas tres medidas tienen en común, presumiblemente ansiedad, en un marco SEM, en lugar de privilegiar cualquier en particular una medida como la medida de la ansiedad?
(2) Modelado de múltiples variables dependientes: Incluso si alguien no va a usar SEM para modelar variables latentes, aún puede ser bastante útil como marco para analizar simultáneamente múltiples variables de resultados en un modelo. Por ejemplo, quizás sus estudiantes estén interesados en explorar cómo los mismos predictores se asocian con varios resultados clínicamente relevantes diferentes (por ejemplo, ansiedad, depresión, soledad, autoestima, etc.). ¿Por qué ejecutar cuatro modelos separados (aumento de la tasa de error Tipo I), cuando solo puede ejecutar un modelo para los cuatro resultados que le interesan? Esta es también una razón para usar SEM cuando se trata con ciertos tipos de datos dependientes, donde múltiples encuestados dependientes pueden generar predictores y respuestas de resultados (por ejemplo, datos diádicos; ver Kenny, Kashy y Cook, 2006,
(3) Supuestos de modelado, en lugar de hacerlos : con muchos otros enfoques para el análisis de datos (por ejemplo, ANOVA, correlación, regresión), hacemos un montón de supuestos sobre las propiedades de los datos con los que estamos tratando, como la homogeneidad de varianza / homoscedasticidad. El SEM (generalmente combinado con un enfoque de variable latente) permite a los usuarios modelar parámetros de varianza simultáneamente junto con medias y / o correlaciones / vías regresivas. Esto significa que los usuarios pueden comenzar a teorizar y probar hipótesis sobre la variabilidad, además de las diferencias medias / covariabilidad, en lugar de solo tratar la variabilidad como una idea molesta relacionada con suposiciones.
Otro supuesto comprobable, cuando se comparan los niveles medios de grupo en alguna variable, es si esa variable realmente significa lo mismo para cada grupo, lo que se conoce como invariancia de medición en la literatura SEM (ver Vandenberg y Lance, 2000, para una revisión de este proceso). ) Si es así, las comparaciones en los niveles medios de esa variable son válidas, pero si los grupos tienen una comprensión significativamente diferente de lo que es algo, la comparación de los niveles medios entre los grupos es cuestionable. Hacemos esta suposición particular implícitamente todo el tiempo en la investigación usando comparaciones grupales.
Y luego está la suposición de que cuando promedias o sumas los puntajes de los ítems (p. Ej., En una medida de ansiedad) para crear un índice agregado, cada ítem es una medida igualmente buena de la construcción subyacente (porque cada ítem es ponderado igualmente en el promedio / suma). SEM elimina esta suposición cuando se utilizan variables latentes, al estimar diferentes valores de carga de factores (la asociación entre el elemento y la variable latente) para cada elemento.
Por último, otros supuestos sobre los datos (p. Ej., Normalidad), aunque todavía son importantes para SEM, pueden manejarse (por ejemplo, mediante el uso de estimadores "robustos", ver Finney y DiStefano, 2008) cuando los datos no se cumplen ciertos criterios (bajos niveles de asimetría y curtosis).
(4) Especificar restricciones del modelo: La última gran razón, en mi opinión, para considerar el uso de SEM, es porque hace que sea muy fácil probar hipótesis particulares que pueda tener sobre su modelo de datos, al forzar ("restringir" en términos de SEM) ciertas rutas en su modelo tomar valores particulares y examinar cómo eso impacta el ajuste de su modelo a sus datos. Algunos ejemplos incluyen: (A) restringir una ruta de regresión a cero, para probar si es necesario en el modelo; (B) que contiene múltiples vías de regresión para que sea igual en magnitud (por ejemplo, ¿es la fuerza asociativa para algún predictor aproximadamente igual para la ansiedad y la depresión?); (C) restringir los parámetros de medición necesarios para evaluar la invariancia de la medición (descrita anteriormente); (D) restringir una ruta de regresión para que sea igual en fuerza entre dos grupos diferentes,
¿Cuáles son los requisitos relacionados con los datos para SEM?
Los requisitos relacionados con los datos para SEM son bastante modestos; necesita un tamaño de muestra adecuado y para que sus datos cumplan con los supuestos del estimador del modelo que ha seleccionado (la probabilidad máxima es típica).
Es difícil dar una recomendación única para el tamaño de la muestra. Basándose en algunas simulaciones directas, Little (2013) sugiere que para modelos muy simples, 100-150 observaciones podrían ser suficientes, pero las necesidades de tamaño de la muestra aumentarán a medida que los modelos se vuelvan más complejos, y / o como la fiabilidad / validez de las variables utilizadas en El modelo disminuye. Si la complejidad del modelo es una preocupación, podría considerar parcelar los indicadores de sus variables latentes, pero no todos están integrados con este enfoque (Little, Cunningham, Shahar y Widaman, 2002). Pero en términos generales, si todo lo demás es igual, las muestras más grandes (me esfuerzo por un mínimo de 200 en mi propia investigación) son mejores.
En cuanto a cumplir con los supuestos de un estimador seleccionado, generalmente esto es bastante fácil de evaluar (por ejemplo, observe los valores de asimetría y curtosis para un estimador de máxima verosimilitud). E incluso si los datos se apartan de las propiedades asumidas, una investigación podría considerar el uso de un estimador "robusto" (Finney y DiStefano, 2008), o un estimador que asume un tipo diferente de datos (por ejemplo, un estimador categórico, como el menos ponderado en diagonal) cuadrícula).
¿Alternativas a SEM para el análisis de datos?
Si un investigador no va a aprovechar los beneficios proporcionados por un enfoque SEM que he destacado anteriormente, recomendaría seguir con la versión más directa y accesible de ese análisis en particular (por ejemplo, t -pruebas, ANOVA, análisis de correlación, modelos de regresión [incluidos los modelos de mediación, moderación y procesos condicionales]). Los lectores están más familiarizados con ellos y, por lo tanto, los comprenderán más fácilmente. Simplemente no vale la pena confundir a los lectores con las minucias de SEM si esencialmente está usando SEM con el mismo efecto que un enfoque analítico más simple.
Consejos para los investigadores que consideran el uso de SEM?
Para aquellos nuevos en SEM:
- Obtenga un texto SEM completo y accesible de base escrita. Me gusta Beaujean (2014), Brown (2015; la edición anterior también es sólida) y Little (2013; buena introducción general, aunque luego se centra específicamente en modelos longitudinales).
- Aprenda a usar el
lavaan
paquete para R
(Rosseel, 2012). Su sintaxis es tan fácil como la sintaxis SEM, su funcionalidad es lo suficientemente amplia para las necesidades SEM de muchas personas (definitivamente para principiantes), y es gratis. El libro de Beaujean ofrece una excelente introducción simultánea a SEM y al lavaan
paquete.
- Consulte / use CrossValidated y StacksOverflow regularmente. Pueden ocurrir cosas inesperadas cuando se ajustan los modelos SEM, y lo más probable es que muchas de las cosas extrañas que pueda experimentar ya se hayan descrito y solucionado en las pilas.
- Como señala Herik, tenga en cuenta que solo porque está especificando un modelo que implica asociaciones causales, no significa que SEM ayude a establecer la causalidad en un estudio transversal / no experimental. Además, vale la pena considerar el uso de SEM para analizar datos de diseños longitudinales y / o experimentales.
Y para aquellos que están comenzando a usar SEM:
- En algún momento, se sentirá tentado a especificar residuos correlacionados de forma involuntaria, en un esfuerzo por mejorar el ajuste de su modelo. No lo hagas Al menos no sin una buena razón a priori . La mayoría de las veces, una muestra más grande o un modelo más simple es la cura.
- Evite el uso del método de identificación de variables marcadoras para variables latentes (es decir, fijar el primer factor de carga a 1). Privilegia ese indicador como el indicador "estándar de oro" de su variable latente, cuando en la mayoría de los casos, no hay razón para asumir que este es el caso. Tenga en cuenta que esta es la configuración de identificación predeterminada en la mayoría de los programas.
Referencias
Beaujean, AA (2014). Modelado variable latente usando R: una guía paso a paso . Nueva York, NY: Routledge.
Brown, TA (2015). Análisis factorial confirmatorio para investigadores aplicados (2ª edición). Nueva York, NY: Guilford Press.
Finney, SJ y DiStefano, C. (2008). Datos no normales y categóricos en el modelado de ecuaciones estructurales. En GR Hancock y RD Mueller (Eds.), Modelado de ecuaciones estructurales: un segundo curso (pp. 269-314). Publicación de la era de la información.
Kenny, DA, Kashy, DA y Cook, WL (2006). Análisis de datos diádicos . Nueva York, NY: Guilford Press.
Little, TD (2013). Modelado de ecuaciones estructurales longitudinales . Nueva York, NY: Guilford Press.
Little, TD, Cunningham, WA, Shahar, G. y Widaman, KF (2002). Parcelar o no parcelar: Explorando la pregunta, sopesando los méritos. Modelado de ecuaciones estructurales , 9 , 151-173.
Rosseel, Y. (2012). lavaan: un paquete R para el modelado de ecuaciones estructurales. Revista de software estadístico , 48 (2), 1-36.
Vandenberg, RJ y Lance, CE (2000). Una revisión y síntesis de la literatura de invariancia de medición: sugerencias, prácticas y recomendaciones para investigadores organizacionales. Métodos de investigación organizacional , 3 , 4-70.