¿Cómo reducir el número de ítems usando el análisis factorial, la consistencia interna y la teoría de respuesta al ítem en conjunto?

Estoy en el proceso de desarrollar empíricamente un cuestionario y utilizaré números arbitrarios en este ejemplo para ilustrar. Por contexto, estoy desarrollando un cuestionario psicológico destinado a evaluar los patrones de pensamiento comúnmente identificados en personas que tienen trastornos de ansiedad. Un elemento podría verse como " Necesito revisar el horno repetidamente porque no puedo estar seguro de que esté apagado ".

Tengo 20 preguntas (Likert de 5 puntos) que pueden estar compuestas por uno o dos factores (tenga en cuenta que en realidad tengo más de 200 preguntas, compuestas por 10 escalas, y cada escala puede estar compuesta por dos factores). Estoy dispuesto a borrar aproximadamente la mitad de los elementos, dejando 10 preguntas sobre uno de dos factores.

Estoy familiarizado con el análisis factorial exploratorio (EFA), la consistencia interna (alfa de Cronbach) y las curvas características del ítem en la teoría de respuesta al ítem (IRT). Puedo ver cómo usaría cualquiera de estos métodos para determinar qué elementos son los "peores" dentro de cualquier escala. Aprecio que cada método también responda diferentes preguntas, aunque pueden conducir a resultados similares y no estoy seguro de qué "pregunta" es más importante.

Antes de comenzar, asegurémonos de saber lo que estoy haciendo con cada uno de estos métodos individualmente.

Usando EFA, identificaría el número de factores y eliminaría los elementos que cargan menos (digamos <.30) en su factor respectivo o que cargan de manera cruzada sustancialmente a través de factores.
Utilizando la consistencia interna, eliminaría los elementos que tienen el peor "alfa si se eliminó el elemento". Podría hacerlo suponiendo un factor en mi escala, o hacerlo después de un EFA inicial para identificar el número de factores y posteriormente ejecutar mi alfa para cada factor.
Usando IRT, eliminaría elementos que no evalúan el factor de interés a lo largo de sus opciones de respuesta (5 Likert). Estaría mirando las curvas características del artículo. Básicamente estaría buscando una línea en un ángulo de 45 grados desde la opción 1 en la escala Likert hasta 5 a lo largo de la puntuación latente. Podría hacerlo suponiendo un factor, o hacerlo después de un
EFA inicial para identificar el número de factores, y luego ejecutar las curvas para cada factor.

No estoy seguro de cuál de estos métodos utilizar para identificar mejor qué elementos son los "peores". Utilizo lo peor en un sentido amplio, de modo que el artículo sería perjudicial para la medida, ya sea en términos de confiabilidad o validez, los cuales son igualmente importantes para mí. Presumiblemente puedo usarlos en conjunto, pero no estoy seguro de cómo.

Si tuviera que seguir adelante con lo que sé ahora y darle lo mejor de mí, haría lo siguiente:

Haga una EPT para identificar la cantidad de factores. También elimine elementos con cargas incorrectas en sus respectivos factores, ya que no quiero elementos que se carguen mal independientemente de cómo lo harían en otros análisis.
Haga IRT y elimine también los elementos defectuosos juzgados por ese análisis, si queda alguno de la EFA.
Simplemente informe el Alfa de Cronbach y no use esa métrica como un medio para eliminar elementos.

¡Cualquier guía general sería muy apreciada!

Aquí también hay una lista de preguntas específicas que quizás pueda responder:

¿Cuál es la diferencia práctica entre eliminar elementos basados en cargas de factores y eliminar elementos basados en el alfa de Chronbach (suponiendo que utilice el mismo diseño de factor para ambos análisis)?
¿Qué debo hacer primero? Suponiendo que hago EFA e IRT con un factor, y ambos identifican diferentes elementos que deberían eliminarse, ¿qué análisis debería tener prioridad?

No estoy decidido a hacer todos estos análisis, aunque informaré el alfa de Chronbach de todos modos. Siento que hacer solo IRT dejaría algo que falta, y del mismo modo solo para EFA.

— Behacad
fuente

Si elige lograr la validez de constructo a través de FA, por supuesto, debe comenzar con FA (después de descartar elementos con "malo", por ejemplo, distribuciones demasiado sesgadas). Su compromiso con FA será complejo e iterativo. Después de tirar la mayoría de los elementos "débiles", vuelva a ejecutar FA, verifique el índice KMO, el grado de restauración de las correlaciones, la capacidad de interpretación de los factores, verifique si hay más elementos para eliminar, luego vuelva a ejecutarlo

— ttnphns

El uso de la teoría de prueba clásica en combinación con la teoría de respuesta al ítem es una buena lectura.

— chl

Se quita los artículos con la más alta "alfa si el artículo retirado" no más bajo ...

¡Es extraño! En cuanto a esta pregunta básica, no tenemos una respuesta reconocida dentro de 3 años.

— WhiteGirl

Respuestas:

No tengo citas, pero esto es lo que sugeriría:

Zeroth: si es posible, divida los datos en un conjunto de entrenamiento y prueba.

Primero haz EPT. Mire varias soluciones para ver cuáles tienen sentido, según su conocimiento de las preguntas. Tendría que hacer esto antes del alfa de Cronbach, o no sabrá qué elementos entran en qué factor. (Ejecutar alfa en TODOS los elementos probablemente no sea una buena idea).

A continuación, ejecute alfa y elimine elementos que tengan correlaciones mucho más pobres que los demás en cada factor. No establecería un límite arbitrario, buscaría unos que fueran mucho más bajos que los demás. Vea si eliminarlos tiene sentido.

Finalmente, elija elementos con una variedad de niveles de "dificultad" de IRT.

Luego, si es posible, rehaga esto en el conjunto de prueba, pero sin hacer ninguna exploración. Es decir, vea qué tan bien funciona el resultado encontrado en el conjunto de entrenamiento en el conjunto de prueba.

— Peter Flom - Restablece a Monica
fuente

Gracias por la respuesta. Esto es en la dirección que estaba pensando, aunque no estoy seguro de si tendré los casos para dividir los datos. Además, dado que los artículos están en escalas Likert de 5 puntos, espero que la mayoría de ellos, o al menos los "buenos", presenten dificultades similares.

— Behacad

Seguramente, conoces buenas referencias :-) Te molestaría en los siguientes puntos (porque este hilo probablemente servirá como referencia para futuras preguntas). (a) Por lo general, la eliminación de elementos basada en el alfa de Cronbach se realiza sin considerar un esquema de validación cruzada. Obviamente, es un enfoque parcial ya que se utilizan los mismos individuos para estimar ambas medidas. (b) Otra alternativa es basar la correlación ítem / escala considerando el puntaje de reposo (es decir, puntaje de suma sin incluir el ítem en consideración): ¿cree que es importante en este caso? (...)

— chl

(...) (c) Finalmente, los modelos IRT a menudo se usan para descartar elementos (en el espíritu de la purificación de escala ) en función de las estadísticas de ajuste de elementos y similares. ¿Cuál es tu opinión sobre ese enfoque?

— chl

Para su información, probablemente pueda encontrar referencias para cada uno de estos métodos individualmente, pero agradecería cualquier referencia potencial al uso de cualquiera de estos métodos en conjunto. ¡Cualquier referencia sería genial, de verdad! Ya sabes (¡y probablemente lo eres!)

— Revisores

@chl Podría desenterrar referencias, pero no las conozco de la cabeza. En a) yb), probablemente importe más de lo que la mayoría de la gente piensa que importa; alguien debería hacer una simulación. en c) Ha pasado un tiempo desde que hice IRT (mi título es en psicometría, pero eso fue hace mucho tiempo).

— Peter Flom - Restablece a Monica

Los tres criterios sugeridos en realidad podrían realizarse en IRT, más específicamente IRT multidimensional. Si el tamaño de su muestra es bastante grande, probablemente sería una forma consistente de hacerlo para cada subescala. De esta forma, podría obtener los beneficios de IRT para modelar ítems de forma independiente (utilizando modelos nominales para algunos ítems, crédito parcial generalizado o calificado para otros, o si es posible, incluso establecer escalas de calificación para ayudar a interpretar ítems politómicos de una manera más parsimoniosa).

$\theta$

Podría intentar eliminar elementos que no se ajustan a los requisitos unidimensionales de la mayoría del software IRT, pero no lo recomendaría necesariamente si afecta la representación teórica de las construcciones en cuestión. En aplicaciones empíricas, generalmente es mejor tratar de hacer que nuestros modelos se ajusten a nuestra teoría, y no al revés. Además, aquí es donde los modelos bifactor / de dos niveles tienden a ser apropiados, ya que le gustaría incluir todos los elementos posibles y tener en cuenta la multidimensionalidad de una manera sistemática y teóricamente deseable.

— philchalmers
fuente

¡Gracias! ¿Cómo se mide la fiabilidad empírica en IRT? ¿Es esto lo mismo que la información?

— Behacad

\hat{θ}

$\hat{\theta}$

r_{x x} = T / (T + E)

$r_{xx} = T / (T + E)$

θ

$\theta$ mirtfscores()sirtTAM

@ philchalmers, pls echar un vistazo pregunta si puede responder a ella.

— WhiteGirl