¿Cómo comenzar a aplicar la teoría de respuesta de ítems y qué software usar?


21

Contexto

He estado leyendo sobre la teoría de respuesta al ítem, y me parece fascinante. Creo que entiendo lo básico, pero me pregunto cómo aplicar técnicas estadísticas relacionadas con el área. A continuación hay dos artículos que son similares al área en la que me gustaría aplicar ITR:

El segundo es el que realmente me gustaría extender en este momento.

He descargado un programa gratuito llamado jMetrik, y parece estar funcionando muy bien. Creo que puede ser demasiado básico en lo que respecta a IRT, pero no estoy seguro.

Sé que la "mejor" forma implicaría aprender R; Sin embargo, no sé si puedo perder el tiempo para abordar esa curva de aprendizaje. Tenga en cuenta que tenemos algunos fondos para comprar software, pero por lo que veo, no parece haber ningún gran programa IRT por ahí.

Preguntas

  • ¿Qué piensas sobre la efectividad de jMetrik?
  • ¿Cómo sugeriría que avance en la aplicación de IRT?
  • ¿Cuáles son los mejores programas para aplicar IRT?
  • ¿Alguno de ustedes usa IRT regularmente? ¿Si es así, cómo?

1
¿Qué software usas actualmente?
StasK

He estado usando jMetrik. Parece bastante nuevo y ha estado haciendo muchas de las cosas que me interesan.
Behacad

2
¿Funciona en modo script? Si solo tiene una GUI, sus resultados serán muy difíciles de reproducir. Un modo de script es imprescindible para cualquier software serio.
StasK

Respuestas:


22

Como buen iniciador de IRT, siempre recomiendo leer una guía visual de la teoría de respuesta al ítem .

Se puede encontrar una encuesta del software disponible en www.rasch.org .

Desde mi experiencia, encontré que los comandos Stata de Raschtest (y asociados) son muy útiles en la mayoría de los casos en los que uno está interesado en ajustar el modelo de un parámetro. Para un diseño más complejo, uno puede recurrir a GLLAMM ; Hay un buen ejemplo de trabajo basado en el libro de De Boeck y Wilson, Elementos explicativos y modelos de respuesta (Springer, 2004).

Acerca de R específicamente, hay muchos paquetes que han estado disponibles en los últimos cinco años, ver por ejemplo la Vista de tareas CRAN relacionada . La mayoría de ellos se discuten en un número especial del Journal of Statistical Software (vol. 20, 2007). Como se discutió en otra respuesta, ltm y eRm permiten adaptarse a una amplia gama de modelos IRT. Como se basan en un método de estimación diferente, ltmusaron el enfoque marginal mientras eRmusan el enfoque condicional, elegir uno u otro es principalmente una cuestión del modelo que desea ajustar (eRm no se ajusta a los modelos de 2 o 3 parámetros) y el objetivo de medición que sigue: la estimación condicional de los parámetros de la persona tiene algunas propiedades psicométricas agradables, mientras que un enfoque marginal le permite cambiar fácilmente al modelo de efectos mixtos, como se discute en los siguientes dos documentos :

También hay algunas posibilidades para adaptar los modelos Rasch que utilizan métodos MCMC, consulte, por ejemplo, el paquete MCMCpack (o WinBUGS / JAGS , pero consulte el Código BUGS para la teoría de respuesta al artículo , JSS (2010) 36).

No tengo experiencia con SAS para el modelado IRT, así que se lo dejaré a alguien que esté más versado en la programación de SAS.

Otro software dedicado (utilizado principalmente en la evaluación educativa) incluye: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (sin citar la lista ya disponible en wikipedia ). Ninguno es de uso gratuito, pero se proponen versiones de demostración de tiempo limitado para algunos de ellos. Encontré jMetrik muy limitado cuando lo probé (hace un año), y todas las funcionalidades ya están disponibles en R. Asimismo, ConstructMap se puede reemplazar de forma segura por lme4 , como se ilustra en el folleto vinculado anteriormente. También debo mencionar mdltm(Modelos de rasgos latentes discretos multidimensionales) para modelos Rasch mixtos, de von Davier y col., Que se supone que acompañan al libroModelos Rasch de distribución multivariada y mezcla (Springer, 2007).


¡Fantástico! Gracias por la respuesta muy completa! Ambas respuestas me ayudarán amablemente, así como cualquier otra persona que tenga curiosidad por seguir esta área, estoy seguro. Le sugiero que eche un vistazo a jMetrik nuevamente, y tal vez me dé sus pensamientos. Tiene modelado Rasch ahora, curvas ICC, algunas curvas IRT, ecuaciones IRT (modelos 1PT, 2PT, 3PT) y más.
Behacad

Veré la versión actualizada. Pero, sinceramente, vale la pena recordar lo que dijo @Stask si planea hacer algo serio más allá de la estimación de parámetros y el informe visual. Para tener una idea de lo que quiero decir, ver Una introducción a la teoría psicométrica con aplicaciones en R . (Cubre más de lo que algunos llaman psicometría "moderna".)
chl

@chi - Obtuve resultados muy diferentes cuando ejecuté análisis IRT en R usando ltm en comparación con cuando ejecuté el mismo análisis en Mplus y luego en Multilog (mientras que el análisis en Mplus y Multilog fueron idénticos). Traté de averiguar por qué con el autor de ltm, pero no recibí ninguna respuesta. ¿Has tenido experiencias similares con resultados discrepantes de diferentes paquetes de software?
Tormod

ex5.5θpβip = 1 , ... , n β i - θ pi=1,,kp=1,,nβiθp

@chi - perdón por el retraso en la respuesta, no he notado tu comentario. No sé si esto sigue siendo relevante, pero obtuve diferencias que varían de 0.184 a 1.429 para los parámetros de discriminación (a). Por ejemplo, Mplus dio un a = 5.084 mientras que ltm dio el mismo elemento un a = 3.655. En general, ltm dio una calificación más pequeña que mplus. (Ejecutar los mismos análisis en multilog dio a's correspondientes a las a de Mplus). Las b eran más parecidas.
Tormod

8

A la primera pregunta, no tengo ninguna información sobre jMetrick.

Al aplicar IRT, (como con cualquier otro procedimiento estadístico), el primer paso es usarlo con tantos tipos diferentes de datos como sea posible. Hay una curva de aprendizaje, pero creo que vale la pena.

Una característica importante de IRT es la diferenciación entre los modelos Rasch y los modelos IRT. Fueron desarrollados por diferentes personas para diferentes propósitos. Dicho esto, los modelos IRT son un superconjunto de modelos Rasch.

Los modelos Rasch son modelos de un parámetro: suponen que todos los ítems en un cuestionario son igualmente predictivos del rasgo latente.

Sin embargo, los modelos IRT son dos modelos de parámetros que permiten que las preguntas difieran en su capacidad de proporcionar información sobre la capacidad de los participantes.

Además, hay tres modelos de parámetros que son como los modelos IRT, excepto que permiten un parámetro de adivinanzas para tener en cuenta la capacidad de los participantes de obtener la respuesta correcta por casualidad (esto es más una preocupación en la capacidad que en las pruebas de personalidad).

Además, hay IRT multidimensional que estima múltiples habilidades latentes a la vez. No sé mucho sobre esto, pero es un área que tengo la intención de aprender más.

También hay una distinción entre los métodos IRT dicotómicos y politómicos. Los modelos IRT dicotómicos son los que se usan en las pruebas de habilidad, que tienen una respuesta correcta e incorrecta. Los modelos IRT politómicos se utilizan en pruebas de personalidad, donde hay múltiples respuestas, que son igualmente correctas (en el sentido de que no hay una respuesta correcta).

Yo personalmente uso R para la teoría de respuesta al ítem. Hay dos paquetes principales que he usado, eRmque se ajustan solo a los modelos Rasch, y ltmque se ajusta a los modelos de teoría de respuesta a ítems (modelos de dos y tres parámetros). Ambos tienen una funcionalidad similar, y ambos proporcionan más rutinas para modelos IRT dicotómicos. No sé si R es el "mejor" para IRT, no tiene todos los modelos de IRT disponibles, pero ciertamente es el más extensible, ya que uno puede programar estos modelos con relativa facilidad.

Utilizo IRT casi exclusivamente para modelos politómicos, en R. Normalmente comienzo con métodos IRT no paramétricos (proporcionados en el paquete mokken) para probar los supuestos, y luego proceder con un modelo rasch, agregando más complejidad según sea necesario para obtener un buen ajuste.

Para IRT multidimensional, existe el paquete 'mirt', que proporciona esta funcionalidad. No lo he usado, así que realmente no puedo comentar.

Si instala estos paquetes en R y llama a la función 'viñeta ("nombre del paquete"), entonces debería obtener algunas viñetas útiles (definitivamente para eRmy mokken, posiblemente para los demás) que pueden resultarle útiles (dependiendo de su nivel de sofisticación matemática).

Finalmente, hay una serie de buenos libros disponibles para modelos rasch y irt. La teoría de respuesta al ítem para psicólogos se usa a menudo (aunque no me gustó el estilo), y más adelante en la cadena de sofisticación técnica, hay dos libros de texto extremadamente completos y útiles: el Manual de la teoría moderna de respuesta al ítem y los modelos Rasch: Fundamentos, recientes Desarrollos y Aplicaciones .

Espero que esto ayude.


¡Gracias! Eso es muy apreciado. También me gustaría saber más sobre las opciones de software si alguien tiene algún conocimiento en el área.
Behacad

3

jMetrik es más poderoso de lo que piensas. Está diseñado para el trabajo operativo donde los investigadores necesitan múltiples procedimientos en un solo marco unificado. Actualmente puede estimar los parámetros IRT para los modelos de escala Rasch, crédito parcial y calificación. También permite vincular la escala IRT a través del Stocking-Lord, Haebara y otros métodos. Debido a que incluye una base de datos integrada, el resultado de la estimación IRT se puede usar en la vinculación de escala sin la necesidad de reformar los archivos de datos. Además, todos los resultados se pueden almacenar en la base de datos para usar con otros métodos en jMetrik o programas externos como R.

También puede ejecutarlo con scripts en lugar de la GUI. Por ejemplo, el siguiente código (a) importará datos a la base de datos, (b) puntuará elementos con una clave de respuesta, (c) estimará parámetros del modelo Rasch y (d) exportará datos como un archivo CSV. Puede usar el archivo de salida final como entrada en R para un análisis posterior, o puede usar R para conectarse directamente a la base de datos jMetrik y trabajar con los resultados.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

El software aún se encuentra en sus primeras etapas de desarrollo. Actualmente estoy agregando análisis factorial exploratorio y modelos de respuesta de ítems más avanzados. A diferencia de muchos otros programas IRT, jMetrik es de código abierto. Todos los procedimientos de medición utilizan la biblioteca de psicometría que actualmente está disponible en GitHub, https://github.com/meyerjp3/psychometrics . Cualquier persona interesada en contribuir es bienvenida.


0

Aquí tiene una lista bastante amplia de preguntas, ¡pero bastante relevante para muchos investigadores!

Le recomiendo que siga adelante en IRT, pero solo si su situación cumple con los requisitos. Por ejemplo, encaja bien con los tipos de pruebas que usa, y probablemente lo más importante es que tiene los tamaños de muestra necesarios. Para los datos dicotómicos de opción múltiple, recomiendo el modelo 3PL (el argumento Rasch de "medición objetiva" es sorprendentemente poco convincente), y 500-1000 es generalmente el tamaño mínimo de muestra. Los datos dicotómicos sin adivinar, como las encuestas psicológicas que tienen respuestas S / N a las declaraciones, funcionan bien con el 2PL. Si tiene una escala de calificación o datos crediticios parciales, existen modelos politómicos diseñados específicamente para esas situaciones.

En mi humilde opinión, el mejor programa para aplicar IRT es Xcalibre. Es relativamente fácil de usar (interfaz gráfica de usuario simple, así como algún tipo de lote de línea de comandos si lo desea por alguna razón) y produce una salida altamente legible (informes de MS Word con tablas y figuras extensas). Recomiendo no usar R por las razones opuestas. El inconveniente, por supuesto, es que no es gratis, pero tiende a obtener lo que paga como dicen. La descripción completa, la salida de ejemplo y una versión de prueba gratuita están disponibles en www.assess.com .


¿Le gustaría explicar por qué el argumento sobre "medición objetiva" sensu Rasch (o más correctamente la posibilidad de comparaciones objetivas específicas) es "sorprendentemente poco convincente"?
Momo

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.