Validar cuestionarios

12

Estoy diseñando un cuestionario para mi disertación. Estoy en el proceso de validar el cuestionario. He aplicado una prueba alfa de Cronbach al grupo de muestra inicial. Las respuestas al cuestionario están en una escala Likert; ¿Alguien puede sugerir alguna otra prueba para aplicar para ayudar a probar su validez? No soy un experto en estadísticas, por lo que agradecería cualquier ayuda.

He estado investigando y parece que puedo hacer un análisis Rasch. ¿Alguien tiene algún sitio de software libre para aplicar esta prueba y este consejo?

— ttnphns
fuente

22

Asumiré que su cuestionario debe considerarse como una escala unidimensional (de lo contrario, el alfa de Cronbach no tiene mucho sentido). Vale la pena ejecutar un análisis factorial exploratorio para verificar eso. También le permitirá ver cómo los artículos se relacionan con la escala (es decir, a través de sus cargas).

Los pasos básicos para validar sus artículos y su escala deben incluir:

un informe completo sobre las estadísticas básicas de los ítems (rango, cuartiles, tendencia central, efectos de techo y piso si los hay);
comprobar la consistencia interna como lo ha hecho con su alfa (lo mejor es dar intervalos de confianza del 95%, porque depende de la muestra);
describa su medida de resumen (p. ej., puntaje total o promedio, también conocido como puntaje de escala) con estadísticas habituales (histograma + densidad, cuantiles, etc.);
verifique sus respuestas de resumen con covariables específicas que se supone que están relacionadas con la construcción que está evaluando; esto se conoce como validez de grupo conocido;
si es posible, verifique sus respuestas de resumen con los instrumentos conocidos que pretenden medir la misma construcción ( validez concurrente o convergente).

Si su escala no es unidimensional, estos pasos deben realizarse para cada subescala, y también puede factorizar la matriz de correlación de sus factores para evaluar la estructura de factores de segundo orden (o usar modelos de ecuaciones estructurales o análisis factorial confirmatorio, o lo que quieras). También puede evaluar la validez convergente y discriminante utilizando el escalado de múltiples rasgos o el modelado de múltiples métodos de múltiples rasgos (basado en correlaciones entre elementos dentro y entre escalas) o, nuevamente, SEM.

Entonces, diría que la Teoría de respuesta a ítems no ayudaría mucho a menos que esté interesado en acortar su cuestionario, filtrar algunos ítems que muestren el funcionamiento diferencial de ítems , o usar su prueba en algún tipo de prueba adaptativa de computadora .

En cualquier caso, el modelo Rasch es para elementos binarios. Para los artículos ordenados politómicos, los modelos más utilizados son:

el modelo de respuesta gradual
el modelo de crédito parcial
El modelo de escala de calificación.

Solo los dos últimos son de la familia Rasch, y básicamente usan una formulación de probabilidades adyacente, con la idea de que el sujeto tiene que "pasar" varios umbrales para respaldar una categoría de respuesta dada. La diferencia entre estos dos modelos es que el PCM no impone que los umbrales estén igualmente espaciados en la escala theta ( habilidad o ubicación del sujeto en el rasgo latente). El modelo de respuesta graduada se basa en una formulación de probabilidades acumulativas. Tenga en cuenta que todos estos modelos suponen que la escala es unidimensional; es decir, solo hay un rasgo latente. Hay supuestos adicionales como, por ejemplo, la independencia local (es decir, las correlaciones entre las respuestas se explican por la variación en la escala de capacidad).

De todos modos, se encuentra una documentación muy completa y pistas útiles para aplicar métodos psicométricos en I en el volumen 20 de la revista Journal of Statistical Software: Volumen especial: Psicometría en I . Básicamente, los paquetes R más interesantes que uso en mi trabajo diario son: ltm , eRm , psych , psy . Otros se mencionan en la vista de tareas CRAN Psychometrics . Otros recursos de interés son:

Notas sobre el uso de R para experimentos de psicología y cuestionarios.
Usando R para la investigación psicológica (W. Revelle en realidad está escribiendo un libro sobre psicometría en R )
el proyecto PsychoR (sin embargo, no se enfoca en IRT y desarrollo de escala).

Se puede encontrar una buena revisión sobre el uso de FA vs. IRT en el desarrollo de escalas en la construcción y evaluación de escalas en la práctica: una revisión del análisis factorial versus las aplicaciones de la teoría de respuesta al ítem , realizada por diez Holt et al (Psychological Test and Assessment Modeling (2010) 52 (3): 272-297).

— chl
fuente

11

Si bien admite todo lo dicho anteriormente, sugeriría que haga lo siguiente (en un orden similar)

En primer lugar, debe usar R, si no debe comenzar. El siguiente consejo se basa en el uso de R.

Asumiré que, en este punto, ha calculado las estadísticas descriptivas et al. Si no, el paquete psicológico tiene una función describe () que debería darte las estadísticas que necesitas.

Instale el paquete psicológico de CRAN. Cargue el paquete psicológico. Use la rutina fa.parallel en sus datos. Esto debería darle una serie de factores para retener. Luego, use el VSS (rutina). Esto calcula el criterio MAP que le brinda un número diferente (normalmente) de factores para retener. Use una forma de análisis factorial (no componentes principales) y una rotación oblicua para cada número de factores. Si sus factores no parecen estar correlacionados después de una rotación oblicua, cambie a rotación orogonal. Esto se debe a que una estructura ortogonal se puede determinar a partir de una rotación oblicua, pero no al revés.

Extraiga todas las soluciones de factores entre el criterio MAP y el criterio de análisis paralelo. Determine cuál de estos tiene los mejores índices de ajuste y tiene más sentido. Este es el que debes conservar.

En IRT, después de haber usado tanto ltm como eRm, sugeriría comenzar con eRm. Tiene mejores funciones gráficas para sus modelos, y la compatibilidad con modelos politómicos es mayor. Dicho esto, solo se ajusta a los modelos Rasch y, a menudo, los datos de los cuestionarios psicológicos no cumplen los requisitos para ellos. ¡Buena suerte! La psicometría es muy divertida, como sin duda descubrirás.

— richiemorrisroe
fuente

1

(+1) Eso suena bien. Gracias por compartir su experiencia con el modelado IRT y FA. Además de las funcionalidades gráficas, el enfoque condicional en eRm está más en línea con el pensamiento inicial de theta por Rasch (como un parámetro fijo).

— chl

1

Validar un cuestionario significa probar que mide lo que se supone que debe medir. Entonces, diría que esta no es una pregunta estadística y no se puede responder sin conocer el contenido específico de su cuestionario. El alfa de Cronbach no se trata de validez, sino de consistencia interna, que está algo relacionada con la confiabilidad (o se puede decir que es confiabilidad suponiendo que sus preguntas son intercambiables, pero no lo son).

Entonces, ¿qué podrías hacer para validar tu cuestionario? Podría estudiar qué procesos psicológicos dan lugar a un patrón específico de resultados (por ejemplo, tratando de inducir dichos patrones con manipulaciones experimentales, o utilizando un procedimiento de pensar en voz alta ["análisis de protocolo", Ericsson y Simon, 1992]). O compare algunos grupos contrastantes (p. Ej., Pacientes con controles) que deberían tener puntajes diferentes. O correlacione con un criterio externo que debería correlacionarse con el rasgo que está midiendo. O mida el rasgo con el Psicoscopio (TM) y úselo como criterio.

Las otras respuestas son más útiles para señalar lo que probablemente puede hacer de manera realista, a pesar de que la mayor parte, estrictamente hablando, no se trata de validez (exc. Las referencias de Chi a "validez de grupo conocida" y validez externa).

Ver también Markus y Borsboom (2013) para un enfoque moderno de la validez (esta y algunas otras referencias útiles en la página de inicio de Borsboom ).

— lebatsnok
fuente