¿Se puede reducir válidamente el número de artículos en una escala Likert publicada?


11

[ediciones realizadas en respuesta a comentarios- gracias :-)]

Doh! Más ediciones! ¡Lo siento!

Hola-

Estoy haciendo una recopilación de datos bastante tosca y lista con una encuesta enviada al personal de atención médica utilizando una escala publicada sobre la moral y otros temas similares.

Lo único es que la escala es bastante larga con todas las otras cosas en la encuesta y me gustaría reducir su tamaño cortando cada subescala a la mitad y solo usando la mitad de los elementos. Mi intuición es que esto está bien, ya que las subescalas están interrelacionadas, y aunque no es ideal para la investigación estándar de publicación, está bien solo para un poco de búsqueda de datos intraorganizacionales.

Me preguntaba si alguien tenía alguna idea sobre la validez de hacer esto, las trampas o cualquier otra cosa. Las referencias en particular se reciben con gratitud porque mis colegas necesitarán algo de convicción.

Muchas gracias Chris B

ediciones

Sí, es una escala validada con propiedades psicométricas conocidas.

Es unidimensional y tiene subescalas, si esa es la forma correcta de decirlo.

Trabajaré en la subescala y en el total, no en el elemento, nivel.

30 artículos, probablemente alrededor de 40-60 individuos.

¡Salud!


¿Es esta una escala validada, con propiedades psicométricas conocidas?
chl

Hola Chris, no estás reduciendo el número de elementos en una escala likert, sino que estás usando menos preguntas / elementos (que se miden en una escala likert). En general, parece que depende de tus medidas. Puede verificar la correlación de los elementos que pretende eliminar con los que está guardando. En realidad, es una forma interesante de medir cuánto eliminar; puede valer la pena replantear la pregunta de esa manera (si no lo hace, podría hacerlo más tarde). Buena pregunta :)
Tal Galili

Tres preguntas adicionales: (1) ¿Es esta una escala unidimensional o hay varias subescalas? (2) ¿Cuál es el número de individuos y la cantidad de elementos? o puntuación media?
chl

Respuestas:


11

Aunque todavía falta información (No. individuos y artículos por subescala), aquí hay algunos consejos generales sobre la reducción de escala. Además, dado que está trabajando a nivel de cuestionario, no veo por qué su longitud es tan importante (después de todo, solo dará estadísticas resumidas, como puntajes totales o medios).

Asumiré que (a) tienes un conjunto de elementos K que miden alguna construcción relacionada con la moral, (b) tu escala "unidimensional" es un factor de segundo orden que podría subdividirse en diferentes facetas, (c) te gustaría reduzca su escala a k <K elementos para resumir con suficiente precisión los puntajes de escala totalizados de los sujetos mientras preserva la validez de contenido de la escala.

Acerca de la validez de contenido / construcción de esta escala validada: El número de elementos ciertamente se ha elegido para reflejar mejor la construcción de interés. Al acortar el cuestionario, en realidad está reduciendo la cobertura del constructo. Sería bueno comprobar que la estructura de factores sigue siendo la misma cuando se considera solo la mitad de los elementos (después de todo, también podría afectar la forma en que los selecciona). Esto se puede hacer usando técnicas tradicionales de FA. Usted tiene la responsabilidad de interpretar la escala en un espíritu similar al de los autores.

Acerca de la confiabilidad de los puntajes : aunque es una medida dependiente de la muestra, la confiabilidad de los puntajes disminuye al disminuir el número de ítems (ver fórmula de Spearman-Brown ); Otra forma de ver eso es que el error estándar de medición (SEM) aumentará, pero vea Un módulo de instrucción de NCME sobre error estándar de medición , por Leo M Harvill. No es necesario decir que se aplica a todos los indicadores que dependen del número de elementos (por ejemplo, el alfa de Cronbach que se puede usar para estimar una forma de confiabilidad, a saber, la consistencia interna). Con suerte, esto no afectará ninguna comparación entre grupos basada en puntajes brutos.

Entonces, mis recomendaciones (la forma más fácil) serían:

  1. Seleccione sus artículos para maximizar la cobertura de construcción; verifique la dimensionalidad con FA y la cobertura con distribuciones de respuestas univariadas;
  2. Comparar las correlaciones promedio entre elementos con las reportadas previamente
  3. Calcule la consistencia interna para la escala completa y sus compuestos; verificar que estén de acuerdo con las estadísticas publicadas en la escala original (no es necesario probar nada, estas son medidas dependientes de la muestra);
  4. Pruebe las correlaciones lineales (o policóricas o de rango) entre los puntajes (sub) originales y reducidos, para asegurarse de que sean comparables (es decir, que las ubicaciones individuales en el rasgo latente no varíen en gran medida, como se objetiva a través de los puntajes brutos );
  5. Si tiene una variable externa específica del sujeto (p. Ej., Sexo, edad o, lo mejor, una medida relacionada con la moral), compare la validez del grupo conocido entre las dos formas.

La forma difícil sería confiar en la Teoría de respuesta a ítems para seleccionar aquellos ítems que contienen la mayor cantidad de información sobre la reducción de la escala de rasgos latentes, en realidad es una de sus mejores aplicaciones. Los modelos para artículos politómicos se describieron en parte en este hilo, Validando cuestionarios .

Actualiza después de tu segunda actualización

  1. Olvídate de cualquier modelo IRT para artículos politómicos con tan pocos temas.
  2. El análisis factorial también sufrirá un tamaño de muestra tan bajo; obtendrá estimaciones de carga de factor poco confiables.
  3. 30 ítems divididos entre 2 = 15 ítems (es fácil tener una idea del aumento en el SEM correspondiente para el puntaje total), pero definitivamente empeorará si considera las subescalas (esta fue en realidad mi segunda pregunta - No. Ítems por subescala, si la hay)

8

Supongo que no hay una respuesta clara "sí / no" a su pregunta. Si deja caer arbitrariamente elementos de subescalas para crear una forma corta del cuestionario original, pierde la validación psicométrica de la forma larga. Las cosas que pueden cambiar son la estructura factorial del cuestionario, la confiabilidad de las subescalas, las correlaciones ítem-totales, etc. (notará que estoy acostumbrado al pensamiento clásico de teoría de pruebas, no a IRT). Además, no puede utilizar ninguna estandarización del cuestionario original. Es por eso que las formas cortas de cuestionarios establecidos tienen que pasar por una fase de validación separada.

Dependiendo de sus necesidades, no todo está perdido. Es posible que no necesite estandarización porque es posible que solo desee comparar los resultados dentro de su muestra sin hacer juicios "absolutos" con respecto a una población de referencia. En mi humilde opinión, sería una ventaja si tuviera la oportunidad de validar el formulario corto con el formulario original al menos para una submuestra de su grupo. Esto puede permitirle ver si los resultados son similares.

Sin embargo, en general, los resultados de un cuestionario pueden ser sorprendentemente sensibles a la composición de su ítem. Las personas no completan cuestionarios robóticamente, sino que hacen todo tipo de suposiciones tácitas e inferencias cognitivas: "¿de qué se trata esto realmente?", "¿Qué se espera que informe aquí?", "¿Qué es lo que realmente quieren saber?". Esto puede estar fuertemente influenciado por el contexto dado de los elementos, cf. Schwarz, N. 1996. Cognición y comunicación: prejuicios, métodos de investigación y la lógica de la conversación. Mahwah, Nueva Jersey: Lawrence Erlbaum.


4

Yo agregaría un punto.

Tenga en cuenta la distinción entre grupo (p. Ej., Comparación de medias de grupo a lo largo del tiempo) y medición de nivel individual (p. Ej., Correlación de puntajes en la escala con otras escalas a nivel individual).

La confiabilidad se aplica de manera diferente a los dos niveles. Quizás la siguiente simplificación ayude:

  • La confiabilidad de la medición a nivel de grupo está fuertemente influenciada por la cantidad de participantes que tiene y el grado en que existe una verdadera variabilidad a nivel de grupo.
  • La confiabilidad de la medición a nivel individual está fuertemente influenciada por la cantidad de elementos que tiene y el grado en que las personas realmente varían.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.