¿Cómo comparar escalas Likert con un número variable de categorías a lo largo del tiempo?

8

Deje que el año 1 sean los datos del año pasado y el año 2 los datos de este año.

Suponga que en el año 1, tenía una escala likert que era 1-9 (categórica / ordinal) y que en el año 2, para la misma pregunta tenía una escala likert que era 1-5 (categórica / ordinal).

¿Cuáles serían algunas de las cosas que intentaría (si es que lo hace) para comparar los datos de dos años?

Lo que he hecho hasta ahora:

Distribuciones comparadas (forma, sesgo y curtosis, estadísticamente iguales)
Reescalado 1-9 a 1-5 y los cambios YoY en frecuencias coinciden con las expectativas lógicas derivadas de noticias / eventos de la industria y resultados de investigaciones cualitativas.

Nota: Esto no es tarea. También puede no tener una respuesta definitiva. Pero, necesito una mano!

¡Gracias por adelantado!

scales likert

— Brandon Bertelsen
fuente

¿por qué dices escala Likert y luego categorial / ordinal? Likert significa intervalo escalado. ¿Puedes aclarar esto un poco?

— Henrik

Para ser más específico, el título debe cambiarse a Likert "elemento". En su segundo punto, creo que muchas personas estarían en desacuerdo sobre si un elemento Likert presenta o no datos de intervalo u ordinales. Para mi pregunta, es una escala de acuerdo, desde totalmente en desacuerdo hasta totalmente de acuerdo. Cada nivel de acuerdo es una "categoría" y la distancia entre ser "ordinal". ¡Pero no nos detengamos en la semántica!

— Brandon Bertelsen

@Henrik @Brandon Ya hubo algunas discusiones, bajo la etiqueta de escalas , sobre la naturaleza y la forma de tratar la escala / elemento Likert.

— chl

5

Esta no es una respuesta completa; solo algunos puntos:

Si puede administrar ambas versiones de la escala a una submuestra, podría estimar qué puntajes correspondientes se encuentran en los dos formatos de respuesta. Entonces podría aplicar una fórmula de conversión que esté justificada empíricamente. Se me ocurren varias formas de hacerlo. Me interesaría si alguien tiene un documento académico sobre las mejores prácticas para hacer esto.
Si realiza un cambio de escala simple (1 = 1; 2 = 3; 3 = 5; 4 = 7; 5 = 9), no hay garantía de que esto sea justificable. Como una declaración amplia (al menos dentro de mi experiencia en la configuración de la organización), los cambios en la redacción del elemento y los cambios en las opciones de escala probablemente tengan un mayor efecto en las respuestas que cualquier cambio real en el atributo de interés. Como mínimo, debe verificar si los anclajes de escala utilizados son aproximadamente equivalentes en los dos formatos de respuesta.

— Jeromy Anglim
fuente

Como nota a tu segundo comentario. Los anclajes son los mismos que en el año anterior de la encuesta. Esencialmente, se redujo la granularidad de la escala.

— Brandon Bertelsen

4

[Técnicamente tienes elementos de encuesta, no escalas Likert; estos últimos están hechos de múltiples artículos. Véase, por ejemplo, Construcción de escala de calificación sumada de Paul Spector {Sage}.]

Los pasos que tome dependerán de la audiencia para la que está informando. Si es académico y riguroso, como un comité de disertación, puede enfrentar desafíos especiales. Si no es así, y si se siente cómodo con el formato común 1-5, ¿por qué no cambiar la escala para que se ajuste a eso y luego informar las medias y las desviaciones estándar (especialmente porque las formas, la inclinación y la curtosis no son diferentes de un año a otro? Presumo que las distribuciones son lo suficientemente normales como para expresar con precisión la tendencia central?).

-> ¿Por qué estoy tratando tus variables como las de nivel de intervalo? Los puristas pueden decir que las variables de nivel ordinal no deben informarse a través de medios o SD Bueno, sus comentarios sugieren, a pesar de su uso de "categórico / ordinal", que está tratando con un nivel ordinal de medición que realmente se siente cómodo tratando como intervalo -nivel. Después de todo, ¿por qué de otra manera evaluarías la asimetría o la curtosis? Supongo que su audiencia también estará de acuerdo y podrá relacionarse con estadísticas de nivel de intervalo, como los medios.

Suena bien que ya haya explorado los datos gráficamente. Si desea ir más allá de evaluar la magnitud de la diferencia y realizar una prueba de hipótesis, ¿por qué no hacer una prueba T (independiente o correlacionada, dependiendo de sus datos) comparando los puntajes 1-5 anteriores y los puntajes 1-5 posteriores, y produciendo un intervalo de confianza para la diferencia de medias. Aquí estoy asumiendo que tienes muestras aleatorias de una población.

— rolando2
fuente

Sí, me doy cuenta de que no "se supone" que esté buscando algunas de estas cosas en busca de datos ordinales, pero realmente, es la única herramienta que se me ocurre para comparar los dos años. Realmente, estaba mirando cosas que podían comparar las distribuciones. Pero, supongo que los medios de prueba podrían ser plausibles, pero un intervalo de confianza no necesariamente incluye mi promedio, ya que ha habido muchos cambios estructurales en la industria para los cuales esta pregunta revisa YoY.

— Brandon Bertelsen

1

Considere transformar las respuestas de ambos conjuntos de datos en puntajes z. Habrá una calidad ad hoc en cualquier tipo de reescalado, pero al menos de esta manera evitará tratar mecánicamente cualquier conjunto particular de intervalos en un elemento como equivalente a cualquier conjunto particular en el otro. Definitivamente seguiría este camino si estuviera usando los ítems como predictores o variables de resultado en cualquier tipo de análisis de varianza. Si estuviera haciendo algo con escalas compuestas, unas que agreguen medidas similares, probablemente haría esencialmente lo que propuse: convertiría las respuestas de los ítems en puntajes z antes de sumar o tomar su media para formar la escala compuesta; o formaría una escala con análisis factorial u otra técnica que use la matriz de covarianza de los ítems para determinar la afinidad de las respuestas a ellos.

— dmk38
fuente

2

Parece que esto forzaría las comparaciones año a año a tener medias y variaciones iguales, eliminando artificialmente la mayoría de la información sobre el cambio temporal.

— whuber

cierto. No estaba pensando en comparar medias de las dos muestras, en cuyo caso la conversión a puntajes z es autodestructiva. Tenía en cuenta la covarianza, por ejemplo, evaluar cómo uno o más predictores se relacionan con la puntuación del elemento likert en años o en ambos combinados. Tiendo a pensar que las matrices de covarianza son lo único que uno debería tratar de aprender al usar elementos likert (las personas tienden a invertir los puntos en la medida con demasiado significado, "pero el mío va a 11"). Espero no haber sacado a nadie del camino.

— dmk38

Agradablemente se pierden algunas comparaciones. Sin embargo, gran parte de mi análisis se centra en las puntuaciones netas del promotor en lugar de las medias y la varianza. Entonces, lo probaré y veré qué me da. Saludos por la respuesta.

— Brandon Bertelsen

1

Solo tuve que resolver este problema exacto. Teníamos una escala de 9 puntos que se cambió a una escala de 5 puntos en un rastreador que se remontaba 10 años. No solo eso, sino que algunas de las declaraciones también cambiaron. Y estábamos informando como una forma de Net Promoter Score.

La solución que usamos para aplicar es un diseño emparejado pidiéndole a cada encuestado algunas de las declaraciones anteriores de la manera anterior (así como de todas las nuevas). Solo le preguntamos a un par de la manera anterior en lugar de a todos, ya que esto minimiza la fatiga de los encuestados. Luego tomamos cada puntaje en la escala de 9 puntos y encontramos su promedio en el puntaje de 5 puntos y lo usamos para corregir el cambio de escala Y el cambio de enunciado. Esto es bastante similar a lo que se llama el "juicio semántico de valor de palabra fijo" en algunos documentos, pero en lugar de usar expertos para decidir el "valor de palabra", usamos datos reales de los encuestados.

Por ejemplo, si el puntaje promedio en la escala de 5 puntos fue 1.2 para aquellos encuestados que respondieron 2 en la escala de 9 puntos, entonces, para permitirnos comparar directamente los años con diferentes escalas en la escala de 5 puntos, reemplazaríamos los 2 en la escala de 9 puntos con 1.2, luego haga lo mismo para todos los puntajes de 9 puntos y proceda normalmente.

Hicimos algo similar para informar NPS. Pero primero convertimos la escala de 5 puntos a la escala NPS de 1 (promotor), 0 (pasivo), -1 (detractor), por ejemplo, si el promedio en la escala NPS fue 0.9 para un 2 en la escala de 9 puntos, entonces lo reemplazamos con 0.9, luego haga lo mismo para todos los puntajes de 9 puntos, y luego calcule NPS normalmente.

Para evaluar la efectividad de esto, primero comparamos los puntajes NPS 'no corregidos' usando las escalas de 9 y 5 puntos para ver si realmente había algún problema, y luego los 'corregidos'. Todavía no tengo los datos, ¡pero informaré cuando lo hagamos!

— Chris Howden
fuente