Beneficios de usar la media para resumir la tendencia central de una calificación de 5 puntos
Como @gung mencionó, creo que a menudo hay muy buenas razones para tomar la media de un ítem de cinco puntos como índice de tendencia central. Ya he esbozado estas razones aquí .
Parafrasear:
- la media es fácil de calcular
- La media es intuitiva y bien entendida.
- La media es un número único.
- Otros índices a menudo producen un orden de clasificación similar de los objetos.
¿Por qué la media es buena para Amazon?
Piensa en los objetivos de Amazon al informar la media. Podrían estar apuntando a
- Proporcionar una calificación intuitiva y comprensible para un artículo
- Garantizar la aceptación del usuario del sistema de calificación
- Asegúrese de que las personas entiendan lo que significa la calificación para que puedan usarla adecuadamente para informar las decisiones de compra
Amazon proporciona algún tipo de media redondeada, conteos de frecuencia para cada opción de calificación y el tamaño de la muestra (es decir, el número de calificaciones). Presumiblemente, esta información es suficiente para que la mayoría de las personas aprecien tanto el sentimiento general con respecto al artículo como la confianza en dicha calificación (es decir, un 4.5 con 20 calificaciones es más probable que sea preciso que un 4.5 con 2 calificaciones; un artículo con 10 5 -calificaciones de estrellas, y una calificación de 1 estrella sin comentarios aún podría ser un buen artículo).
Incluso podría ver el medio como una opción democrática. Muchas elecciones se deciden en función de qué candidato obtiene la media más alta en una escala de dos puntos. Del mismo modo, si toma el argumento de que cada persona que presenta una revisión obtiene un voto, entonces puede ver la media como un formulario que pondera el voto de cada persona por igual.
¿Son las diferencias en el uso de la escala realmente un problema?
Existe un amplio rango de sesgos de calificación conocidos en la literatura psicológica (para una revisión, ver Saal et al 1980), como sesgo de tendencia central, sesgo de clemencia, sesgo de rigor. Además, algunos evaluadores serán más arbitrarios y otros serán más confiables. Algunos incluso pueden mentir sistemáticamente dando críticas falsas positivas o negativas falsas. Esto creará varias formas de error al intentar calcular la calificación media real de un artículo.
Sin embargo, si tuviera que tomar una muestra aleatoria de la población, estos sesgos se cancelarían, y con un tamaño de muestra suficiente de evaluadores, aún obtendría la media real.
Por supuesto, no obtienes una muestra aleatoria en Amazon, y existe el riesgo de que el conjunto particular de evaluadores que obtienes para un artículo esté sesgado sistemáticamente para ser más indulgente o estricto, y así sucesivamente. Dicho esto, creo que los usuarios de Amazon apreciarían que las calificaciones enviadas por los usuarios provengan de una muestra imperfecta. También creo que es bastante probable que con un tamaño de muestra razonable que, en muchos casos, la mayoría de las diferencias de sesgo de respuesta comiencen a desaparecer.
Posibles avances más allá de la media
En términos de mejorar la precisión de la calificación, no cuestionaría el concepto general de la media, sino que creo que hay otras formas de estimar la verdadera calificación media de la población para un elemento (es decir, la calificación media que se obtendría fueron una muestra representativa grande a la que se le pidió calificar el artículo).
- Evaluadores de peso basados en su confiabilidad
- Utilice un sistema de calificación bayesiano que calcule la calificación promedio como una suma ponderada de la calificación promedio para todos los artículos y la media del artículo específico, y aumente la ponderación para el artículo específico a medida que aumenta el número de calificaciones
- Ajuste la información de un evaluador en función de cualquier tendencia general de calificación entre los ítems (por ejemplo, un 5 de alguien que típicamente da 3s valdría más que alguien que típicamente da 4s).
Por lo tanto, si la precisión en la calificación era el objetivo principal de Amazon, creo que debería tratar de aumentar el número de calificaciones por artículo y adoptar algunas de las estrategias anteriores. Dichos enfoques pueden ser particularmente relevantes al crear clasificaciones de "lo mejor de lo mejor". Sin embargo, para la calificación humilde de la página, es muy posible que la media de la muestra cumpla mejor con los objetivos de simplicidad y transparencia.
Referencias
- Saal, FE, Downey, RG y Lahey, MA (1980). Calificación de las calificaciones: Evaluación de la calidad psicométrica de los datos de calificación. Boletín psicológico, 88, 413.