"Sin métodos gráficos" es una gran desventaja, pero ... aquí hay un par de ideas extrañas. Ambos tratan las calificaciones como continuas, lo cual es una especie de debilidad conceptual, y probablemente no sea la única ...
Curtosis
- La curtosis de {1,1,1,5,5,5} = 1. No obtendrá una curtosis más baja con ningún combo de 1–5 calificaciones.
- La curtosis de {1,2,3,4,5} = 1.7. Menor significa valores más extremos; más alto significa más medio.
- Esto no funcionará si la distribución no es más o menos simétrica. Lo demostraré a continuación.
Regresión binomial negativa.
Con un marco de datos como este:
R a t i n g1234 45 5F r e qu e n c y31157 79 937
Ajustar el modelo
F r e quency∼Rating+Rating−−−−−−√ using negative binomial regression. The
Rating−−−−−−√ coefficient should be near zero if ratings are
uniformly distributed, positive if there are proportionally more middle-range values (cf.
binomial distribution), or negative with polarized distributions like the one above, for which the coefficient is -11.8.
FWIW, aquí está el código r con el que he estado jugando:
x=rbinom(99,4,c(.1,.9))+1;y=sample(0:4,99,replace=T)+1 #Some polarized & uniform rating data
table(x);table(y) #Frequencies
require(moments);kurtosis(x);kurtosis(y) #Kurtosis
Y=data.frame(n=as.numeric(table(y)),rating=as.numeric(levels(factor(y)))) #Data frame setup
X=data.frame(n=as.numeric(table(x)),rating=as.numeric(levels(factor(x)))) #Data frame setup
require(MASS);summary(glm.nb(n~rating+sqrt(rating),X)) #Negative binomial of polarized data
summary(glm.nb(n~rating+sqrt(rating),Y)) #Negative binomial of uniform data
No puedo resistir lanzar una trama ...
require(ggplot2);ggplot(X,aes(x=rating,y=n))+geom_point()+stat_smooth(formula=y~x+I(sqrt(x)),method='glm',family='poisson')
los R a t i n g------√El término determina la curvatura (concavidad en este caso) de la línea de regresión. Como ya estoy haciendo trampa usando gráficos, califico esto con la regresión de Poisson en lugar del binomio negativo porque es más fácil de codificar que hacerlo de la manera correcta .
Editar: acabo de ver esta pregunta anunciada en la barra lateral:
y cuando hice clic, la vi en las Preguntas de la red activa que se vincula a sí misma, como a veces sucede ,
Así que pensé que esto podría merecer una nueva visita de una manera más útil en general. Decidí probar mis métodos en las reseñas de clientes de Amazon para la camiseta de manga corta The Mountain Three Wolf Moon :
R a t i n gF r e qu e n c y12082543894 41985 52273
Como puedes ver, esta es una camiseta increíble.
George Takei lo dijo. De todos modos ...
La curtosis de esta distribución es bastante alta (7.1), por lo que ese método no es tan simple como parece.
¡El modelo de regresión binomial negativa todavía funciona!
βR a t i n g√= - 19,1.
Por cierto, @ Duncan's σ2F r e qu e n c yThe Mountain Three Wolf Moon camiseta de manga corta= 1,31...
y con x=rep(5:1,c(2273,198,89,54,208))
el índice de polarización de @ Glen_b var(x)/(4*length(x)/(length(x)-1))
= .33 ... solo digo.