Como dijo Karl Broman en su respuesta, un enfoque bayesiano probablemente sería mucho mejor que usar intervalos de confianza.
El problema con los intervalos de confianza
¿Por qué el uso de intervalos de confianza no funciona demasiado bien? Una razón es que si no tiene muchas clasificaciones para un artículo, su intervalo de confianza será muy amplio, por lo que el límite inferior del intervalo de confianza será pequeño. Por lo tanto, los elementos sin muchas calificaciones terminarán al final de su lista.
Intuitivamente, sin embargo, es probable que desee que los artículos sin muchas calificaciones estén cerca del artículo promedio, por lo que desea mover su calificación estimada del artículo hacia la calificación media sobre todos los artículos (es decir, desea empujar su calificación estimada hacia una anterior ) . Esto es exactamente lo que hace un enfoque bayesiano.
Enfoque bayesiano I: distribución normal sobre calificaciones
Una forma de mover la calificación estimada hacia un previo es, como en la respuesta de Karl, usar una estimación de la forma :w ∗ R + ( 1 - w ) ∗ C
- R es la media sobre las calificaciones de los artículos.
- do es la media sobre todos los elementos (o lo que sea anterior a lo que desea reducir su calificación).
- Obsérvese que la fórmula es sólo una combinación ponderada de y .CRdo
- Rvmw = vv + m es el peso asignado a , donde es el número de revisiones para la cerveza es algún tipo de parámetro de "umbral" constante.Rvmetro
- Tenga en cuenta que cuando es muy grande, es decir, cuando tenemos muchas calificaciones para el elemento actual, entonces está muy cerca de 1, por lo que nuestra calificación estimada está muy cerca de y prestamos poca atención a la anterior . Sin embargo, cuando es pequeño, está muy cerca de 0, por lo que la calificación estimada le da mucho peso a la anterior .w R C v w CvwRdovwdo
De hecho, a esta estimación se le puede dar una interpretación bayesiana como la estimación posterior de la calificación media del elemento cuando las calificaciones individuales provienen de una distribución normal centrada alrededor de esa media.
Sin embargo, asumir que las calificaciones provienen de una distribución normal tiene dos problemas:
- Una distribución normal es continua , pero las calificaciones son discretas .
- Las clasificaciones de un artículo no necesariamente siguen una forma gaussiana unimodal. Por ejemplo, tal vez su artículo es muy polarizante, por lo que las personas tienden a darle una calificación muy alta o una calificación muy baja.
Enfoque bayesiano II: distribución multinomial sobre calificaciones
Entonces, en lugar de asumir una distribución normal para las calificaciones, supongamos una distribución multinomial . Es decir, dado un elemento específico, hay una probabilidad que un usuario aleatorio le otorgue 1 estrella, una probabilidad que un usuario aleatorio le otorgue 2 estrellas, y así sucesivamente.p 2pags1pags2
Por supuesto, no tenemos idea de cuáles son estas probabilidades. A medida que obtengamos más y más calificaciones para este artículo, podemos suponer que está cerca de , donde es el número de usuarios que le dieron 1 estrella es el número total de usuarios que calificaron el artículo, pero cuando comenzamos, no tenemos nada. Entonces colocamos un Dirichlet antes de en estas probabilidades.n 1pags1 n1nDir(α1,…,αk)norte1nortenorte1norte D i r ( α1, ... , αk)
¿Qué es este Dirichlet anterior? Podemos pensar en cada parámetro como un "recuento virtual" de la cantidad de veces que una persona virtual le dio al elemento estrellas. Por ejemplo, si , , y todos los demás son iguales a 0, entonces podemos pensar que esto significa que dos personas virtuales le dieron el elemento 1 estrella y una persona virtual le dio el elemento 2 estrellas. Entonces, incluso antes de que tengamos usuarios reales, podemos usar esta distribución virtual para proporcionar una estimación de la calificación del artículo. i α 1 = 2 α 2 = 1 α iαyoyoα1= 2α2=1αi
[Una forma de elegir los parámetros sería establecer igual a la proporción general de votos de estrellas. (Tenga en cuenta que los parámetros no son necesariamente enteros).]α i i α iαiαiiαi
Luego, una vez que entran las calificaciones reales, simplemente agregue sus cuentas a las cuentas virtuales de su Dirichlet antes. Siempre que desee estimar la calificación de su artículo, simplemente tome la media sobre todas las calificaciones del artículo (tanto sus calificaciones virtuales como sus calificaciones reales).