¿Por qué cambiaría Netflix de su sistema de calificación de cinco estrellas a un sistema de me gusta / no me gusta?

Netflix solía basar sus sugerencias en las calificaciones enviadas por el usuario de otras películas / programas. Este sistema de calificación tenía cinco estrellas.

Ahora, Netflix permite a los usuarios gustar / no me gusta (pulgar hacia arriba / pulgar hacia abajo) películas / espectáculos. Afirman que es más fácil calificar películas.

¿No sería esta clasificación bidireccional estadísticamente menos predictiva que un sistema de clasificación de 5 vías? ¿No capturaría menos variación?

variance predictive-models prediction

— jvriesem
fuente

Creo que cualquier respuesta debería tomar en serio la propia explicación de Netflix, incluido que en las pruebas A / B obtuvieron 4 veces más calificaciones en el sistema de 2 vías. Eso solo es enorme. Además, el resultado de la famosa competencia de Netflix fue que las mejores calificaciones de predicción (lo que obtuvieron de la competencia) no se tradujeron en un mejor comportamiento de predicción . Puede juzgar "Orgullo y prejuicio" como una mejor película, pero es más probable que vea "Die Hard". Netflix probablemente se preocupa mucho más por lo que quieres (o verás) de lo que crees que es una mejor película.

— ctwardy

De acuerdo con un artículo de Preston & Coleman (2000), la confiabilidad a escala de 2 ítems no difiere marcadamente de la confiabilidad a escala de 5 ítems:

El tema de medición fue la satisfacción con los restaurantes, pero se traduce bien en la calificación de la película. También se midió la facilidad de uso, qué tan rápido es usar y qué tan bien puede una persona expresar sus sentimientos en diferentes escalas de elementos. Los resultados son los siguientes:

Está claro que los usuarios encuentran que la escala de 2 elementos es un poco más fácil de usar y más rápida de usar en comparación con la escala de 5 elementos, pero también es muy inadecuada para expresar las verdaderas creencias del usuario. Esto indica que la escala de 2 ítems no captura muy bien la variabilidad subyacente y da como resultado una pérdida de variabilidad. Los índices de discriminación también son notablemente más pobres para las escalas de 2 ítems en comparación con las escalas de 5 ítems.

Teniendo en cuenta todo lo anterior, especularía que Netflix está dispuesto a intercambiar cierta precisión de votación para atraer a más usuarios a votar. Creo que prefieren que más personas voten, ya que aumenta la cobertura de la muestra. Esto puede conducir a una mejor comprensión de los usuarios menos comprometidos. El valor marginal de la información adicional para los usuarios menos comprometidos es probablemente mucho mayor en comparación con los usuarios comprometidos.

— Vivaldi
fuente