Diferencia de recomendación basada en artículo y en usuario en Mahout


15

Me gustaría saber en qué se diferencian exactamente las recomendaciones basadas en el usuario y en el artículo.

Define que

Basado en el usuario : recomiende elementos buscando usuarios similares. Esto a menudo es más difícil de escalar debido a la naturaleza dinámica de los usuarios.

Basado en elementos : calcule la similitud entre elementos y haga recomendaciones. Los artículos generalmente no cambian mucho, por lo que esto a menudo se puede calcular fuera de línea.

Pero aunque hay dos tipos de recomendación disponibles, lo que entiendo es que ambos tomarán algún modelo de datos (digamos 1,2 o 1,2, .5 como elemento1, elemento2, valor o usuario1, usuario2, valor donde el valor no es obligatorio) y realizaremos todos los cálculos como la medida de similitud y la función incorporada de recomendación que elegimos y podemos ejecutar tanto la recomendación basada en el usuario / elemento en los mismos datos (¿es esto una suposición correcta?).

Por lo tanto, me gustaría saber cómo exactamente y en qué aspectos difieren estos dos tipos de algoritmo.

Respuestas:


11

Tiene razón en que ambos modelos funcionan con los mismos datos sin ningún problema. Ambos elementos operan en una matriz de clasificaciones de elementos de usuario.

En el enfoque basado en el usuario, el algoritmo produce una calificación para un elemento ipor un usuario ual combinar las calificaciones de otros usuarios u'que son similares a u. Similar aquí significa que las calificaciones de los dos usuarios tienen una alta correlación de Pearson o similitud de coseno o algo similar.

En el enfoque basado en el artículo producimos una calificación para ipor umirando el conjunto de elementos i'que son similares a i(en el mismo sentido que el anterior excepto que ahora estaríamos viendo las valoraciones que los elementos han recibido de los usuarios) que uha calificado y luego combina las calificaciones por ude i'en una calificación pronosticada por upara i.

El enfoque basado en elementos se inventó en Amazon ( http://dl.acm.org/citation.cfm?id=642471 ) para abordar sus desafíos de escala con el filtrado basado en el usuario. La cantidad de cosas que venden es mucho menos dinámica que la cantidad de usuarios, por lo que las similitudes entre elementos se pueden calcular sin conexión y acceder a ellas cuando sea necesario.


21

Algoritmo basado en elementos

for every item i that u has no preference for yet

  for every item j that u has a preference for

    compute a similarity s between i and j

    add u's preference for j, weighted by s, to a running average

 return the top items, ranked by weighted average

Algoritmo Basado en el Usuario

for every item i that u has no preference for yet

 for every other user v that has a preference for i

   compute a similarity s between u and v

   add v's preference for i, weighted by s, to a running average

 return the top items, ranked by weighted average

Artículo vs Usuario basado:

1) Los recomendadores escalan con el número de elementos o usuarios con los que deben tratar, por lo que hay escenarios en los que cada tipo puede funcionar mejor que el otro

2) Las estimaciones de similitud entre los elementos tienen más probabilidades de converger con el tiempo que las similitudes entre los usuarios.

3) Podemos calcular y almacenar en caché las similitudes que convergen, lo que puede dar a los recomendadores basados ​​en elementos una ventaja de rendimiento

4) Los recomendadores basados ​​en artículos comienzan con una lista de los artículos preferidos de un usuario y, por lo tanto, no necesitan una vecindad de artículos más cercana como los recomendadores basados ​​en usuarios


Advertencia justa: los enlaces no se aceptan como respuestas en este sitio. ¡Recomiendo editar o eliminar antes de obtener votos negativos!
sheldonkreger

1
lo más probable es que haya un error tipográfico en el "algoritmo basado en el usuario" - la cuarta línea debería comenzar con "agregar la preferencia de u por i ..."
Bernardo Aflalo

@BernardoAflalo No creo que sea un error tipográfico, agregas preferencia por todas las v, y luego tomas un promedio ponderado
Oswald
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.