Para nuestro proyecto de curso final en Data Science, propusimos lo siguiente:
Con el conjunto de datos de Amazon Reviews , planeamos crear un algoritmo (que se basa aproximadamente en el PageRank personalizado) que determina una posición estratégica para colocar anuncios en Amazon. Por ejemplo, hay millones de productos en Amazon. Y el conjunto de datos le da una idea de qué productos están relacionados, qué productos se unieron, se vieron juntos, etc. (Podemos construir un gráfico con esta información de también visto y también comprado) También le da las revisiones asociadas con cada producto durante 14 años. Usando toda esta información, calificaremos / clasificaremos los productos en Amazon. Ahora, usted es un proveedor en Amazon que quiere mejorar el tráfico a su página de productos. Nuestro algoritmo lo ayuda a identificar posiciones estratégicas en el gráfico donde puede colocar su anuncio para que pueda obtener el tráfico máximo.
Ahora, la pregunta de nuestro profesor es, ¿cómo va a validar su algoritmo sin usuarios reales? Dijimos-
Podemos modelar un conjunto fijo de usuarios. Algunos usuarios siguen
also_bought
yalso_viewed
enlazan al tercer salto con más frecuencia que el primero o el quinto salto. Allí el comportamiento de los usuarios se distribuye normalmente. Algunos otros usuarios apenas navegan más allá del primer salto. Este conjunto de comportamiento de los usuarios se distribuye exponencialmente.
Nuestro profesor dijo: cualquiera que sea la distribución que sigan los usuarios, los usuarios están navegando usando enlaces para productos similares. Su algoritmo de clasificación también considera los productos de similitud b / w 2 para clasificar los productos. Entonces, usar este algoritmo de validación es un poco cheating
. Ven con algún otro comportamiento del usuario, algo más realista y ortogonal al algoritmo.
¿Alguna idea sobre cómo modelar el comportamiento de los usuarios? Me complace proporcionar más detalles sobre el algo.