¿Cómo modelar el comportamiento de compra del usuario en Amazon?

9

Para nuestro proyecto de curso final en Data Science, propusimos lo siguiente:

Con el conjunto de datos de Amazon Reviews , planeamos crear un algoritmo (que se basa aproximadamente en el PageRank personalizado) que determina una posición estratégica para colocar anuncios en Amazon. Por ejemplo, hay millones de productos en Amazon. Y el conjunto de datos le da una idea de qué productos están relacionados, qué productos se unieron, se vieron juntos, etc. (Podemos construir un gráfico con esta información de también visto y también comprado) También le da las revisiones asociadas con cada producto durante 14 años. Usando toda esta información, calificaremos / clasificaremos los productos en Amazon. Ahora, usted es un proveedor en Amazon que quiere mejorar el tráfico a su página de productos. Nuestro algoritmo lo ayuda a identificar posiciones estratégicas en el gráfico donde puede colocar su anuncio para que pueda obtener el tráfico máximo.

Ahora, la pregunta de nuestro profesor es, ¿cómo va a validar su algoritmo sin usuarios reales? Dijimos-

Podemos modelar un conjunto fijo de usuarios. Algunos usuarios siguen also_boughty also_viewedenlazan al tercer salto con más frecuencia que el primero o el quinto salto. Allí el comportamiento de los usuarios se distribuye normalmente. Algunos otros usuarios apenas navegan más allá del primer salto. Este conjunto de comportamiento de los usuarios se distribuye exponencialmente.

Nuestro profesor dijo: cualquiera que sea la distribución que sigan los usuarios, los usuarios están navegando usando enlaces para productos similares. Su algoritmo de clasificación también considera los productos de similitud b / w 2 para clasificar los productos. Entonces, usar este algoritmo de validación es un poco cheating. Ven con algún otro comportamiento del usuario, algo más realista y ortogonal al algoritmo.

¿Alguna idea sobre cómo modelar el comportamiento de los usuarios? Me complace proporcionar más detalles sobre el algo.

— Pavan Manjunath
fuente

1

¿Cómo va a validar su algoritmo?

En lugar de tratar de responder la segunda pregunta, considere que su respuesta a la primera pregunta podría necesitar revisión ...

¿Qué métodos ha utilizado para validar los métodos de aprendizaje en toda su clase de ciencia de datos? Primero, desea definir un conjunto específico de métricas numéricas para evaluar el éxito o el fracaso de su modelo. Segundo, ¿qué métodos puede usar para crear una población de prueba muy realista (más realista que modelar la población)? La primera pista que daré es que el conjunto de datos de Amazon Reviews es muy grande, por lo que sus datos son muy accesibles para este método. La segunda pista que daré es que este método es probablemente el que ha utilizado en el 95% de los problemas de aprendizaje supervisado en los que ha trabajado en clase ...

Espero que esto ayude ... Editaré esto si es necesario en función de los comentarios agregados por el OP, pero no quiero proporcionar la solución de inmediato para generar algún pensamiento orgánico, por ejemplo, ya que este es un problema de clase y el Prof es también tratando de ayudarlo a encontrar la solución correcta por su cuenta.

— AN6U5
fuente

0

Hay dos requisitos para el modelo de comportamiento que debe usar: (1) "más realista" y (2) ortogonal a su algoritmo.

(1) Por realista, supongamos que significa que el comportamiento debe reflejar los comportamientos observados en otros contextos más amplios que el contexto específico de las compras de Amazon.

(2) Ortogonal es más sencillo de entender. El comportamiento modelado no debe ser impulsado por similitudes entre productos.

Un enfoque simple para cumplir estos dos requisitos vendría del hecho de que los comportamientos de compra están impulsados por características sociodemográficas como el género, la edad, la ubicación (por ejemplo, área urbana / rural) y las limitaciones económicas (ingresos y precios).

Tiene un conjunto de usuarios y un conjunto de productos. Puede estimar la relación entre las variables sociodemográficas y la demanda de productos utilizando técnicas de regresión simples pero cuidadosas. Si es necesario, puede utilizar fuentes de datos externas para hacer suposiciones sobre variables importantes que faltan, como los ingresos.

Luego, si usted es un proveedor, el modelo sociodemográfico predeciría qué grupos tienen más probabilidades de comprar su producto.

Espero que eso ayude :)

Ben

— Benjamin Tannenbaum
fuente