Tengo datos que son equivalentes a:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Me gustaría hacer un análisis de este conjunto de datos para obtener una matriz de correlación que tendría una implicación similar a: si compró x, es probable que compre y.
Usando python (o tal vez cualquier cosa menos MATLAB), ¿cómo puedo hacer eso? Serían útiles algunas pautas básicas o indicadores sobre dónde debería buscar.
Gracias,
Editar - Lo que he aprendido:
Este tipo de problemas se conocen como descubrimiento de reglas de asociación. Wikipedia tiene un buen artículo que cubre algunos de los algoritmos comunes para hacerlo. El algoritmo clásico para hacerlo parece ser Apriori, debido a Agrawal et. Alabama.
Eso me llevó a naranja , un paquete de minería de datos con interfaz de Python. Para Linux, la mejor manera de instalarlo parece ser desde la fuente utilizando el archivo setup.py suministrado.
Orange, por defecto, lee la entrada de los archivos, formateada en una de varias formas compatibles.
Finalmente, un simple aprendizaje de la regla de asociación Apriori es simple en naranja.
arules
valdría la pena echarle un vistazo. Tal vez "reglas de asociación" es un buen término de búsqueda