Estoy trabajando con datos de secuencia que son largas listas de llamadas win-api de malware. Estoy tratando de convertir el problema de identificar 'comportamiento de malware' en encontrar patrones secuenciales. Trato cada llamada de API como un elemento único Conjunto de elementos. El número de diferentes elementos posibles (llamadas de API) es bastante grande.
Ahora, cuando aplico el algoritmo SPADE (ver también, Zaki, SPADE: un algoritmo eficiente para minar secuencias frecuentes , Machine Learning, 42, 31-60, 2001) me encuentro con problemas de memoria. ¿Existe una mejor forma alternativa de encontrar patrones secuenciales entre grandes secuencias de vocabulario alto?