Distribución de eventos de tiempo de cola larga

Supongamos que tiene los registros de un servidor web. En estos registros tienes tuplas de este tipo:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Estas marcas de tiempo representan, por ejemplo, los clics de los usuarios. Ahora, user1visitará el sitio varias veces (sesiones) durante el mes, y tendrá ráfagas de clics de cada usuario durante cada sesión (suponiendo que cuando un usuario visite su sitio, haga clic en varias páginas).

Suponga que desea particionar estas ráfagas de clics en las sesiones que las generaron, pero no tiene ninguna fuente de información adicional, solo la lista de marcas de tiempo. Si calcula la distribución de intervalos entre dos clics consecuentes del mismo usuario, obtendrá una distribución de cola larga. Intuitivamente, buscaría un "parámetro de corte", por ejemplo, N segundos, donde si timestamp_{i+1} - timestamp{i} > N, entonces timestamp_{i+1}es el comienzo de la nueva sesión.

El problema es que esta distribución en realidad es una mezcla de dos variables: X = "intervalo entre dos clics consecuentes en la misma sesión" e Y = "intervalo entre el último clic de la sesión anterior y el primero de la nueva".

La pregunta es, ¿cómo estimar esta N, que divide las dos distribuciones (con un poco de superposición, posiblemente) simplemente mirando el estallido de clics?

distributions estimation mixture

— marcorossi
fuente

Cuando dice "con solo mirar la explosión de clics", ¿quiere decir que no puede calcular otra cosa que no sea N?

— jerad el

Quiero decir que no tiene ninguna fuente de información adicional aparte de las tuplas (usuario, marca de tiempo). El método basado en el umbral (basado en delta> N) es solo un ejemplo de un método. Quizás algo más es posible.

— marcorossi

Este hilo puede ser de su interés: técnicas de agrupamiento apropiadas para datos temporales .

— gung - Restablece a Monica

Realmente debe trazar el logaritmo de los intervalos entre clics en lugar de los valores sin formato; esto aplanará su distribución e incluso podría revelar los múltiples modos en su distribución.

Los neurocientíficos han desarrollado enfoques más avanzados para resolver un problema muy similar en la identificación de estallidos de picos neuronales. Este clásico artículo o los muchos otros artículos relacionados en Google Académico .

— jerad
fuente

Imprimí el loglog de la distribución. Es una línea plana. ¿Cómo ayuda eso? ¿Qué mirarías? La referencia para el artículo es genial, gracias.

— marcorossi

¿Qué pasa solo con la gráfica de probabilidad de registro? es decir, tome el registro de solo las frecuencias, no los intervalos. ¿Eso revela dos modos?

— jerad