¿Los visitantes únicos a un sitio web siguen una ley de poder?

Supongamos que tengo un vector ordenado donde el primer elemento es el número de visitas a un sitio web en un período de tiempo determinado por la IP única con el mayor número de visitas, el segundo elemento es el número de visitas por la IP única con el segundo mayor número de visitas, y así sucesivamente. Entiendo que puede haber variaciones por sitio, pero ¿hay en general un patrón asumido para la forma de este vector? ¿Sigue, por ejemplo, una distribución de la ley de poder?

web power-law

— Jon Smark
fuente

Las IP no van a coincidir con las personas particularmente bien debido al direccionamiento dinámico y varios otros problemas (como las personas que usan varias computadoras). Si quisiera probar estas hipótesis, probablemente usaría la identificación de visitante en lugar de la dirección IP.

— richiemorrisroe

No, los visitantes únicos a un sitio web no siguen una ley de poder.

En los últimos años, ha habido un rigor cada vez mayor en las pruebas de demandas de ley de poder (por ejemplo, Clauset, Shalizi y Newman 2009). Aparentemente, las afirmaciones anteriores a menudo no se probaron bien y era común trazar los datos en una escala de registro y registro y confiar en la "prueba del globo ocular" para demostrar una línea recta. Ahora que las pruebas formales son más comunes, muchas distribuciones resultan no seguir las leyes de poder.

Las dos mejores referencias que conozco que examinan las visitas de los usuarios en la web son Ali y Scarr (2007) y Clauset, Shalizi y Newman (2009).

Ali y Scarr (2007) observaron una muestra aleatoria de clics de usuarios en un sitio web de Yahoo y concluyeron:

La sabiduría predominante es que la distribución de clics web y páginas vistas sigue una distribución de la ley de poder sin escala. Sin embargo, hemos encontrado que una descripción estadísticamente significativamente mejor de los datos es la distribución Zipf-Mandelbrot sensible a la escala y que sus mezclas mejoran aún más el ajuste. Los análisis previos tienen tres desventajas: han utilizado un pequeño conjunto de distribuciones de candidatos, analizaron el comportamiento web de los usuarios desactualizados (alrededor de 1998) y utilizaron metodologías estadísticas cuestionables. Aunque no podemos impedir que un día no se encuentre una mejor distribución de ajuste, podemos decir con certeza que la distribución Zipf-Mandelbrot sensible a la escala proporciona un ajuste estadísticamente significativamente más fuerte a los datos que la ley de potencia sin escala o Zipf en Una variedad de verticales del dominio de Yahoo.

Aquí hay un histograma de clics de usuarios individuales durante un mes y sus mismos datos en un diagrama de registro, con diferentes modelos que compararon. Los datos claramente no están en una línea recta de registro-registro esperada de una distribución de energía sin escala.

Figuras 2 y 4 de Ali y Scarr

Clauset, Shalizi y Newman (2009) compararon las explicaciones de la ley de poder con hipótesis alternativas utilizando pruebas de razón de probabilidad y concluyeron que tanto los accesos a la web como los enlaces "no pueden considerarse plausiblemente para seguir una ley de poder". Sus datos para el primero fueron visitas a la web de clientes del servicio de Internet en línea de América en un solo día y para el segundo fueron enlaces a sitios web encontrados en un rastreo web de 1997 de aproximadamente 200 millones de páginas web. Las imágenes a continuación dan las funciones de distribución acumulativa P (x) y sus ajustes de ley de potencia de máxima verosimilitud.

ingrese la descripción de la imagen aquí

Para ambos conjuntos de datos, Clauset, Shalizi y Newman descubrieron que las distribuciones de potencia con cortes exponenciales para modificar la cola extrema de la distribución eran claramente mejores que las distribuciones de la ley de potencia pura y que las distribuciones logarítmicas normales también encajaban bien. (También observaron hipótesis exponenciales y exponenciales estiradas).

Si tiene un conjunto de datos en la mano y no solo siente curiosidad, debe ajustarlo con diferentes modelos y compararlos (en R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, más bajo. cola = FALSO)). Confieso que no tengo idea de cómo modelar un modelo ZM ajustado a cero. Ron Pearson ha blogueado sobre distribuciones de ZM y aparentemente hay un paquete R zipfR. Yo, probablemente comenzaría con un modelo binomial negativo, pero no soy un estadístico real (y me encantarían sus opiniones).

(También quiero comentar el segundo comentarista @richiemorrisroe que señala que los datos probablemente están influenciados por factores no relacionados con el comportamiento humano individual, como los programas que rastrean la web y las direcciones IP que representan las computadoras de muchas personas).

Artículos mencionados:

— MattBagg
fuente

@MattBag, parece interesante, intentará esto en este caso stats.stackexchange.com/q/41286/13201

— FredrikD