Mi conjunto de datos contiene dos variables (bastante fuertemente correlacionadas) (tiempo de ejecución del algoritmo) (número de nodos examinados, lo que sea). Ambos están fuertemente correlacionados por diseño, porque el algoritmo puede administrar aproximadamente nodos por segundo.
El algoritmo se ejecuta en varios problemas, pero se dio por terminado si una solución no se ha encontrado después de algún tiempo de espera . Entonces los datos están censurados a la derecha en la variable de tiempo.
Trazo la función de densidad acumulativa estimada (o el recuento acumulado) de la variable para los casos en que el algoritmo terminó con . Esto muestra cuántos problemas podrían resolverse expandiéndose en la mayoría de los nodos y es útil para comparar diferentes configuraciones del algoritmo. Pero en el gráfico para , hay esas colas divertidas en la parte superior que van bien a la derecha, como se puede ver en la imagen a continuación. Compare el ecdf para la variable , en la que se realizó la censura.
Cuenta acumulada de
Recuento acumulado de
Simulación
Entiendo por qué sucede esto, y puedo reproducir el efecto en una simulación usando el siguiente código R. Es causado por la censura en una variable fuertemente correlacionada bajo la adición de algo de ruido.
qplot(
Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
runif(10000,0,10)),
stat="ecdf",geom="step")
¿Cómo se llama este fenómeno? Necesito declarar en una publicación que estos fanáticos son artefactos del experimento y no reflejan la distribución real.