Nombre del fenómeno en las parcelas estimadas de datos censurados de CDF


8

Mi conjunto de datos contiene dos variables (bastante fuertemente correlacionadas) (tiempo de ejecución del algoritmo) (número de nodos examinados, lo que sea). Ambos están fuertemente correlacionados por diseño, porque el algoritmo puede administrar aproximadamente nodos por segundo.tnc

El algoritmo se ejecuta en varios problemas, pero se dio por terminado si una solución no se ha encontrado después de algún tiempo de espera . Entonces los datos están censurados a la derecha en la variable de tiempo.T

Trazo la función de densidad acumulativa estimada (o el recuento acumulado) de la variable para los casos en que el algoritmo terminó con . Esto muestra cuántos problemas podrían resolverse expandiéndose en la mayoría de los nodos y es útil para comparar diferentes configuraciones del algoritmo. Pero en el gráfico para , hay esas colas divertidas en la parte superior que van bien a la derecha, como se puede ver en la imagen a continuación. Compare el ecdf para la variable , en la que se realizó la censura.nt<Tnnt

Cuenta acumulada den

ecdf de n

Recuento acumulado det

ecdf de t

Simulación

Entiendo por qué sucede esto, y puedo reproducir el efecto en una simulación usando el siguiente código R. Es causado por la censura en una variable fuertemente correlacionada bajo la adición de algo de ruido.

qplot(
  Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
         runif(10000,0,10)),
  stat="ecdf",geom="step")

datos sintéticos

¿Cómo se llama este fenómeno? Necesito declarar en una publicación que estos fanáticos son artefactos del experimento y no reflejan la distribución real.


¿Esto se debe a la terminación anticipada?
lcrmorin

¿Puedes modelar tus datos con una distribución paramétrica? Podrías probar eso usando solo los datos sin censura. Si funciona, entonces podría usar la máxima probabilidad en todo el conjunto de datos para obtener una estimación del verdadero CDF y eliminar el comportamiento en su gráfico.
soakley

@soakly Las muestras no son iis. El algoritmo se ejecuta en un conjunto de problemas de referencia, y estos básicamente definen la forma de la curva (junto con las características de las configuraciones del algoritmo).
ziggystar

@lmorin No sé exactamente qué significa la terminación temprana, pero los datos están claramente censurados en la variable de tiempo.
ziggystar

1
Las cantidades en las dos primeras pantallas no son en realidad ECDF, ya que los valores tomados por ECDF están en [0,1]. Sería mejor etiquetarlos con un título más preciso.
Glen_b -Reinstate Monica

Respuestas:


1

No soy un experto, pero creo que lo que estás viendo es análogo al recorte suave .

Ordenar recorte (compresión de ganancia)

Es un poco diferente, porque su recorte es causado por un proceso no determinista, ya que su señal se recorta cuando más un ruido aleatorio excede un umbral, en lugar de un dispositivo que reduce determinísticamente una señal analógica. Tengo un pedal de guitarra que hace esto, suaviza el "golpe" de tocar una guitarra eléctrica:

Demostración del compresor Keeyley

Parece una analogía decente. No estoy seguro de si hay un nombre en la comunidad estadística.


0

Sospecho que te encuentras con la familia de distribuciones no simétricas estables.
Primero, trace su ecdf en un diagrama de registro. Adopta un enfoque paramétrico, asume la Distribución de Pareto, ingrese la descripción de la imagen aquí

El cdf en su caso se traduce como , donde es el tiempo mínimo de finalización de su algoritmo, por lo tanto, el umbral que aparece en el lado izquierdo del gráfico ecdf Si ve una línea en el gráfico log-log, entonces está en el camino correcto, haga una regresión lineal en el registro de datos transformados que tiene, para encontrar out , el llamado índice de Pareto.Ft(t)=1(tmint)a for t>tmintmin
α^

El índice de Pareto debe ser mayor que 1, da una interpretación de la gran "cola" de la distribución, la cantidad de datos que se extiende en los bordes. Cuanto más cerca de 1, más situación patógena tienes.
En otras palabras, expresa la proporción de nodos que pasaron un tiempo insignificante frente a los nodos que pasaron un tiempo excesivo antes de su finalización. El lector anterior señaló el hecho de que finaliza abruptamente su experimento, esto introduce una complicación descrita como . Sugiero que debe variar para explorar esta dependencia.αα^=α^(T)T

El fenómeno de colas pesadas es común en informática, particularmente cuando los nodos compiten contra recursos compartidos de manera aleatoria, por ejemplo, redes de computadoras.


2
No creo que mi problema sea encontrar el modelo correcto. ¿Ves la segunda trama en mi pregunta? La distribución verdadera se mostraría como una línea, pero debido al efecto de censura se convierte en una curva. Quiero saber cómo llamar a este fenómeno.
ziggystar

Sus nodos comparten un recurso común, su CPU que se refleja indirectamente en las fluctuaciones de finalización del tiempo y estos puntos rojos y rosados ​​que están bastante lejos de la masa principal de su distribución respectiva es lo que me hace sospechar. Los nodos de procesamiento duraderos afectarán a los nodos de descanso, especulo que eventualmente alejarán a la masa de su centro.
aarsakian

2
No estoy seguro de si entendió el dominio correctamente: el problema es una búsqueda. El algoritmo examina un nodo a la vez para encontrar un nodo de solución. Un algoritmo mejor tiene que buscar menos nodos antes de encontrar una solución (porque selecciona los nodos de manera más inteligente). Mirar un nodo requiere algo de tiempo, por lo que el número de nodos examinados y el tiempo consumido deberían correlacionarse bastante fuertemente.
ziggystar

-1

decir que su distribución está truncada , como truncada normal

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.