Determine si un proceso distribuido de cola pesada ha mejorado significativamente

12

Observo los tiempos de procesamiento de un proceso antes y después de un cambio para averiguar si el proceso ha mejorado con el cambio. El proceso ha mejorado si se reduce el tiempo de procesamiento. La distribución del tiempo de procesamiento es de cola gruesa, por lo que la comparación basada en el promedio no es razonable. En cambio, me gustaría saber si la probabilidad de observar un menor tiempo de procesamiento después del cambio es significativamente superior al 50%.

Sea la variable aleatoria para el tiempo de procesamiento después del cambio e la anterior. Si está significativamente por encima de entonces diría que el proceso ha mejorado. $X$ $Y$ $P(X < Y)$ $0.5$

Ahora tengo observaciones de y observaciones de . La observada probabilidad de es $n$ $x_i$ $X$ $m$ $y_j$ $Y$ $P(X < Y)$ . $\hat p = \frac{1}{n m} \sum_i \sum_j 1_{x_i < y_j}$

¿Qué puedo decir sobre dadas las observaciones e ? $P(X < Y)$ $x_i$ $y_j$

sampling nonparametric

— cristiano
fuente

12

Su estimación es igual a la de Mann-Whitney estadística dividido por (gracias, Glen!), Y por lo tanto es equivalente a la suma de rangos de Wilcoxon estadística (también conocida como la estadística de Wilcoxon-Mann-Whitney): $\hat{p}$ $U$ $mn$ $W$ $W = U + {n(n+1)\over{2}}$ , donde $n$ es el tamaño de muestra de $y$ (suponiendo que no hay vínculos). Por lo tanto, puede usar tablas / software de la prueba de Wilcoxon y transformarlos nuevamente en $U$ para obtener un intervalo de confianza o unvalor $p$ .

Sea $m$ el tamaño de muestra de $x$ , $N$ = $m+n$ . Entonces, asintóticamente,

$W^* = \frac{W-\frac{m(N+1)}{2}}{\sqrt{\frac{mn(N+1)}{12}}} \sim \text{N}(0,1)$

Fuente: Hollander y Wolfe , Métodos estadísticos no paramétricos, aproximadamente p. 117, pero probablemente la mayoría de los libros de estadísticas no paramétricas lo llevarán allí.

— jbowman
fuente

@Glen_b: gracias, he actualizado la respuesta. ¡Muy generoso, adivinaste sobre la causa del error!

— jbowman

13

@jbowman proporciona una solución estándar (agradable) al problema de estimar que se conoce como modelo de resistencia al estrés . $\theta=P(X<Y)$

Se propuso otra alternativa no paramétrica en Baklizi y Eidous (2006) para el caso en que e son independientes. Esto se describe a continuación. $X$ $Y$

Por definición tenemos eso

θ = P (X < Y) = \int_{- \infty}^{\infty} F_{X} (y) f_{Y} (y) d y,

$\theta=P(X<Y)=\int_{-\infty}^{\infty}F_X(y)f_Y(y)dy,$

donde es la CDF de y es la densidad de . Luego, usando las muestras de e , podemos obtener estimadores del núcleo de y y, en consecuencia, un estimador de $F_X$ $X$ $f_Y$ $Y$ $X$ $Y$ $F_X$ $f_Y$ $\theta$

\hat{θ} = \int_{- \infty}^{\infty} {\hat{F}}_{X} (y) {\hat{f}}_{Y} (y) d y .

$\hat\theta=\int_{-\infty}^{\infty}\hat F_X(y)\hat f_Y(y)dy.$

Esto se implementa en el siguiente código R utilizando un núcleo gaussiano.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

Para obtener un intervalo de confianza para , puede obtener una muestra de arranque de este estimador de la siguiente manera. $\theta$

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

También se pueden considerar otros tipos de intervalos de arranque.

2

Interesante y una buena referencia de papel (+1). ¡Lo agregaré a mi repertorio!

— jbowman

0

$X_i-Y_i$ $P(X_i-Y_i<0) = p$ $I\{X_i-Y_i<0\}$ $i=1,2,..,n$ $X$ $X_i < Y_i$ $n$ $p=P(X_i-Y_i<0)$ $X/n$

— Michael R. Chernick
fuente

2

¿Cuál es la base del emparejamiento, Michael?

— whuber

El OP dijo "Sea X la variable aleatoria para el tiempo de procesamiento después del cambio e Y la anterior". Entonces Xi es después de la intervención e Yi es antes.

— Michael R. Chernick

m = n

$m=n$

X_{i}

$X_i$

Y_{j}

$Y_j$

1

Tienes razón. Supongo que sería apropiado algún tipo de prueba de dos muestras, como el Wilcoxon, según lo sugerido por jbowman anteriormente. Es interesante que la forma de Mann-Whitney de la prueba cuente el número de Xis <los Yjs.

— Michael R. Chernick