Dado que es solo un factor de escala, sin pérdida de generalidad, elija unidades de medida que hagan , haciendo que la distribución subyacente funcione con densidad .λλ=1F(x)=1−exp(−x)f(x)=exp(−x)
A partir de consideraciones paralelas a las del teorema del límite central para medianas de muestra , es asintóticamente normal con una media y varianzaX(m)F−1(p)=−log(1−p)
Var(X(m))=p(1−p)nf(−log(1−p))2=pn(1−p).
Debido a la propiedad sin memoria de la distribución exponencial , las variables actúan como las estadísticas de orden de una muestra aleatoria de extraída de , a la que ha sido añadido. Escritura(X(m+1),…,X(n))n−mFX(m)
Y=1n−m∑i=m+1nX(i)
por su media, es inmediato que la media de es la media de (igual a ) y la varianza de es veces la varianza de (también igual a ). El teorema del límite central implica que la estandarizada es asintóticamente estándar normal. Por otra parte, debido es condicionalmente independiente de , que al mismo tiempo tiene la versión estandarizada de convertirse asintóticamente normal estándar y sin correlación con . Es decir,YF1Y1/(n−m)F1YYX(m)X(m)Y
(X(m)+log(1−p)p/(n(1−p))−−−−−−−−−−√,Y−X(m)−1n−m−−−−−√)(1)
asymptotically has a bivariate Standard Normal distribution.
The graphics report on simulated data for samples of n=1000 (500 iterations) and p=0.95. A trace of positive skewness remains, but the approach to bivariate normality is evident in the lack of relationship between Y−X(m) and X(m) and the closeness of the histograms to the Standard Normal density (shown in red dots).
The covariance matrix of the standardized values (as in formula (1)) for this simulation was
(0.967−0.021−0.0211.010),
comfortably close to the unit matrix which it approximates.
The R
code that produced these graphics is readily modified to study other values of n, p, and simulation size.
n <- 1e3
p <- 0.95
n.sim <- 5e3
#
# Perform the simulation.
# X_m will be in the first column and Y in the second.
#
set.seed(17)
m <- floor(p * n)
X <- apply(matrix(rexp(n.sim * n), nrow = n), 2, sort)
X <- cbind(X[m, ], colMeans(X[(m+1):n, , drop=FALSE]))
#
# Display the results.
#
par(mfrow=c(2,2))
plot(X[,1], X[,2], pch=16, col="#00000020",
xlab=expression(X[(m)]), ylab="Y",
main="Y vs X", sub=paste("n =", n, "and p =", signif(p, 2)))
plot(X[,1], X[,2]-X[,1], pch=16, col="#00000020",
xlab=expression(X[(m)]), ylab=expression(Y - X[(m)]),
main="Y-X vs X", sub="Loess smooth shown")
lines(lowess(X[,2]-X[,1] ~ X[,1]), col="Red", lwd=3, lty=1)
x <- (X[,1] + log(1-p)) / sqrt(p/(n*(1-p)))
hist(x, main="Standardized X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)
y <- (X[,2] - X[,1] - 1) * sqrt(n-m)
hist(y, main="Standardized Y-X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)
par(mfrow=c(1,1))
round(var(cbind(x,y)), 3) # Should be close to the unit matrix