GENEROSIDAD:
La recompensa completa se otorgará a alguien que proporcione una referencia a cualquier artículo publicado que utilice o mencione el estimador continuación.
Motivación:
Probablemente esta sección no sea importante para usted y sospecho que no lo ayudará a obtener la recompensa, pero como alguien me preguntó sobre la motivación, esto es en lo que estoy trabajando.
Estoy trabajando en un problema de teoría de grafos estadísticos. El objeto de limitación gráfico denso estándar es una función simétrica en el sentido de que . El muestreo de un gráfico en vértices puede considerarse como un muestreo de valores uniformes en el intervalo unitario ( para ) y luego la probabilidad de una arista es . Deje que la matriz de adyacencia resultante se llamará .
Podemos tratar a como una densidad f = W / ∬ W suponiendo que ∬ W > 0 . Si estimamos f basado en A sin ninguna restricción a f , entonces no podemos obtener una estimación consistente. Encontré un resultado interesante sobre la estimación constante de f cuando f proviene de un conjunto restringido de funciones posibles. De este estimador y Σ A , se puede estimar W .
Desafortunadamente, el método que encontré muestra consistencia cuando tomamos muestras de la distribución con densidad . La forma A se construye requiere que Muestreo la una cuadrícula de puntos (en lugar de tomar dibuja desde el original, f ). En esta pregunta de stats.SE, estoy preguntando por el problema unidimensional (más simple) de lo que sucede cuando solo podemos muestrear muestras de Bernoullis en una cuadrícula como esta en lugar de tomar muestras directamente de la distribución.
referencias para límites de gráficos:
L. Lovasz y B. Szegedy. Límites de secuencias gráficas densas ( arxiv ).
C. Borgs, J. Chayes, L. Lovasz, V. Sos y K. Vesztergombi. Secuencias convergentes de gráficos densos i: frecuencias de subgrafo, propiedades métricas y pruebas. ( arxiv )
Notación:
f [ 0 , 1 ]X F U i [ 0 , 1 ]
Problema configurado:
A menudo, podemos permitir que sean variables aleatorias con distribución y trabajen con la función de distribución empírica habitual como donde es la función del indicador. Tenga en cuenta que esta distribución empírica es en sí misma aleatoria (donde es fijo). F F n ( t ) = 1I F n ( t ) t
Por desgracia, no soy capaz de extraer muestras directamente de . Sin embargo, sé que tiene soporte positivo solo en , y puedo generar variables aleatorias donde es una variable aleatoria con una distribución de Bernoulli con probabilidad de éxito donde y se definieron anteriormente. Entonces, . Una forma obvia de estimar partir de estos valores es tomar dondef [ 0 , 1 ] Y 1 , … , Y n Y i p i = f ( ( i - 1 + U i ) / n ) / c c
Preguntas:
De (lo que creo que debería ser) más fácil a más difícil.
¿Alguien sabe si esto (o algo similar) tiene un nombre? ¿Puede proporcionar una referencia donde pueda ver algunas de sus propiedades?
Como , ¿es un estimador consistente de (y puede probarlo)?˜ F n ( t ) F ( t )
¿Cuál es la distribución limitante de como ?n→∞
Idealmente, me gustaría vincular lo siguiente en función de , por ejemplo, , pero no sé cuál es la verdad. El significa Big O en probabilidadO P ( log ( n ) / √OP
Algunas ideas y notas:
Esto se parece mucho al muestreo de aceptación-rechazo con una estratificación basada en cuadrícula. Tenga en cuenta que no es así porque no extraemos otra muestra si rechazamos la propuesta.
Estoy bastante seguro de que esta está sesgada. Creo que la alternativa es imparcial, pero tiene la propiedad desagradable que .~ F ∗ n ( t ) = cP(
Estoy interesado en usar como estimador de complementos . No creo que sea información útil, pero quizás conozca alguna razón por la que podría serlo.
Ejemplo en R
Aquí hay un código R si desea comparar la distribución empírica con . Lo siento, parte de la sangría está mal ... No veo cómo solucionarlo.
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
EDICIONES:
EDITAR 1 -
Edité esto para abordar los comentarios de @ whuber.
EDITAR 2 -
Agregué el código R y lo limpié un poco más. Cambié un poco la notación por legibilidad, pero es esencialmente lo mismo. Estoy planeando poner una recompensa por esto tan pronto como se me permita, así que avíseme si desea más aclaraciones.
EDITAR 3 -
Creo que me dirigí a los comentarios de @ cardinal. Arreglé los errores tipográficos en la variación total. Estoy agregando una recompensa.
EDITAR 4 -
Se agregó una sección de "motivación" para @cardinal.