Alternativa de distribución empírica


12

GENEROSIDAD:

La recompensa completa se otorgará a alguien que proporcione una referencia a cualquier artículo publicado que utilice o mencione el estimador F~ continuación.

Motivación:

Probablemente esta sección no sea importante para usted y sospecho que no lo ayudará a obtener la recompensa, pero como alguien me preguntó sobre la motivación, esto es en lo que estoy trabajando.

Estoy trabajando en un problema de teoría de grafos estadísticos. El objeto de limitación gráfico denso estándar W:[0,1]2[0,1] es una función simétrica en el sentido de que W(u,v)=W(v,u) . El muestreo de un gráfico en n vértices puede considerarse como un muestreo de n valores uniformes en el intervalo unitario ( Ui para i=1,,n) y luego la probabilidad de una arista (i,j) es W(Ui,Uj) . Deje que la matriz de adyacencia resultante se llamará A .

Podemos tratar a como una densidad f = W /W suponiendo que W > 0 . Si estimamos f basado en A sin ninguna restricción a f , entonces no podemos obtener una estimación consistente. Encontré un resultado interesante sobre la estimación constante de f cuando f proviene de un conjunto restringido de funciones posibles. De este estimador y Σ A , se puede estimar W .Wf=W/WW>0fAfffAW

Desafortunadamente, el método que encontré muestra consistencia cuando tomamos muestras de la distribución con densidad . La forma A se construye requiere que Muestreo la una cuadrícula de puntos (en lugar de tomar dibuja desde el original, f ). En esta pregunta de stats.SE, estoy preguntando por el problema unidimensional (más simple) de lo que sucede cuando solo podemos muestrear muestras de Bernoullis en una cuadrícula como esta en lugar de tomar muestras directamente de la distribución.fAf

referencias para límites de gráficos:

L. Lovasz y B. Szegedy. Límites de secuencias gráficas densas ( arxiv ).

C. Borgs, J. Chayes, L. Lovasz, V. Sos y K. Vesztergombi. Secuencias convergentes de gráficos densos i: frecuencias de subgrafo, propiedades métricas y pruebas. ( arxiv )

Notación:

Ff[0,1]fFf [ 0 , 1 ]supz[0,1]f(z)=c<f[0,1]X F U i [ 0 , 1 ]XFXFUi[0,1]

Problema configurado:

A menudo, podemos permitir que sean variables aleatorias con distribución y trabajen con la función de distribución empírica habitual como donde es la función del indicador. Tenga en cuenta que esta distribución empírica es en sí misma aleatoria (donde es fijo). F F n ( t ) = 1X1,,XnFI F n ( t ) t

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

Por desgracia, no soy capaz de extraer muestras directamente de . Sin embargo, sé que tiene soporte positivo solo en , y puedo generar variables aleatorias donde es una variable aleatoria con una distribución de Bernoulli con probabilidad de éxito donde y se definieron anteriormente. Entonces, . Una forma obvia de estimar partir de estos valores es tomar dondef [ 0 , 1 ] Y 1 , , Y n Y i p i = f ( ( i - 1 + U i ) / n ) / c cFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cY iBerna ( p i )UiYiBern(pi)Y i ˜ F n ( t ) = 1FYi
F~n(t)=1i=1nYii=1tnYi
es la función de techo (es decir, simplemente redondea al entero más cercano), y vuelve a dibujar si (para evitar dividir por cero y hacer que el universo colapse) . Tenga en cuenta que también es una variable aleatoria ya que son variables aleatorias.˜ F ( t ) Y ii=1nYi=0F~(t)Yi

Preguntas:

De (lo que creo que debería ser) más fácil a más difícil.

  1. ¿Alguien sabe si esto (o algo similar) tiene un nombre? ¿Puede proporcionar una referencia donde pueda ver algunas de sus propiedades?F~n

  2. Como , ¿es un estimador consistente de (y puede probarlo)?˜ F n ( t ) F ( t )nF~n(t)F(t)

  3. ¿Cuál es la distribución limitante de como ?nF~n(t)n

  4. Idealmente, me gustaría vincular lo siguiente en función de , por ejemplo, , pero no sé cuál es la verdad. El significa Big O en probabilidadO P ( log ( n ) / nOPOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Algunas ideas y notas:

  1. Esto se parece mucho al muestreo de aceptación-rechazo con una estratificación basada en cuadrícula. Tenga en cuenta que no es así porque no extraemos otra muestra si rechazamos la propuesta.

  2. Estoy bastante seguro de que esta está sesgada. Creo que la alternativa es imparcial, pero tiene la propiedad desagradable que .~ F n ( t ) = cF~nP(

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. Estoy interesado en usar como estimador de complementos . No creo que sea información útil, pero quizás conozca alguna razón por la que podría serlo.F~n

Ejemplo en R

Aquí hay un código R si desea comparar la distribución empírica con . Lo siento, parte de la sangría está mal ... No veo cómo solucionarlo.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

salida de los datos anteriores

EDICIONES:

EDITAR 1 -

Edité esto para abordar los comentarios de @ whuber.

EDITAR 2 -

Agregué el código R y lo limpié un poco más. Cambié un poco la notación por legibilidad, pero es esencialmente lo mismo. Estoy planeando poner una recompensa por esto tan pronto como se me permita, así que avíseme si desea más aclaraciones.

EDITAR 3 -

Creo que me dirigí a los comentarios de @ cardinal. Arreglé los errores tipográficos en la variación total. Estoy agregando una recompensa.

EDITAR 4 -

Se agregó una sección de "motivación" para @cardinal.


1
Su pregunta comenzó a volverse ambigua en el momento en que se refirió a objetos indefinidos y a usar alguna notación idiosincrásica. Por ejemplo, aparece desde el principio, pero no tiene una conexión aparente con y es solo al leer mucho más que nos damos cuenta de que lo está pensando como "no una distribución discreta", pero ¿qué tipo de objeto es? Crucialmente, ¿qué significa " ?" "generalmente significa supremum pero tal vez tiene algo que ver con el soporte esencial de una distribución? Debido a que todo en la pregunta depende de lo que significan, no puedo tener sentido de la preguntaF sup z f ( z ) supfFsupzf(z)sup
whuber

1
Gracias @whuber por tus comentarios. Avíseme si la pregunta revisada sigue siendo confusa.
user1448319

1
¡Ajá! Esa es la primera indicación que he visto de que no es fijo y que estás interesado en las asintóticas. Si es cierto que tiene flexibilidad para elegir , ¿no abre eso una gran cantidad de posibilidades, como las opciones adaptativas de los puntos de muestra (en lugar de limitarse a una cuadrícula fija )? También es evidente que está haciendo suposiciones no declaradas, de modo que es continua (equivalentemente, es absolutamente continua ). ¿Qué más puede suponer sobre la distribución subyacente que puede ayudar con este análisis? n { i / n } f F Fnn{i/n}fFF
whuber

2
Un par de otras preguntas / comentarios: Parece implícitamente basado en cómo está proponiendo construir que realmente está considerando una matriz triangular , para fines de análisis de convergencia. A partir de cómo construye el , parece que también debería poder (con la misma facilidad) muestrear variables aleatorias de Bernoulli con probabilidad condicional de éxito donde es una variable aleatoria uniforme. ¿Es eso cierto? (Un poco más de contexto a su pregunta probablemente resolvería muchas de estas consultas). Saludos. Y i , n i = 1 , , n p i f ( U ) / c UpiYi,ni=1,,npif(U)/cU
cardenal

2
Esta pregunta se ha mejorado tanto que ni siquiera la reconocí hasta que me di cuenta de que había visto los comentarios antes. Ahora es una pregunta realmente interesante y mucho más bien escrita.
Glen_b -Reinstalar Monica

Respuestas:


1

Si bien esta referencia

EDITAR: REFERENCIA AGREGADA A ESTADÍSTICAS MUY SIMILARES "Estimación no paramétrica de observaciones incompletas" EL Kaplan y Paul Meier, Revista de la Asociación Americana de Estadística, vol. 53, núm. 282 (junio de 1958), págs. 457-481

no es para su estimador similar a ECDF en Creo que es lógicamente equivalente al estimador de Kaplan-Meier (también conocido como estimador de límite de producto) como se usa en el Análisis de supervivencia, aunque se aplique a un rango de tiempo .[0,1][0,)

Sería posible estimar el sesgo una vez que tenga una estimación razonable de la distribución a través del suavizado del núcleo si se comporta lo suficientemente bien (ver, por ejemplo, la transformación de Khmaladze en Wikipedia).

En el caso bivariado en su problema gráfico, estimar de aunque con una restricción de simetría trivial, parece similar al enfoque de Jean-David Fermanian, Dragan Radulovic y Marten Wegkamp (2004), convergencia débil de la cópula empírica procesos , Bernoulli , vol. 10, no. 5, 847–860, como @cardinal indicó "Método Delta Multivariante".Af=W/WA


Bienvenido al sitio, James. Espero ver más de sus contribuciones.
cardenal

0

Esto responde a las preguntas 2 y 3 anteriores. Sin embargo, todavía realmente quiero una referencia (de la pregunta 1).

Yi=0

g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
 Cov(R,S)=0Yi

Ahora, usamos una expansión de Taylor para obtener

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
donde En particular, obtenemos
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

Comenta si ves algo mal con esto.

EDICIONES:

Editar 1 -

Se un error tipográfico en . Gracias @cardinal por su sugerencia en los comentarios sobre la pregunta 4.VF(t)

Editar 2 -

Se corrigieron muchos errores tipográficos: tenía donde debería haber tenido en muchos lugares. Todavía necesito abordar la respuesta de @ cardinal sobre .c1cYi=0


1
Estimado @usuario: Esto está en el camino correcto; Aquí hay algunas sugerencias. ( 1 ) La media de no existe, al menos hasta que especifique lo que sucede cuando , por lo que, estrictamente hablando, el análisis en la respuesta no es correcto. Definir un comportamiento en cero romperá la estructura de independencia, pero no todo está perdido. ( 2 ) Esencialmente, lo que está haciendo es aplicar el método delta multivariante. Tenga en cuenta que esto no requiere la existencia de la media de , por lo que será más limpio (y más correcto) si sigue esta ruta. F~n(t)iYi=0F~n(t)
cardenal

2
( 3 ) El elemento 4 de su lista se maneja de la siguiente manera. Tenga en cuenta queEl primer término en el lado derecho, , es, así es claramente . Solo te queda lidiar con el término medio, pero eso sucumbe fácilmente a la desigualdad de Markov seguida de la de Jensen y también es .
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
cardenal

Estimado @usuario: Sería útil ver un poco más de elaboración a su comentario sobre no tener que considerar el caso . Lo que está describiendo es muestreo condicional. El condicionada a son no independientes (o condicionalmente independientes), por lo que la (implícita) el análisis de la respuesta no se sostiene. Puede ser útil mirar el caso para ver esto (solo dibuje la tabla ). iYi=0Yi{iYi>0}n=22×2
cardenal

Como un aparte adicional, puede valer la pena señalar que, por lo que esta definición puede simplificarse. supCC|F~F|=01|F~F|
cardenal
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.