¿Existe alguna distribución univariada de la que no podamos tomar muestras?


12

Tenemos una gran variedad de métodos para la generación aleatoria a partir de distribuciones univariadas (transformación inversa, aceptar-rechazar, Metropolis-Hastings, etc.) y parece que podemos tomar muestras de literalmente cualquier distribución válida, ¿es eso cierto?

¿Podría proporcionar algún ejemplo de distribución univariada que sea imposible generar aleatoriamente? Creo que el ejemplo donde es imposible no existe (?), Así que digamos que por "imposible", nos referimos también casos que son muy caros computacionalmente, por ejemplo, que las simulaciones necesidad de fuerza bruta como el dibujo de grandes cantidades de muestras para aceptar sólo una pocos de ellos.

Si tal ejemplo no existe, ¿podemos realmente demostrar que podemos generar sorteos aleatorios a partir de cualquier distribución válida? Simplemente tengo curiosidad si existe un contraejemplo para esto.


66
Realmente se reduce a lo que quieres decir con "no se puede / imposible", creo. Hay casos en los que el cdf y el pdf son muy caros de evaluar, por ejemplo, lo que haría que la mayoría de los métodos sean prohibitivos, y no es difícil encontrar formas de distribución donde los límites del sobre sean buenos en el pdf (para un aceptar-rechazar que en su mayoría evita la evaluación de la función) no están fácilmente disponibles. Por lo tanto, fallaría el caso que ya excluye y podríamos hacer que aún más costoso (por desviación, en promedio) para calcular que usar aceptar-rechazar (lo que excluiría tratar de usar la inversión numérica del cdf)F
Glen_b -Reinstate Monica

3
No podemos extraer muestras aleatorias uniformes del conjunto de números irracionales en el intervalo (0,1) usando una computadora. La prueba se deja como ejercicio para el lector.
Cliff AB el

2
@Cliff AB Esto se puede manejar mediante aritmética de intervalos. Defina un intervalo (el más pequeño) alrededor de cada punto evaluable (racional) de la computadora de modo que la totalidad de [0,1] esté cubierta por estos intervalos. Para cada computadora "uniforme" evaluable dibujada, evalúe t (con redondeo hacia afuera) el intervalo inverso de la función de distribución acumulativa en este argumento de intervalo. Eso producirá una muestra de intervalo de la variable aleatoria, 100% garantizado para contener la muestra verdadera.
Mark L. Stone el

2
A lo que me refiero es que, dado que ya considera que el rechazo es lo suficientemente ineficiente como "imposible", si hace que sea lo suficientemente costoso como para que cualquier otro enfoque que conozca sea peor (requiere más cálculo), presumiblemente consideraría también esos "imposibles". Construir F's y F's costosas de evaluar no es tan difícil, y hacer que sean obvias las formas obvias de evitar el cálculo, la mayoría de las veces también es ineficiente,
ctd

1
ctd ... (pero colectivamente, las personas son bastante ingeniosas, por lo que lo que parece muy difícil algún día puede ser factible si se te ocurre una buena idea que solucione la mayor parte del problema). Si decimos que "la aproximación a tal o cual precisión está bien", entonces muchas de estas dificultades se pueden solucionar en muchos casos (por ejemplo, uno podría construir grandes tablas de búsqueda / generación de histogramas, por ejemplo, que la mayoría de las veces genera valores aproximados razonablemente rápidos).
Glen_b -Reinstale a Monica el

Respuestas:


15

Si conoce la función de distribución acumulativa, , puede invertirla, ya sea analítica o numéricamente, y utilizar el método de muestreo de transformación inversa para generar muestras aleatorias https://en.wikipedia.org/wiki/Inverse_transform_sampling .F(x)

Defina . Esto manejará cualquier distribución, ya sea continua, discreta o cualquier combinación. Esto siempre se puede resolver numéricamente, y quizás analíticamente. Sea U una muestra de una variable aleatoria distribuida como Uniforme [0,1], es decir, de un generador de números aleatorios uniforme [0,1]. Entonces , definido como arriba, es una muestra aleatoria de una variable aleatoria que tiene distribución . F - 1 ( U ) F ( x )F1(y)=inf(x:F(x)y)F1(U)F(x)

Puede que esta no sea la forma más rápida de generar muestras aleatorias, pero es una forma, suponiendo que se conoce F (x).

Si no se conoce F (x), entonces esa es una historia diferente.


2
Si no se conoce, entonces ¿qué se sabe? Obviamente eso es relevante. Si no sabe nada, no podrá hacer nada. Si sabe algo, entonces depende de qué es ese algo.F(x
Mark L. Stone el

@Tim De hecho, es bastante común que no conozcamos F (X), pero podemos generar muestras a partir de él. Ese es un escenario típico en la simulación de Monte Carlo (estocástico).
Mark L. Stone el

@Tim: Si no está interesado en esta historia, no está claro en qué historia está interesado. En respuesta al comentario de Glen_b, dijo que no le preocupaba el muestreo ineficiente. Este método, aunque ineficiente, le permitirá muestrear desde cualquier pdf (suponiendo que no se comporte tan mal que la integración numérica falle, pero no creo que a nadie le importe usar tales distribuciones). Entonces, a menos que esté interesado en, digamos, distribuciones que son discontinuas en un número infinito de lugares, esta debería ser la respuesta a su pregunta: sí, podemos hacerlo.
Cliff AB

En realidad, si se conoce pero no F - 1 , esto es un problema. FF1
Xi'an

1
Depende de lo que entiendas por problema. Si se conoce , entonces, según mi respuesta, F - 1 ( y ) = i n f ( x : F ( x ) y ) siempre está bien definido y se puede resolver numéricamente. Puede que no sea tan rápido como quisieras, así que si eso es lo que quieres decir con problema, está bien. Si eso no es lo que quieres decir, ¿cuál es el problema? FF1(y)=inf(x:F(x)y)
Mark L. Stone

7

Cuando una distribución solo se define por su función generadora de momentos o por su función característica Φ ( t ) = E [ exp { i t X } ] , es raro encontrar formas de generar a partir de esas distribuciones.ϕ(t)=E[exp{tX}]Φ(t)=E[exp{itX}]

Se hace un ejemplo relevante de distribuciones estables en α , que no tienen forma conocida de densidad o cdf, no tienen función generadora de momento, sino una función característica de forma cerrada.

En las estadísticas bayesianas, las distribuciones posteriores asociadas con probabilidades intratables o simplemente conjuntos de datos que son demasiado grandes para caber en una computadora pueden considerarse imposibles (exactamente) de simular.


Si solo conoce la función de generación de momentos, puede usar el enfoque aproximado de punto de silla de montar y luego simular a partir de eso.
kjetil b halvorsen

1
@ Xi'an Usted omitió la palabra "eficientemente". En el peor de los casos, puede invertir numéricamente la inversión numérica de la transformación. Eso hará el trabajo, quizás no "eficientemente", pero lo hará.
Mark L. Stone

3
@kjetilbhalvorsen: la aproximación de saddlepoint es la solución propuesta en el enlace que puse. ¡Pero es una aproximación!
Xi'an

2

Suponiendo que se refiera a distribuciones continuas. Al usar la transformación integral de probabilidad , puede simular desde cualquier distribución univariada simulando u ( 0 , 1 ) y luego tomando F - 1 ( u ) . Entonces, podemos simular un uniforme, entonces esa parte está hecha. Lo único que puede impedir la simulación de F es que no se puede calcular su F - 1 inversa , pero esto tiene que estar relacionado con dificultades computacionales, en lugar de algo teórico.Fu(0,1)F1(u)FF1


1

θ=(θ1,...,θd)θj

Hay métodos para tomar muestras aproximadamente de este posterior en algunos casos, pero no existe un método general exacto en este momento.


... pero la pregunta es sobre distribuciones univariadas. Hay muchos ejemplos de modelos complicados donde MCMC no puede converger incluso después de una enorme cantidad de iteraciones.
Tim

@Tim Y eso es exactamente por qué dije marginal posterior , lo que significa univariante ... Me parece que no tienes claro lo que estás preguntando. Las dos primeras respuestas son claras en que, teóricamente, es posible tomar muestras de cualquier distribución siempre que la conozca.
Noah

1
Voto para poner esta pregunta [EN ESPERA] hasta que el OP aclare lo que está preguntando y deje de cambiar la pregunta cada vez que aparezca una nueva respuesta para que las respuestas no sean aplicables.
Noah

Estoy no cambiando mi pregunta "cada vez que un nuevo aparece respuesta" ... Obviamente modelo estadístico con probabilidad y la anterior no es univariante, ya que se declara en términos de distribución condicional. Es univariante si muestras de la parte posterior, pero supongo que asumes que ya tenemos la distribución marginal, por lo que no hay problema con la parte posterior intracable.
Tim

1
R

1

(qi)i=1P(X=qi)=0ii=1P(X=qi)=0P(XQ)=1

μπ(μ)=1


0

¿Podría proporcionar algún ejemplo de distribución univariada que sea imposible generar aleatoriamente?

cc

Si solo está interesado en muestrear variables aleatorias cuyos valores pueden aproximarse razonablemente por números de coma flotante de 64 bits, o si tiene una tolerancia similar al error finito en el valor, y de todos modos no representaba sus muestras en máquinas de Turing , considera esto:

XBer(p)p=1c01

0(,c)1[c,)0(,0)c[0,1)1[1,)cxy-eje. No estoy seguro de qué hace que el muestreo sea más difícil, así que elige el que más te guste ;-)

Digamos que por "imposible" nos referimos también a casos que son muy costosos desde el punto de vista computacional, por ejemplo, que necesitan simulaciones de fuerza bruta, como extraer enormes cantidades de muestras para aceptar solo algunos de ellos.

En este caso, la respuesta obvia parece obvia:

  • nn
  • Muestra las preimágenes de una función hash criptográfica (es decir, generar bitcoin y romper git y mercurial).
  • Pruebe el conjunto de estrategias Go óptimas (con reglas chinas de superko, que hacen que todos los juegos sean finitos, hasta donde yo entiendo).

Un poco más formalmente: le doy una gran instancia de un problema NP-complete (o EXP-complete, etc.) y le pido que muestree uniformemente el conjunto de soluciones para mí.

R1

Puede verificar fácilmente si una asignación de verdad dada satisface mi instancia de SAT, y después de haberlos verificado, ya sabe si alguien lo hace, por lo que he especificado completamente un CDF al darle una fórmula booleana (o circuito), pero para probar la distribución correspondiente esencialmente debes convertirte en algo al menos tan poderoso como un oráculo de solubilidad SAT.


Así que te di un número indiscutible que debería arrojar arena en tus engranajes, y te di un CDF que es lento de calcular. Tal vez la siguiente pregunta obvia es: ¿hay un CDF representado en alguna forma eficiente (por ejemplo, puede evaluarse en tiempo polinómico) de modo que sea difícil generar muestras con esa distribución? No sé la respuesta a esa. No sé la respuesta a esa.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.