¿Se puede caracterizar un Multinomial (1 / n, ..., 1 / n) como un Dirichlet discretizado (1, .., 1)?


24

Entonces esta pregunta es un poco desordenada, ¡pero incluiré gráficos coloridos para compensar eso! Primero los antecedentes y luego la (s) pregunta (s).

Fondo

Digamos que tiene una distribución multinomial dimensional con probailitas iguales sobre las categorías. Sea los recuentos normalizados ( ) de esa distribución, es decir:nnπ=(π1,,πn)c

(c1,,cn)Multinomial(1/n,,1/n)πi=cin

Ahora la distribución sobre tiene soporte sobre -simplex pero con pasos discretos. Por ejemplo, con esta distribución tiene el siguiente soporte (los puntos rojos):πnn=3

ingrese la descripción de la imagen aquí

Otra distribución con soporte similar es la distribución -dimensional , es decir, una distribución uniforme sobre la unidad simplex. Por ejemplo, aquí hay sorteos aleatorios de un 3-dimesional :Dirichlet ( 1 , , 1 ) Dirichlet ( 1 , 1 , 1 )nDirichlet(1,,1)Dirichlet(1,1,1)

ingrese la descripción de la imagen aquí

Ahora tenía la idea de que la distribución de de la distribución podría caracterizarse como un dibujo de que están discretizadas para el soporte discreto de . La discretización que tenía en mente (y eso parece funcionar bien) es tomar cada punto en el símplex y "redondearlo" al punto más cercano que esté en el soporte de . Para el simplex tridimensional se obtiene la siguiente partición donde los puntos en cada área coloreada deben "redondearse" al punto rojo más cercano:πMultinomial(1/n,,1/n)Dirichlet(1,,1)ππ

ingrese la descripción de la imagen aquí

Como la distribución de Dirichlet es uniforme, la densidad / probabilidad resultante para cada uno de los puntos es proporcional al área / volumen que se "redondea" a cada punto. Para los casos bidimensionales y tridimensionales, estas probabilidades son:

ingrese la descripción de la imagen aquí ( Estas probabilidades son de simulaciones de Monte Carlo )

Entonces parece que, al menos para 2 y 3 dimensiones, la distribución de probabilidad resultante de discretizar de esta manera particular es la misma que la distribución de probabilidad para . Ese es el resultado normalizado de una distribución . También probé con 4 dimensiones y parece funcionar allí.π Multinomial ( 1 / n , , 1 / n )Dirichlet(1,,1)πMultinomial(1/n,,1/n)

Pregunta (s)

Entonces mi pregunta principal es:

Al discretizar un Dirichlet uniforme de esta manera particular, ¿la relación con un cumple para otras dimensiones? ¿La relación se sostiene en absoluto? (Solo he intentado esto usando la simulación de Monte Carlo ...)Multinomial(1/n,,1/n)

Además me pregunto:

  • Si esta relación se mantiene, ¿es un resultado conocido? ¿Y hay alguna fuente que pueda citar para esto?
  • Si esta discretización de un Dirichlet uniforme no tiene esta relación con el Multinomial. ¿Hay alguna construcción similar que tenga?

Algún contexto

Mi razón para hacer esta pregunta es que estoy mirando la similitud entre el Bootstrap no paramétrico y el Bootstrap Bayesiano, y luego surgió esto. También he notado que el patrón en las áreas coloreadas en el simplex 3-dimesional anterior parece (y debería ser) un diagrama de Voronoi. Una forma (espero) de que pueda pensar en esto es como una secuencia del Triángulo / Simpex de Pascal ( http://www.math.rutgers.edu/~erowland/pascalssimplices.html ). Donde el tamaño de las áreas coloreadas sigue la segunda fila del triángulo de Pascal en el caso de 2-d, la tercera fila del tetraedro de Pascal en el caso de 3-d, y así sucesivamente. Esto explicaría la conexión con la distribución multinomial, pero aquí estoy realmente en aguas profundas ...


2
¡divertido! (Como siempre.) Pero extraño la conexión de los calcetines.
Xi'an

Bueno, comencé a dibujar calcetines con reemplazo. Pero luego comencé a pensar en el Bayesian Boostrap, una cosa llevó a la otra, y así es como terminé aquí :)
Rasmus Bååth

2
@ Xi'an ¿tal vez son los calcetines en lugar de los cachorros los que deberían convertirse en la mascota bayesiana?
Tim

Respuestas:


14

Esas dos distribuciones son diferentes para cada .n4

Notación

Voy a reescalar su simplex por un factor , para que los puntos de la red tengan coordenadas enteras. Esto no cambia nada, solo creo que hace que la notación sea un poco menos engorrosa.n

Sea el simple ( n - 1 ) , dado como el casco convexo de los puntos ( n , 0 , ... , 0 ) , ..., ( 0 , ... , 0 , n ) en R n . En otras palabras, estos son los puntos donde todas las coordenadas son no negativas, y donde las coordenadas suman n .S(n1)(n,0,,0)(0,,0,n)Rnn

Deje denotar el conjunto de puntos de la red , es decir, aquellos puntos en S donde todas las coordenadas son integrales.ΛS

Si es un punto reticular, dejamos que V P denote su celda Voronoi , definida como aquellos puntos en S que están (estrictamente) más cerca de P que de cualquier otro punto en Λ .PVPSPΛ

Ponemos dos distribuciones de probabilidad que podemos poner en . Una de ellas es la distribución multinomial, donde el punto ( un 1 , . . . , Un n ) tiene la probabilidad de 2 - n n ! / ( a 1 ! a n ! ) . El otro que llamaremos el modelo de Dirichlet , y se asigna a cada P lambda una probabilidad proporcional al volumen de V P .Λ(a1,...,an)2nn!/(a1!an!)PΛVP

Justificación muy informal.

Estoy afirmando que el modelo multinomial y el modelo de Dirichlet dan diferentes distribuciones en , siempre que n 4 .Λn4

Para ver esto, considere el caso , y los puntos A = ( 2 , 2 , 0 , 0 ) y B = ( 3 , 1 , 0 , 0 ) . Afirmo que V A y V B son congruentes a través de una traducción del vector ( 1 , - 1 , 0 , 0 ) . Esto significa que V A y V Bn=4A=(2,2,0,0)B=(3,1,0,0)VAVB(1,1,0,0)VAVBtienen el mismo volumen y, por lo tanto, que y B tienen la misma probabilidad en el modelo de Dirichlet. Por otro lado, en el modelo multinomial, tienen diferentes probabilidades ( 2 - 44 ! / ( 2 ! 2 ! ) Y 2 - 44 ! / 3 ! ), Y se deduce que las distribuciones no pueden ser iguales.AB244!/(2!2!)244!/3!

El hecho de que y V B sean congruentes se deduce de la siguiente afirmación plausible pero no obvia (y algo vaga):VAVB

Reclamo plausible : La forma y el tamaño de solo se ven afectados por los "vecinos inmediatos" de P (es decir, aquellos puntos en Λ que difieren de P por un vector que se parece a ( 1 , - 1 , 0 , ... , 0 ) , donde el 1 y - 1 pueden estar en otros lugares)VPPΛP(1,1,0,,0)11

Es fácil ver que las configuraciones de "vecinos inmediatos" de y B son las mismas, y luego se deduce que V A y V B son congruentes.ABVAVB

En el caso , podemos jugar el mismo juego, con A = ( 2 , 2 , n - 4 , 0 , , 0 ) y B = ( 3 , 1 , n - 4 , 0 , , 0 ) , por ejemplo.n5A=(2,2,n4,0,,0)B=(3,1,n4,0,,0)

No creo que esta afirmación sea completamente obvia, y no voy a demostrarlo, en lugar de una estrategia ligeramente diferente. Sin embargo, creo que esta es una respuesta más intuitiva de por qué las distribuciones son diferentes para .n4

Prueba rigurosa

Tome y B como en la justificación informal anterior. Solo necesitamos demostrar que V A y V B son congruentes.ABVAVB

Dado , definiremos W P de la siguiente manera: W P es el conjunto de puntos ( x 1 , ... , x n ) S , para el cual max 1 i n ( a i - p i ) - min 1 i n ( a iP=(p1,,pn)ΛWPWP(x1,,xn)S . (De una manera más digerible: Sea v i = a i - p i . W P es el conjunto de puntos para los cuales la diferencia entre v i más alto y más bajoes menor que 1.)max1in(aipi)min1in(aipi)<1vi=aipiWPvi

Vamos a demostrar que .VP=WP

Paso 1

Reclamación: .VPWP

Esto es bastante fácil: Supongamos que no es en W P . Sea v i = x i - p i , y suponga (sin pérdida de generalidad) que v 1 = max 1 i n v i , v 2 = min 1 i n v i . v 1 - v 2X=(x1,,xn)WPvi=xipiv1=max1inviv2=min1invi Comon i = 1 v i = 0 , también sabemos que v 1 > 0 > v 2 .v1v21i=1nvi=0v1>0>v2

Sea ahora . Dado que P y X tienen coordenadas no negativas, Q también lo tiene , y se deduce que Q S , y entonces Q Λ . Por otro lado, d i s t 2 ( X , P ) - d i s t 2Q=(p1+1,p21,p3,,pn)PXQQSQΛ . De este modo, X es al menos tan cerca de Q como para P , por lo que X V P . Esto muestra (al tomar complementos) quedist2(X,P)dist2(X,Q)=v12+v22(1v1)2(1+v2)2=2+2(v1v2)0XQPXVP .VpWP

Paso 2

Reclamación : Los son separados por pares.WP

Supongamos lo contrario. Deje que y Q = ( q 1 , ... , q n ) ser puntos distintos en Λ , y dejar que X W PW Q . Como P y Q son distintos y ambos en Λ , debe haber un índice i donde p iq i + 1 , y uno dondeP=(p1,,pn)Q=(q1,,qn)ΛXWPWQPQΛipiqi+1 . Sin pérdida de generalidad, suponemos que p 1q 1 + 1 y p 2q 2 - 1 . Reorganizando y sumando, obtenemos q 1 - p 1 + p 2 - q 22 .piqi1p1q1+1p2q21q1p1+p2q22

Considere ahora los números y x 2 . Por el hecho de que X W P , tenemos x 1 - p 1 - ( x 2 - p 2 ) < 1 . Del mismo modo, X W Q implica que x 2 - q 2 - ( x 1 - q 1 ) < 1 . Sumando estos, obtenemos q 1 - px1x2XWPx1p1(x2p2)<1XWQx2q2(x1q1)<1 , y tenemos una contradicción.q1p1+p2q2<2

Paso 3

Hemos demostrado que , y que los W P son disjuntos. El V P cubre S hasta un conjunto de medida cero, y se deduce que W P = V P (hasta un conjunto de medida cero). [Dado que W P y V P están abiertos, en realidad tenemos W P = V P exactamente, pero esto no es esencial.]VPWPWPVPSWP=VPWPVPWP=VP

Ahora, casi hemos terminado. Considere los puntos y B = ( 3 , 1 , n - 4 , 0 , , 0 ) . Es fácil ver que W A y W B son congruentes y traducciones entre sí: la única forma en que podrían diferir es si el límite de S (que no sean las caras en las que AA=(2,2,n4,0,,0)B=(3,1,n4,0,,0)WAWBSAy ambos mienten) `` cortarían '' W A o W B pero no el otro. Pero para alcanzar esa parte del límite de S , tendríamos que cambiar una coordenada de A o B por al menos 1, lo que sería suficiente para garantizar que nos saque de W A y W B de todos modos. Por lo tanto, a pesar de que S se ve diferente de los puntos estratégicos A y B , las diferencias están demasiado lejos para ser captadas por las definiciones de W A y W B , y por lo tanto WBWAWBSABWAWBSABWAWB y W B son congruentes.WAWB

Entonces se deduce que y V B tienen el mismo volumen y, por lo tanto, el modelo de Dirichlet les asigna la misma probabilidad, a pesar de que tienen diferentes probabilidades en el modelo multinomial.VAVB


¡Guau, riguroso! ¡Gracias! Entonces, la ligera correspondencia que esperaba era accidental, supongo ...
Rasmus Bååth
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.