¿Cuál es la intuición detrás de la distribución beta?


438

Descargo de responsabilidad: no soy un estadístico sino un ingeniero de software. La mayor parte de mi conocimiento en estadística proviene de la autoeducación, por lo que todavía tengo muchas lagunas en la comprensión de conceptos que pueden parecer triviales para otras personas aquí. Así que estaría muy agradecido si las respuestas incluyeran términos menos específicos y más explicaciones. Imagina que estás hablando con tu abuela :)

Estoy tratando de comprender la naturaleza de la distribución beta : para qué se debe usar y cómo interpretarla en cada caso. Si estuviéramos hablando de, digamos, distribución normal, uno podría describirlo como la hora de llegada de un tren: con mayor frecuencia llega justo a tiempo, un poco menos frecuente es 1 minuto antes o 1 minuto tarde y muy raramente llega con diferencia de 20 minutos de la media. La distribución uniforme describe, en particular, la posibilidad de cada boleto en la lotería. La distribución binomial se puede describir con lanzamientos de monedas, etc. ¿Pero hay una explicación tan intuitiva de la distribución beta ?

Digamos, y . La distribución beta en este caso se ve así (generada en R):β = .5 B ( α , β )α=.99β=.5B(α,β)

ingrese la descripción de la imagen aquí

Pero, ¿qué significa realmente? El eje Y es obviamente una densidad de probabilidad, pero ¿qué hay en el eje X?

Agradecería cualquier explicación, ya sea con este ejemplo o con cualquier otro.


13
El eje y no es una probabilidad (lo cual es obvio, porque por definición una probabilidad no puede estar fuera del intervalo , pero este gráfico se extiende hasta y, en principio, hasta ). Es una densidad de probabilidad : una probabilidad por unidad de (y usted ha descrito como una tasa). 50 x x[0 0,1]50XX
whuber

44
@whuber: sí, entiendo qué es PDF, eso fue solo un error en mi descripción. Gracias por una nota válida!
amigo

1
Trataré de encontrar la referencia, pero sé que algunas de las formas más extrañas para la distribución Beta generalizada con forma tienen aplicaciones como la física. Además, puede ajustarlo a datos expertos (min, mode, max) en entornos con pocos datos y, a menudo, es mejor que usar una distribución triangular (desafortunadamente a menudo utilizada por IE). una+(si-una)simituna(α1,α2)
SecretAgentMan

Obviamente nunca viajaste con la compañía ferroviaria Deutsche Bahn. Serías menos optimista.
Henning

Respuestas:


622

La versión corta es que la distribución Beta puede entenderse como una distribución de probabilidades , es decir, representa todos los valores posibles de una probabilidad cuando no sabemos cuál es esa probabilidad. Aquí está mi explicación intuitiva favorita de esto:

Cualquiera que siga el béisbol está familiarizado con los promedios de bateo : simplemente la cantidad de veces que un jugador recibe un golpe base dividido por la cantidad de veces que sube al bate (por lo que es solo un porcentaje entre 0y 1). .266en general se considera un promedio de bateo promedio, mientras que .300se considera excelente.

Imagine que tenemos un jugador de béisbol y queremos predecir cuál será su promedio de bateo de toda la temporada. Se podría decir que podemos usar su promedio de bateo hasta ahora, ¡pero esta será una medida muy pobre al comienzo de una temporada! Si un jugador sube al bate una vez y obtiene un sencillo, su promedio de bateo es brevemente 1.000, mientras que si se poncha, su promedio de bateo es 0.000. No mejora mucho si subes a batear cinco o seis veces, podrías obtener una racha de suerte y obtener un promedio de 1.000, o una racha de mala suerte y obtener un promedio de 0, ninguno de los cuales es un predictor remotamente bueno de cómo Batearás esa temporada.

¿Por qué su promedio de bateo en los primeros golpes no es un buen indicador de su promedio de bateo eventual? Cuando el primer turno al bate de un jugador es un ponche, ¿por qué nadie predice que nunca recibirá un golpe en toda la temporada? Porque vamos con expectativas previas. Sabemos que en la historia, la mayoría de los promedios de bateo durante una temporada han oscilado entre algo así .215como .360, con algunas excepciones extremadamente raras en ambos lados. Sabemos que si un jugador obtiene algunos ponches seguidos al inicio, eso podría indicar que terminará un poco peor que el promedio, pero sabemos que probablemente no se desviará de ese rango.

Dado nuestro problema de promedio de bateo, que puede representarse con una distribución binomial (una serie de éxitos y fracasos), la mejor manera de representar estas expectativas previas (lo que en estadística llamamos un prior ) es con la distribución Beta: es decir, antes de ver al jugador dar su primer golpe, lo que más o menos esperamos sea su promedio de bateo. El dominio de la distribución Beta es (0, 1), como una probabilidad, por lo que ya sabemos que estamos en el camino correcto, pero la idoneidad de la Beta para esta tarea va mucho más allá de eso.

Esperamos que el promedio de bateo de toda la temporada del jugador sea más probable .27, pero que podría variar razonablemente de .21a .35. Esto se puede representar con una distribución Beta con los parámetros y β = 219 :α=81β=219

curve(dbeta(x, 81, 219))

Beta (81, 219)

Se me ocurrieron estos parámetros por dos razones:

  • La media es αα+β=8181+219=.270
  • Como puede ver en la trama, esta distribución se encuentra casi por completo dentro (.2, .35)del rango razonable para un promedio de bateo.

Usted preguntó qué representa el eje x en un diagrama de densidad de distribución beta, aquí representa su promedio de bateo. Por lo tanto, observe que en este caso, no solo el eje y es una probabilidad (o más precisamente una densidad de probabilidad), sino también el eje x (¡el promedio de bateo es solo la probabilidad de un golpe, después de todo)! La distribución Beta representa una distribución de probabilidad de probabilidades .

Pero he aquí por qué la distribución Beta es tan apropiada. Imagina que el jugador recibe un solo golpe. Su récord para la temporada es ahora 1 hit; 1 at bat. Luego tenemos que actualizar nuestras probabilidades; queremos cambiar toda esta curva solo un poco para reflejar nuestra nueva información. Si bien las matemáticas para probar esto son un poco complicadas ( se muestra aquí ), el resultado es muy simple . La nueva distribución Beta será:

Beta(α0 0+golpes,β0 0+echa de menos)

α0 0β0 0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

ingrese la descripción de la imagen aquí

Tenga en cuenta que apenas ha cambiado, ¡el cambio es realmente invisible a simple vista! (Eso es porque un golpe realmente no significa nada).

Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

ingrese la descripción de la imagen aquí

Observe que la curva ahora es más delgada y desplazada hacia la derecha (mayor promedio de bateo) de lo que solía ser: tenemos una mejor idea de cuál es el promedio de bateo del jugador.

αα+β81+10081+100+219+200=.30381100100+200=.3338181+219=.270

Por lo tanto, la distribución Beta es mejor para representar una distribución probabilística de probabilidades , el caso en el que no sabemos cuál es la probabilidad de antemano, pero tenemos algunas conjeturas razonables.


55
@ffriend: Me alegra que haya ayudado. Espero que sigas el béisbol (de lo contrario, me pregunto si es comprensible)
David Robinson

11
Aquí hay un ejemplo similar de John Cook usando clasificaciones binarias de vendedores de Amazon con diferentes números de reseñas. La discusión sobre la elección de un previo en los comentarios es particularmente esclarecedora: johndcook.com/blog/2011/09/27/bayesian-amazon/#comments
Dimitriy V. Masterov

44
α0 0=β0 0=1/ /2

55
+ Me gusta su explicación de cómo actualiza la distribución cuando tiene más datos.
Mike Dunlavey

2
@ user27997 Esos dieron la media deseada de .27 y una desviación estándar que es muy realista para promedios de bateo (alrededor de .025). Por cierto, me dará una explicación de cómo calcular α y β de una media y la varianza deseada aquí .
David Robinson

48

Una distribución Beta se usa para modelar cosas que tienen un rango limitado, como 0 a 1.

Algunos ejemplos son la probabilidad de éxito en un experimento que solo tiene dos resultados, como el éxito y el fracaso. Si realiza un número limitado de experimentos, y algunos tienen éxito, puede representar lo que eso le dice mediante una distribución beta.

Otro ejemplo son las estadísticas de pedidos . Por ejemplo, si genera varios (digamos 4) números aleatorios 0,1 uniformes y los ordena, ¿cuál es la distribución del tercero?

nortess>1simituna(s+1,(norte-s)+1)

Más sobre eso ...


41

(0 0,1)

U1...Unortenorte(0 0,1)U(1)...U(norte)(U1,...,Unorte)U1...UnorteU(1)=min(Uyo)U(norte)=max(Uyo)U(k)Beta(k,norte+1-k)k=1,...,norte

Este resultado muestra que las distribuciones Beta aparecen naturalmente en matemáticas, y tiene algunas aplicaciones interesantes en matemáticas.


28

Hay dos motivaciones principales:

Primero, la distribución beta se conjuga antes de la distribución de Bernoulli. Eso significa que si tiene una probabilidad desconocida como el sesgo de una moneda que está estimando mediante lanzamientos de monedas repetidos, entonces la probabilidad inducida en el sesgo desconocido por una secuencia de lanzamientos de monedas está distribuida en beta.

log(X)Iniciar sesión(1-X)X[0 0,1]X1,...,Xnorte

La distribución beta no es especial para modelar cosas en general sobre [0,1] ya que muchas distribuciones pueden truncarse a ese soporte y son más aplicables en muchos casos.


23

ingrese la descripción de la imagen aquí

Supongamos que un vendedor en un sitio web de comercio electrónico recibe 500 calificaciones, de las cuales 400 son buenas y 100 son malas.

pags

La calidad ingenua en términos de calificaciones del vendedor es del 80% porque 0.8 = 400 / 500. Pero la calidad "verdadera" en términos de calificaciones no la conocemos.

pags=77%

pags

α=400+1β=100+1

pags

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/


3
¡Gracias por tu contribución! Sin embargo, estoy desconcertado acerca de algo: aunque la leyenda del histograma dice que muestran densidades beta , parece afirmar que también describen los resultados de las simulaciones binomiales ("con qué frecuencia sucede en una simulación"). Pero las dos son cosas diferentes, a pesar de que parecen estar bastante cerca en la ilustración. (Esa es una consecuencia de la casi normalidad de la Beta con parámetros grandes y el teorema del límite central para distribuciones binomiales.)
whuber

¡Ese es un buen punto! Pero no estoy seguro de cómo reformularlo correctamente. Si simplemente trazara el histograma, entonces, por supuesto, no verías gran parte de la densidad dada su magnitud. Entonces, sí, supongo que el histograma no solo se reduce, sino que en realidad es la densidad (estimada) del histograma original. Dado el número de corridas, también podría calcular un factor y reducirlo linealmente, pero se vería casi exactamente lo mismo ADEMÁS de lo que (en realidad) quiero comparar es la densidad de beta con la densidad del resultado de la simulación (el densidad del histograma original).
Raffael

8

Hasta ahora, la preponderancia de las respuestas cubría la justificación de que los RV Beta se generaban como anteriores para una muestra de proporciones, y una respuesta inteligente ha relacionado los RV Beta con las estadísticas de pedidos.

Las distribuciones beta también surgen de una relación simple entre dos RV Gamma (k_i, 1), i = 1,2 los llaman X e Y. X / (X + Y) tiene una distribución Beta.

Los Gamma RV ya tienen su fundamento en el modelado de tiempos de llegada para eventos independientes, por lo que no abordaré eso ya que no es su pregunta. Pero una "fracción de tiempo" invertida en completar una de las dos tareas realizadas en secuencia se presta naturalmente a una distribución Beta.


1
+1 Gracias por señalar eso sobre el uso de Gamma para formar una distribución Beta. He oído que si desea generalizar la Beta en un Dirichlet, simplemente ponga más Gammas en el denominador. Tal vez un estadístico lo sabe, pero para mí eso fue realmente útil cuando se observan los intervalos de confianza de una observación categórica.
Mike Dunlavey

4

X(1-X)F(X;α,β)=constanteXα-1(1-X)β-11/ /si(α,β)αβes como un "peso" para la contribución del fracaso. Tiene un espacio de parámetros bidimensionales (uno para la contribución de los éxitos y otro para la contribución de los fracasos), lo que hace que sea un poco difícil pensar y comprender.


3

En el ejemplo citado, los parámetros son alfa = 81 y beta = 219 del año anterior [81 aciertos en 300 al bate o (81 y 300 - 81 = 219)]

No sé cómo llaman la suposición previa de 81 hits y 219 outs, pero en inglés, esa es la suposición a priori.

Observe cómo a medida que avanza la temporada la curva se desplaza hacia la izquierda o hacia la derecha y la probabilidad modal se desplaza hacia la izquierda o hacia la derecha, pero todavía hay una curva.

Me pregunto si la Laa de los grandes números finalmente se afianza y lleva el promedio de bateo a .270.

Para adivinar el alfa y el beta en general, se tomaría el número completo de ocurrencias anteriores (en los murciélagos), el promedio de bateo como se conoce, se obtendrían los golpes totales (el alfa), el beta o el gran total menos las fallas) y listo. Tienes tu fórmula. Luego, trabaje los datos adicionales como se muestra.


2

F(X)=tanh((X/ /pags)norte)

Por cierto, ¿qué pasa si produce una distribución de tamaño a partir de una observación microscópica y tiene una distribución de partículas en número, y su objetivo es trabajar con una distribución de volumen? Es casi obligatorio obtener la distribución original en número limitado a la derecha. Entonces, la transformación es más consistente porque está seguro de que en la nueva distribución de volumen no aparece ningún modo, ni la mediana ni el tamaño medio fuera del intervalo en el que está trabajando. Además, evitas el efecto de Groenlandia África.

La transformación es muy fácil si tiene formas regulares, es decir, una esfera o un prisma. Debería agregar tres unidades al parámetro alfa de la distribución beta del número y obtener la distribución del volumen.


1
Bienvenido al sitio. ¿Fue esto una respuesta a la pregunta del OP? ¿Puedes aclarar cómo se relaciona esto con la intuición detrás de la distribución beta?
Gung

Edite para aclarar la intuición sobre una distribución beta.
Glen_b

1

¡Creo que NO hay intuición detrás de la distribución beta! ¡La distribución beta es solo una distribución muy flexible con el rango FIX! Y para el entero ayb es incluso fácil de tratar. También muchos casos especiales de la versión beta tienen su significado nativo, como la distribución uniforme. Entonces, si los datos deben modelarse de esta manera, o con un poco más de flexibilidad, entonces la versión beta es una muy buena opción.


0

En otra pregunta sobre la distribución beta, se proporciona la siguiente intuición detrás de la beta:

En otras palabras, la distribución beta puede verse como la distribución de probabilidades en el centro de una distribución fluctuada.

Para obtener detalles, consulte la respuesta completa en https://stats.stackexchange.com/a/429754/142758

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.