¿Qué significa en la práctica "la probabilidad solo se define hasta una constante multiplicativa de proporcionalidad"?

19

Estoy leyendo un artículo en el que los autores lideran una discusión sobre la estimación de máxima probabilidad del Teorema de Bayes, aparentemente como una introducción para principiantes.

Como ejemplo de probabilidad, comienzan con una distribución binomial:

p (x | n, θ) = (\binom{n}{x}) θ^{x} (1 - θ)^{n - x}

$p(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x}$

y luego registrar ambos lados

ℓ (θ | x, n) = x \ln (θ) + (n - x) \ln (1 - θ)

$\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta)$

con la justificación de que:

"Debido a que la probabilidad solo se define hasta una constante multiplicativa de proporcionalidad (o una constante aditiva para la probabilidad logarítmica), podemos reescalar ... soltando el coeficiente binomial y escribiendo la probabilidad logarítmica en lugar de la probabilidad"

Las matemáticas tienen sentido, pero no puedo entender qué se entiende por "la probabilidad solo se define hasta una constante multiplicativa de proporcionalidad" y cómo esto permite dejar caer el coeficiente binomial y pasar de $p(x|n,\theta)$ a $\ell(\theta|x,n)$ .

Terminología similar ha surgido en otras preguntas ( aquí y aquí ), pero aún no está claro qué, prácticamente, la probabilidad de ser definida o llevar la información a un medio constante multiplicativo. ¿Es posible explicar esto en términos simples?

— kmm
fuente

18

El punto es que a veces, diferentes modelos (para los mismos datos) pueden conducir a funciones de probabilidad que difieren en una constante multiplicativa, pero el contenido de la información debe ser claramente el mismo. Un ejemplo:

Modelamos experimentos independientes de Bernoulli, que conducen a datos , cada uno con una distribución de Bernoulli con el parámetro (probabilidad) . Esto lleva a la función de probabilidad O podemos resumir los datos por la variable binomialmente distribuida , que tiene una distribución binomial, lo que lleva a la función de probabilidad que, como función del parámetro desconocido , es proporcional a la función de probabilidad anterior . ¡Las dos funciones de probabilidad contienen claramente la misma información, y deberían conducir a las mismas inferencias! $n$ $X_1, \dots, X_n$ $p$

\prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}}

$\prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}$

Y = X_{1} + X_{2} + \dots + X_{n}

$Y=X_1+X_2+\dotsm+X_n$

(\binom{n}{y}) p^{y} (1 - p)^{n - y}

$\binom{n}{y} p^y (1-p)^{n-y}$

p

$p$

Y de hecho, por definición, se consideran la misma función de probabilidad.

Otro punto de vista: observe que cuando las funciones de probabilidad se usan en el teorema de Bayes, según sea necesario para el análisis bayesiano, ¡esas constantes multiplicativas simplemente se cancelan! entonces son claramente irrelevantes para la inferencia bayesiana. Del mismo modo, se cancelará al calcular las razones de probabilidad, como se usa en las pruebas de hipótesis óptimas (lema de Neyman-Pearson). Y no tendrá influencia en el valor de los estimadores de máxima probabilidad. Entonces podemos ver que en gran parte de la inferencia frecuentista no puede jugar un papel.

Podemos discutir desde otro punto de vista. La función de probabilidad de Bernoulli (de aquí en adelante usamos el término "densidad") es realmente una densidad con respecto a la medida de conteo, es decir, la medida en los enteros no negativos con masa uno para cada entero no negativo. Pero podríamos haber definido una densidad con respecto a alguna otra medida dominante. En este ejemplo, esto parecerá (y es) artificial, pero en espacios más grandes (espacios de función) ¡es realmente fundamental! Usemos, con fines ilustrativos, la distribución geométrica específica, escrita , con , , y pronto. Luego, la densidad de la distribución de Bernoulli con respecto a $\lambda$ $\lambda(0)=1/2$ $\lambda(1)=1/4$ $\lambda(2)=1/8$ $\lambda$ está dado por lo que significa que Con esta nueva medida dominante, la función de probabilidad se convierte (con notación desde arriba) tenga en cuenta el factor adicional . Entonces, al cambiar la medida dominante utilizada en la definición de la función de verosimilitud, surge una nueva constante multiplicativa, que no depende del parámetro desconocido

f_{λ} (x) = p^{x} (1 - p)^{1 - x} \cdot 2^{x + 1}

$f_{\lambda}(x) = p^x (1-p)^{1-x}\cdot 2^{x+1}$

P (X = x) = f_{λ} (x) \cdot λ (x)

$P(X=x)= f_\lambda(x) \cdot \lambda(x)$

\prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}} 2^{x_{i} + 1} = p^{y} (1 - p)^{n - y} 2^{y + n}

$\prod_{i=1}^n p^{x_i} (1-p)^{1-x_i} 2^{x_i+1} = p^y (1-p)^{n-y} 2^{y+n}$

2^{y + n}

$2^{y+n}$

p

$p$ , y es claramente irrelevante. Esa es otra forma de ver cómo las constantes multiplicativas deben ser irrelevantes. Este argumento puede generalizarse utilizando derivados de Radon-Nikodym (como el argumento anterior es un ejemplo de).

— kjetil b halvorsen
fuente

"el contenido de la información debe ser claramente el mismo" ¡Esto solo es cierto si crees en el principio de probabilidad!

— jsk

Sí, tal vez, pero sí mostré cómo se desprende de los principios bayesianos.

— kjetil b halvorsen

@kjetilbhalvorsen ¡Gracias por la atenta respuesta! Una cosa con la que todavía estoy confundido es por qué la probabilidad de distribución de bernoulli no incluye un coeficiente binomial. Su respuesta deja en claro por qué no importa, pero no entiendo por qué se deja fuera de la probabilidad en primer lugar.

— jvans

@jvans: es porque el coeficiente binomial no depende del parámetro desconocido, por lo que no puede influir en la forma de la función de probabilidad

— kjetil b halvorsen

12

Básicamente significa que solo importa el valor relativo del PDF. Por ejemplo, el PDF normal (gaussiano) estándar es: , su libro dice que podrían usar lugar, porque no les importa la escala, es decir, . $f(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$ $g(x)=e^{-x^2/2}$ $c=\frac{1}{\sqrt{2\pi}}$

Esto sucede porque maximizan la función de probabilidad, y y tendrán el mismo máximo. Por lo tanto, el máximo de será el mismo que para . Por lo tanto, no se preocupan por la escala. $c\cdot g(x)$ $g(x)$ $e^{-x^2/2}$ $f(x)$

— Aksakal
fuente

6

No puedo explicar el significado de la cita, pero para la estimación de máxima verosimilitud , no importa si elegimos encontrar el máximo de la función de verosimilitud (considerada como una función de o the máximo de donde es una constante. Esto se debe a que no estamos interesados en el valor máximo de sino más bien en el valor donde ocurre este máximo, y tanto como alcanzan su valor máximo en el mismo $L(\mathbf x; \theta)$ $\theta$ $aL(\mathbf x; \theta)$ $a$ $L(\mathbf x; \theta)$ $\theta_{\text{ML}}$ $L(\mathbf x; \theta)$ $aL(\mathbf x; \theta)$ $\theta_{\text{ML}}$ . Entonces, las constantes multiplicativas pueden ser ignoradas. Del mismo modo, podríamos elegir considerar cualquier función monótona (como el logaritmo) de la función de probabilidad , determinar el máximo de e infiera el valor de partir de esto. Para el logaritmo, la constante multiplicativa convierte en la constante aditiva y esto también puede ignorarse en el proceso de encontrar la ubicación del máximo: se maximiza en el mismo punto que . $g(\cdot)$ $L(\mathbf x; \theta)$ $g(L(\mathbf x;\theta))$ $\theta_{\text{ML}}$ $a$ $\ln(a)$ $\ln(a)+\ln(L(\mathbf x; \theta)$ $\ln(L(\mathbf x; \theta)$

Volviendo a la estimación de probabilidad a posteriori máxima (MAP), se considera como la realización de una variable aleatoria con una función de densidad a priori , los datos se consideran como una realización de una variable aleatoria , y la función de probabilidad se considera el valor de la densidad condicional de condicionado a ; dicha función de densidad condicional se evalúa en . los $\theta$ $\Theta$ $f_{\Theta}(\theta)$ $\mathbf x$ $\mathbf X$ $f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$ $\mathbf X$ $\Theta = \theta$ $\mathbf x$ una densidad posterior de es en el que reconocemos el numerador como la densidad conjunta de los datos y el parámetro que se estima. El punto donde alcanza su valor máximo es la estimación MAP de , y, utilizando los mismos argumentos que en el párrafo, vemos que podemos ignorar en el lado derecho de $\Theta$

\begin{matrix} (1) & f_{Θ ∣ X} (θ ∣ x) = \frac{f_{X ∣ Θ} (x ∣ Θ = θ) f_{Θ} (θ)}{f_{X} (x)} \end{matrix}

$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x) = \frac{f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)f_\Theta(\theta)}{f_{\mathbf X}(\mathbf x)} \tag{1}$

f_{X, Θ} (x, θ)

$f_{\mathbf X, \Theta}(\mathbf x, \theta)$

θ_{MAP}

$\theta_{\text{MAP}}$

f_{Θ ∣ X} (θ ∣ x)

$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x)$

θ

$\theta$

[f_{X} (x)]^{- 1}

$[f_{\mathbf X}(\mathbf x)]^{-1}$

(1)

$(1)$ como una constante multiplicativa al igual que podemos ignorar las constantes multiplicativas tanto en como en . Del mismo modo, cuando se utilizan las probabilidades de registro, podemos ignorar las constantes aditivas.

f_{X ∣ Θ} (x ∣ Θ = θ)

$f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$

f_{Θ} (θ)

$f_\Theta(\theta)$

— Dilip Sarwate
fuente

Esta línea de pensamiento también se puede hacer a través de bayes: si coloca o en el teorema de Bayes no importa, el se cancelará, por lo que el posterior es el mismo.

L

$L$

a L

$aL$

a

$a$

— kjetil b halvorsen

5

En términos simples, a menudo buscará la máxima probabilidad y comparten los mismos puntos críticos. $f(x)$ $kf(x)$

— Sergio
fuente

3

Lo mismo ocurre con y , pero que no serían equivalentes funciones de verosimilitud

f (x)

$f(x)$

f (x) + 2

$f(x)+2$

— Henry

Por favor, como Alecos Papadopoulos escribe en su respuesta, "la probabilidad es primero una función conjunta de densidad de probabilidad". Debido a la suposición de iid para muestras aleatorias, esa función conjunta es un producto de funciones de densidad simples, por lo que surgen factores multiplicativos, no se suman.

— Sergio

1

La función conjunta es un producto de este tipo si y solo si los datos son independientes. Pero MLE se extiende a variables dependientes, por lo que el argumento del producto parece poco convincente.

— whuber

1

Sugeriría no perder de vista ningún término constante en la función de probabilidad (es decir, términos que no incluyen los parámetros). En circunstancias habituales, no afectan el de la probabilidad, como ya se mencionó. Pero: $\text {argmax}$

Puede haber circunstancias inusuales en las que tendrá que maximizar la probabilidad sujeta a un límite máximo, y luego deberá "recordar" incluir cualquier constante en el cálculo de su valor.

Además, es posible que esté realizando pruebas de selección de modelos para modelos no anidados, utilizando el valor de la probabilidad en el proceso, y dado que los modelos no están anidados, las dos probabilidades tendrán constantes diferentes.

Aparte de estos, la oración

"Porque la probabilidad solo se define hasta una constante multiplicativa de proporcionalidad (o una constante aditiva para la probabilidad logarítmica)"

está mal , porque la probabilidad es primero una función de densidad de probabilidad conjunta , no "cualquier" función objetivo a maximizar.

— Alecos Papadopoulos
fuente

3

Hmmm ... Al usar un sombrero bayesiano, siempre pensé en la función de probabilidad como la función de densidad condicional de los datos dados el parámetro y no como una función de densidad de probabilidad conjunta . La ubicación del máximo de la densidad de probabilidad conjunta de los datos y el parámetro (considerado como una función del parámetro desconocido ; los datos que se están fijando) dan el máximo estimado de probabilidad a posteriori (MAP) de , ¿no es así? ?

θ

$\theta$

θ

$\theta$

— Dilip Sarwate

3

Creo que debes ser un poco más cuidadoso con el lenguaje. La probabilidad es una función de los parámetros para una muestra fija, pero es equivalente a la densidad conjunta sobre el espacio muestral . Es decir, Esto se integrará a sobre el espacio muestral, pero no es necesariamente cuando se integra sobre el espacio de parámetros. Cuando dices "la probabilidad es una densidad, vista como una función de los parámetros", eso suena como si quisieras decir "densidad con respecto a los parámetros", que no lo es.

L (θ ∣ x) = f (x ∣ θ) .

$L(\boldsymbol \theta \mid \boldsymbol x) = f(\boldsymbol x \mid \boldsymbol \theta).$

1

$1$

1

$1$

— Heropup

1

@heropup Ya escribí que no necesariamente se integra a la unidad sobre el espacio de parámetros, por lo que, inmediatamente, no puede considerarse como una "función de densidad" cuando se ve como una "función de los parámetros".

— Alecos Papadopoulos

1

Sí, lo sé. Mi punto es que la frase "La función de probabilidad es una función de densidad, vista como una función de los parámetros" es confusa en sí misma. Sería más preciso decir algo como: "La función de probabilidad es una función de los parámetros para una muestra fija, y es equivalente (o proporcional) a la densidad conjunta sobre el espacio muestral".

— Heropup

1

@heropup Su afirmación deseada de que "La función de probabilidad ... es equivalente (o proporcional) a la densidad conjunta sobre el espacio muestral" sería de hecho mucho más precisa pero igualmente incorrecta. La función de probabilidad no es equivalente ni proporcional a la densidad conjunta porque el "coeficiente de proporcionalidad" no es una constante (a menos que la distribución previa del parámetro desconocido se distribuya uniformemente en un intervalo). La densidad conjunta es donde es la probabilidad es la distribución previa del parámetro.

L (x ∣ θ) f (θ)

$L(x\mid \theta)f(\theta)$

L

$L$

f (θ)

$f(\theta)$

— Dilip Sarwate