¿Cuál es la razón por la que una función de probabilidad no es un pdf?

59

¿Cuál es la razón por la que una función de probabilidad no es un pdf (función de densidad de probabilidad)?

likelihood pdf

— John Doe
fuente

66

La función de probabilidad es una función del parámetro desconocido (condicionado por los datos). Como tal, normalmente no tiene área 1 (es decir, la integral sobre todos los valores posibles de no es 1) y, por definición, no es un pdf.

θ

$\theta$

θ

$\theta$

— MånsT

44

La misma pregunta sobre MO hace 2 años: mathoverflow.net/questions/10971/…

— Douglas Zare

3

Referencia interesante, @Douglas. Las respuestas son bastante insatisfactorias, en mi humilde opinión. El aceptado supone cosas que simplemente no son ciertas ("tanto como son archivos PDF": ¡ no !) Y los otros realmente no entienden los problemas estadísticos.

p (X | m)

$p(X|m)$

p (m | X)

$p(m|X)$

— whuber

2

+1 whuber. ¡Es sorprendente que haya respuestas tan malas en el sitio de mathoverflow a pesar de su nivel matemático tan alto!

— Stéphane Laurent

1

@Stephane: Esto es cierto, pero los estadísticos e incluso los probabilistas parecen ser bastante pocos y distantes en MO, con algunas excepciones notables. Esa pregunta fue desde bastante temprano en la existencia de MO cuando las preguntas generalmente admisibles y la calidad de las respuestas fueron sustancialmente diferentes.

— cardenal

62

Comenzaremos con dos definiciones:

Una función de densidad de probabilidad (pdf) es una función no negativa que se integra a . $1$
La probabilidad se define como la densidad conjunta de los datos observados en función del parámetro. Pero, como lo señala la referencia a Lehmann hecha por @whuber en un comentario a continuación, la función de probabilidad es una función del parámetro solamente, con los datos mantenidos como una constante fija. Por lo tanto, el hecho de que sea una densidad en función de los datos es irrelevante.

Por lo tanto, la función de probabilidad no es un pdf porque su integral con respecto al parámetro no necesariamente es igual a 1 (y puede no ser integrable en absoluto, en realidad, como lo señala otro comentario de @whuber).

Para ver esto, usaremos un ejemplo simple. Suponga que tiene una sola observación, , de una distribución . Entonces la función de probabilidad es $x$ ${\rm Bernoulli}(\theta)$

L (θ) = θ^{x} (1 - θ)^{1 - x}

$L(\theta) = \theta^{x} (1 - \theta)^{1-x}$

Es un hecho que . Específicamente, si , entonces , entonces $\int_{0}^{1} L(\theta) d \theta = 1/2$ $x = 1$ $L(\theta) = \theta$

\int_{0}^{1} L (θ) d θ = \int_{0}^{1} θ d θ = 1 / 2

$\int_{0}^{1} L(\theta) d \theta = \int_{0}^{1} \theta \ d \theta = 1/2$

y un cálculo similar se aplica cuando . Por lo tanto, no puede ser una función de densidad. $x = 0$ $L(\theta)$

Quizás aún más importante que este ejemplo técnico que muestra por qué la probabilidad no es una densidad de probabilidad es señalar que la probabilidad no es la probabilidad de que el valor del parámetro sea correcto o algo así; es la probabilidad (densidad) de los datos dado el valor del parámetro , que es una cosa completamente diferente. Por lo tanto, no se debe esperar que la función de probabilidad se comporte como una densidad de probabilidad.

— Macro
fuente

12

+1 Un punto sutil es que incluso la aparición de " " en la integral no es parte de la función de probabilidad; Viene de la nada. Entre las muchas maneras de ver esto, considere que una reparametrización no cambia nada esencial sobre la probabilidad, es simplemente un cambio de nombre del parámetro, pero cambiará la integral. Por ejemplo, si parametrizamos las distribuciones de Bernoulli con las probabilidades de registro entonces la integral ni siquiera convergería.

d θ

$d\theta$

ψ = \log (θ / (1 - θ))

$\psi=\log(\theta/(1-\theta))$

— whuber

3

Esa es una forma de decirlo: los MLE son invariables bajo transformaciones monótonas, pero las densidades de probabilidad no lo son, QED. Este fue exactamente el argumento de Fisher, que esbocé en un comentario a la respuesta de @Michael Chernick.

— whuber

44

+1 para el comentario de whuber. ¡La " " no tiene sentido en general porque ni siquiera hay un campo en el espacio de parámetros!

d θ

$d\theta$

σ

$\sigma$

— Stéphane Laurent

1

@PatrickCaldon La única restricción de continuidad está en el cdf, que requiere la continuidad correcta. Necesita esto para que su probabilidad no pase de definido a indefinido y (posiblemente) de nuevo, lo que sería extraño. No estoy 100% seguro, pero creo que mientras tenga su cdf, y por lo tanto, es probable que ni siquiera tenga que ser capaz de resolver . Si puede, eso solo asegura que el RV sea continuo.

\int_{D} f

$\int_D f$

— Joey

1

(+1) ¡Déjame ser el primero en felicitarte por llegar a 10K rep! Buena respuesta; Me gusta el ejemplo que das, en particular. Salud. :)

— cardenal

2

De acuerdo, pero la función de probabilidad es la densidad de probabilidad conjunta de los datos observados dado el parámetro . Como tal, se puede normalizar para formar una función de densidad de probabilidad. Entonces es esencialmente como un pdf. $θ$

— Michael Chernick
fuente

3

Entonces, solo estás señalando que la probabilidad es integrable con respecto al parámetro (¿es eso siempre cierto?). Supongo que puede estar aludiendo a la relación de probabilidad con la distribución posterior cuando se utiliza un prior plano, pero sin más explicaciones, esta respuesta sigue siendo un misterio para mí.

— Macro

66

Integrarse a la unidad no viene al caso. Fisher, en un artículo de 1922 sobre los fundamentos matemáticos de la estadística teórica, observó que, de hecho, la probabilidad de que se pueda "normalizar" para integrarse a la unidad al multiplicarla por una función adecuada modo que . Lo que objetó es la arbitrariedad : hay muchos que funcionan. "... la palabra probabilidad se usa incorrectamente en esa conexión: la probabilidad es una relación de frecuencias, y sobre las frecuencias de tales valores no podemos saber nada".

L (θ)

$L(\theta)$

p (θ)

$p(\theta)$

\int L (θ) p (θ) d θ = 1

$\int L(\theta)p(\theta)d\theta=1$

p

$p$

— whuber

1

@ Néstor (y Michael): parece que Whuber y yo interpretamos esta pregunta como preguntando por qué la probabilidad no es una función de densidad, como una función de $\theta$ por lo que parece que estamos respondiendo diferentes preguntas. Por supuesto, la probabilidad es la función de densidad de las observaciones (dado el valor del parámetro), así es como se define.

— Macro

2

Michael, creo que lo interpretamos de esa manera porque la probabilidad es una función de , entonces, si fuera una densidad, entonces sería una densidad en . Me imagino interpretándolo de la manera que lo has hecho, pero esa posibilidad no se me ocurrió hasta después de leer el comentario de Nestor.

θ

$\theta$

θ

$\theta$

— Macro

44

Creo que la respuesta crea la ambigüedad, pero no está presente en la pregunta. Como señala @Macro, la probabilidad es una función solo del parámetro. ( Por ejemplo , "La densidad , considerada para fija como una función de , se llama función de verosimilitud : EL Lehmann, Teoría de la estimación puntual , sección 6.2 .) por lo tanto, la pregunta es clara en respuesta, entonces, que la "probabilidad es la densidad de probabilidad conjunta" no aclara, pero confunde el asunto..

f (x_{1}, θ) \dots f (x_{n}, θ)

$f(x_1,\theta)\cdots f(x_n,\theta)$

x

$x$

θ

$\theta$

— whuber

1

No soy un estadístico, pero entiendo que si bien la función de probabilidad en sí misma no es un PDF con respecto a los parámetros, está directamente relacionada con ese PDF por la regla de Bayes. La función de probabilidad, P (X | theta), y la distribución posterior, f (theta | X), están estrechamente vinculadas; no es "una cosa completamente diferente" en absoluto.

— santayana
fuente

1

¡Bienvenido a nuestro sitio! Puede encontrar material interesante en los comentarios a otras respuestas en este hilo. Algunos de ellos señalan por qué la Regla de Bayes no se aplica a menos que se introduzca explícitamente maquinaria matemática adicional (como un campo Sigma para el parámetro).

— whuber

Gracias @whuber. No noté ninguna referencia a la Regla de Bayes en otra parte del hilo, pero supongo que hay alusiones en los comentarios, suponiendo que uno tenga la suficiente fluidez en la probabilidad de nivel de posgrado para captarlos (lo cual no estoy haciendo). ¿No estaría de acuerdo en que colocar la función de probabilidad en el contexto de la Regla de Bayes proporciona una intuición útil para la pregunta del OP?

— santayana

La aplicación de la regla de Bayes no es posible sin suponer una distribución de probabilidad para : la distinción entre esa distribución y la distribución de los datos en función de es de lo que se trata casi todo en este hilo. Suponiendo implícitamente que existe, o puede existir, tal distribución es la fuente de la confusión discutida en el hilo de comentarios a la respuesta de Michael Chernick. Por lo tanto, estaría de acuerdo en que una discusión clara y cuidadosa sobre este punto podría ser útil, pero cualquier cosa menos que eso corre el riesgo de crear una mayor confusión.

θ

$\theta$

θ

$\theta$

— whuber

Mis disculpas, a primera vista ese hilo parecía ser poco más que un malentendido, pero ahora veo los comentarios relevantes a los que se refiere, en particular su cita de Fisher. ¿Pero esto no se reduce a un debate bayesiano v. Frequentista? ¿No hay una gran cantidad de practicantes de inferencia bayesiana que argumentarían a favor de una distribución de probabilidad para theta? (si estás de acuerdo con ellos es otro asunto ...)

— santayana 02 de

1

Sí, el debate B vs. F está al acecho aquí. Un frequentist reflexivo utilizará felizmente regla de Bayes cuando existe una base para adoptar una distribución previa para , pero la compañía partes de bayesianos negando que hay que adoptar una previa. Podemos seguir nuestro ejemplo de cómo se formuló esta pregunta. Si en cambio hubiera preguntado "¿por qué se puede tratar la función de probabilidad como un PDF (para los parámetros)", eso habría dirigido esta conversación a lo largo de líneas bayesianas? Pero al preguntarlo negativamente, el OP nos estaba buscando para examinar la probabilidad desde un punto de vista frecuente.

θ

$\theta$

— whuber

1

La probabilidad se define como , donde si f (x; θ) es una función de masa de probabilidad , entonces la probabilidad es siempre menor que uno, pero si f (x; θ) es una función de densidad de probabilidad, entonces la probabilidad puede ser mayor que uno, ya que las densidades pueden ser mayores que uno. $\mathcal{L}(\theta; x_1,...,x_n) = f(x_1,...,x_n; \theta)$

Normalmente, las muestras se tratan iid, luego:
$\mathcal{L}(\theta; x_1,...,x_n) = f(x_1,...,x_n; \theta) = \prod_{j} f(x_j; \theta)$

Veamos su forma original:

Según la inferencia bayesiana, cumple, es decir, . Tenga en cuenta que la estimación de máxima verosimilitud trata la relación de evidencia a anterior como una constante (vea las respuestas a esta pregunta ), lo que omite las creencias anteriores. La probabilidad tiene una correlación positiva con la posterior que se basa en los parámetros estimados. puede ser un pdf pero no lo es, ya que es solo una parte de que es intratable. $f(x_1,...,x_n; \theta) = \frac{f(\theta; x_1,...,x_n) * f(x_1,...,x_n)}{f(\theta)}$ $\hat{\mathcal{L}} = \frac{posterior * evidence}{prior}$ $\hat{\mathcal{L}}$ $\mathcal{L}$ $\mathcal{L}$ $\hat{\mathcal{L}}$

Por ejemplo, no sé la media y la varianza estándar de una distribución gaussiana y quiero obtenerlas entrenando usando muchas muestras de esa distribución. Primero inicializo la varianza media y estándar al azar (que define una distribución gaussiana), y luego tomo una muestra y la ajusto a la distribución estimada y puedo obtener una probabilidad de la distribución estimada. Luego continúo colocando la muestra y obtengo muchas probabilidades y luego multiplico estas probabilidades y obtengo un puntaje. Este tipo de puntuación es la probabilidad. Apenas puede ser una probabilidad de un determinado pdf.

— Lerner Zhang
fuente