¿Cuál es la razón por la que una función de probabilidad no es un pdf (función de densidad de probabilidad)?
¿Cuál es la razón por la que una función de probabilidad no es un pdf (función de densidad de probabilidad)?
Respuestas:
Comenzaremos con dos definiciones:
Una función de densidad de probabilidad (pdf) es una función no negativa que se integra a .
La probabilidad se define como la densidad conjunta de los datos observados en función del parámetro. Pero, como lo señala la referencia a Lehmann hecha por @whuber en un comentario a continuación, la función de probabilidad es una función del parámetro solamente, con los datos mantenidos como una constante fija. Por lo tanto, el hecho de que sea una densidad en función de los datos es irrelevante.
Por lo tanto, la función de probabilidad no es un pdf porque su integral con respecto al parámetro no necesariamente es igual a 1 (y puede no ser integrable en absoluto, en realidad, como lo señala otro comentario de @whuber).
Para ver esto, usaremos un ejemplo simple. Suponga que tiene una sola observación, , de una distribución . Entonces la función de probabilidad esB e r n o u l l i ( θ )
Es un hecho que . Específicamente, si , entonces , entonces
y un cálculo similar se aplica cuando . Por lo tanto, no puede ser una función de densidad.
Quizás aún más importante que este ejemplo técnico que muestra por qué la probabilidad no es una densidad de probabilidad es señalar que la probabilidad no es la probabilidad de que el valor del parámetro sea correcto o algo así; es la probabilidad (densidad) de los datos dado el valor del parámetro , que es una cosa completamente diferente. Por lo tanto, no se debe esperar que la función de probabilidad se comporte como una densidad de probabilidad.
De acuerdo, pero la función de probabilidad es la densidad de probabilidad conjunta de los datos observados dado el parámetro . Como tal, se puede normalizar para formar una función de densidad de probabilidad. Entonces es esencialmente como un pdf.
No soy un estadístico, pero entiendo que si bien la función de probabilidad en sí misma no es un PDF con respecto a los parámetros, está directamente relacionada con ese PDF por la regla de Bayes. La función de probabilidad, P (X | theta), y la distribución posterior, f (theta | X), están estrechamente vinculadas; no es "una cosa completamente diferente" en absoluto.
La probabilidad se define como , donde si f (x; θ) es una función de masa de probabilidad , entonces la probabilidad es siempre menor que uno, pero si f (x; θ) es una función de densidad de probabilidad, entonces la probabilidad puede ser mayor que uno, ya que las densidades pueden ser mayores que uno.
Normalmente, las muestras se tratan iid, luego:
Veamos su forma original:
Según la inferencia bayesiana, cumple, es decir, . Tenga en cuenta que la estimación de máxima verosimilitud trata la relación de evidencia a anterior como una constante (vea las respuestas a esta pregunta ), lo que omite las creencias anteriores. La probabilidad tiene una correlación positiva con la posterior que se basa en los parámetros estimados. puede ser un pdf pero no lo es, ya que es solo una parte de que es intratable.
Por ejemplo, no sé la media y la varianza estándar de una distribución gaussiana y quiero obtenerlas entrenando usando muchas muestras de esa distribución. Primero inicializo la varianza media y estándar al azar (que define una distribución gaussiana), y luego tomo una muestra y la ajusto a la distribución estimada y puedo obtener una probabilidad de la distribución estimada. Luego continúo colocando la muestra y obtengo muchas probabilidades y luego multiplico estas probabilidades y obtengo un puntaje. Este tipo de puntuación es la probabilidad. Apenas puede ser una probabilidad de un determinado pdf.