La función de probabilidad se define independientemente de o antes de el paradigma estadístico que se usa para la inferencia, como una función, (o ), del parámetro , la función eso depende de o está indexado por las observaciones disponibles para esta inferencia. Y también implícitamente dependiendo de la familia de modelos de probabilidad elegidos para representar la variabilidad o aleatoriedad en los datos. Para un valor dado del par , el valor de esta función es exactamente idéntico al valor de la densidad del modelo en−−L(θ;x)L(θ|x)θ−−x(θ,x)xcuando se indexa con el parámetro . θQue a menudo se traduce toscamente como la "probabilidad de los datos".
Para citar más fuentes autorizadas e históricas que una respuesta anterior en este foro,
"Podemos discutir la probabilidad de ocurrencia de cantidades que pueden observarse ... en relación con cualquier hipótesis que pueda sugerirse para explicar estas observaciones. No podemos saber nada de la probabilidad de hipótesis ... [Podemos] determinar la probabilidad de hipótesis ... mediante el cálculo de las observaciones: ... hablar de la probabilidad ... de una cantidad observable no tiene sentido ". RA Fisher, sobre el `` error probable '' de un coeficiente de correlación deducido de una muestra pequeña . Metron 1, 1921, p.25
y
"Lo que podemos encontrar en una muestra es la probabilidad de cualquier valor particular de r, si definimos la probabilidad como una cantidad proporcional a la probabilidad de que, de una población que tenga el valor particular de r, una muestra tenga el valor observado de r , debe ser obtenido ". RA Fisher, sobre el `` error probable '' de un coeficiente de correlación deducido de una muestra pequeña . Metron 1, 1921, p.24
que menciona una proporcionalidad que Jeffreys (y yo) encontramos superfluo:
"... probabilidad, un término conveniente introducido por el profesor RA Fisher, aunque en su uso a veces se multiplica por un factor constante. Esta es la probabilidad de que las observaciones den la información original y la hipótesis en discusión". H. Jeffreys, Teoría de la probabilidad , 1939, p.28
Para citar solo una oración de la excelente entrada histórica al tema de John Aldrich (Statistical Science, 1997):
"Fisher (1921, p. 24) volvió a redactar lo que había escrito en 1912 sobre probabilidad inversa, distinguiendo entre las operaciones matemáticas que se pueden realizar sobre densidades de probabilidad y probabilidades: la probabilidad no es un" elemento diferencial ", no puede integrarse ". J. Aldrich, RA Fisher y la creación de la máxima probabilidad 1912-1922 , 1997 , p.9
Al adoptar un enfoque bayesiano, la función de probabilidad no cambia de forma ni de naturaleza. Sigue siendo la densidad en indexada por . La característica adicional es que, ya que también está dotado de un modelo probabilístico, la distribución a priori, la densidad en indexados por también puede ser interpretada como un condicional densidad, condicionada a una realización de : en un modelado Bayesiano , una realización de se produce a partir de la anterior, con densidad , luego una realización de ,xθθxθθθπ(⋅)Xx, se produce a partir de la distribución con densidad , indexada por . En otras palabras, y con respecto a la medida dominante adecuada, el par tiene una densidad conjunta
de la que se deriva la densidad posterior de , es decir, la densidad condicional de , condicional en la realización de como
también expresada como
encontrado desde Jeffreys (1939) .L(θ|⋅)θ(θ,x)
π(θ)×L(θ|x)
θθxπ(θ|x)∝π(θ)×L(θ|x)
posterior∝prior×likelihood
Nota: Encuentro que la distinción hecha en la introducción de la página de Wikipedia sobre las funciones de probabilidad entre las probabilidades bayesianas y frecuentistas es confusa e innecesaria, o simplemente errónea, ya que la gran mayoría de los estadísticos bayesianos actuales no usa la probabilidad como un sustituto de la probabilidad posterior. De manera similar, la "diferencia" señalada en la página de Wikipedia sobre el Teorema de Bayes suena más confusa que cualquier otra cosa, ya que este teorema es una declaración de probabilidad sobre un cambio de condicionamiento, independiente del paradigma o del significado de una declaración de probabilidad. (¡ En mi opinión , es más una definición que un teorema!)