El punto es que a veces, diferentes modelos (para los mismos datos) pueden conducir a funciones de probabilidad que difieren en una constante multiplicativa, pero el contenido de la información debe ser claramente el mismo. Un ejemplo:
Modelamos experimentos independientes de Bernoulli, que conducen a datos , cada uno con una distribución de Bernoulli con el parámetro (probabilidad) . Esto lleva a la función de probabilidad
O podemos resumir los datos por la variable binomialmente distribuida , que tiene una distribución binomial, lo que lleva a la función de probabilidad
que, como función del parámetro desconocido , es proporcional a la función de probabilidad anterior . ¡Las dos funciones de probabilidad contienen claramente la misma información, y deberían conducir a las mismas inferencias!nX1,…,Xnp∏i=1npxi(1−p)1−xi
Y=X1+X2+⋯+Xn(ny)py(1−p)n−y
p
Y de hecho, por definición, se consideran la misma función de probabilidad.
Otro punto de vista: observe que cuando las funciones de probabilidad se usan en el teorema de Bayes, según sea necesario para el análisis bayesiano, ¡esas constantes multiplicativas simplemente se cancelan! entonces son claramente irrelevantes para la inferencia bayesiana. Del mismo modo, se cancelará al calcular las razones de probabilidad, como se usa en las pruebas de hipótesis óptimas (lema de Neyman-Pearson). Y no tendrá influencia en el valor de los estimadores de máxima probabilidad. Entonces podemos ver que en gran parte de la inferencia frecuentista no puede jugar un papel.
Podemos discutir desde otro punto de vista. La función de probabilidad de Bernoulli (de aquí en adelante usamos el término "densidad") es realmente una densidad con respecto a la medida de conteo, es decir, la medida en los enteros no negativos con masa uno para cada entero no negativo. Pero podríamos haber definido una densidad con respecto a alguna otra medida dominante. En este ejemplo, esto parecerá (y es) artificial, pero en espacios más grandes (espacios de función) ¡es realmente fundamental! Usemos, con fines ilustrativos, la distribución geométrica específica, escrita , con , , y pronto. Luego, la densidad de la distribución de Bernoulli con respecto aλλ(0)=1/2λ(1)=1/4λ(2)=1/8λf λ ( x ) = p x ( 1 - p ) 1 - x ⋅ 2 x + 1 P ( X = x ) = f λ ( x ) ⋅ λestá dado por
lo que significa que
Con esta nueva medida dominante, la función de probabilidad se convierte (con notación desde arriba)
tenga en cuenta el factor adicional . Entonces, al cambiar la medida dominante utilizada en la definición de la función de verosimilitud, surge una nueva constante multiplicativa, que no depende del parámetro desconocidofλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i=1npxi(1−p)1−xi2xi+1=py(1−p)n−y2y+n
2y+np, y es claramente irrelevante. Esa es otra forma de ver cómo las constantes multiplicativas deben ser irrelevantes. Este argumento puede generalizarse utilizando derivados de Radon-Nikodym (como el argumento anterior es un ejemplo de).