Realmente es solo una conveniencia para loglikelihood, nada más.
Me refiero a la conveniencia de las sumas frente a los productos: , las sumas son más fáciles de manejar en muchos aspectos, como la diferenciación o la integración. No es una conveniencia solo para familias exponenciales, estoy tratando de decir.En( ∏yoXyo) = ∑yoEnXyo
Cuando se trata de una muestra aleatoria, las probabilidades son de la forma: , por lo que la probabilidad de rotura dividiría este producto en la suma, que es más fácil de manipular y analizar. Ayuda que lo único que nos importa es el punto del máximo, el valor en el máximo no es importante, sí podemos aplicar cualquier transformación monótona como el logaritmo.L = ∏yopagyo
En la intuición curvatura. Es básicamente lo mismo al final que la segunda derivada de loglikelihood.
ACTUALIZACIÓN: Esto es lo que quise decir sobre la curvatura. Si tiene una función , entonces su curvatura sería ( ver (14) en Wolfram):
y= f( x )
κ = f′ ′(x)(1+f′(x)2)3 /2
La segunda derivada de la probabilidad de registro:
A = ( lnF( x ) )′ ′= f′ ′( x )F( x )- ( f′( x )F( x ))2
En el punto del máximo, la primera derivada es obviamente cero, por lo que obtenemos:
Por lo tanto, mi sugerencia es que la curvatura de la verosimilitud y la segunda derivada de verosimilitud son lo mismo, más o menos.
κm a x= f′ ′(xmax)=Af(xmax)
Por otro lado, si la primera derivada de probabilidad es pequeña, no solo en el punto máximo, sino alrededor del mismo, es decir, la función de probabilidad es plana, entonces obtenemos:
Ahora la probabilidad plana no es algo bueno para nosotros, porque hace que encontrar el máximo sea numéricamente más difícil, y la probabilidad máxima no es tan mejor que otros puntos a su alrededor, es decir, los errores de estimación de parámetros son altos.
κ ≈ f′ ′( x ) ≈ A f( x )
Y nuevamente, todavía tenemos la curvatura y la segunda relación derivada. Entonces, ¿por qué Fisher no miró la curvatura de la función de probabilidad? Creo que es por la misma razón de conveniencia. Es más fácil manipular la probabilidad debido a las sumas en lugar del producto. Entonces, podría estudiar la curvatura de la probabilidad analizando la segunda derivada de la probabilidad. Aunque la ecuación parece muy simple para la curvatura , en realidad está tomando una segunda derivada del producto, que es más desordenada que la suma de las segundas derivadas.κm a x= f′ ′( xm a x)
ACTUALIZACIÓN 2:
Aquí hay una demostración. Dibujo una función de probabilidad (completamente inventada), es a) curvatura yb) la segunda derivada de su registro. En el lado izquierdo se ve la probabilidad estrecha y en el lado derecho es ancha. Usted ve cómo en el punto de máxima probabilidad a) yb) convergen, como deberían. Sin embargo, lo que es más importante, puede estudiar el ancho (o planitud) de la función de probabilidad examinando la segunda derivada de su log-verosimilitud. Como escribí antes, este último es técnicamente más simple que el primero para analizar.
No es sorprendente que la segunda derivada más profunda de las señales de loglikelihood haya una función de probabilidad más plana alrededor de su máximo, lo que no es deseable porque causa un error de estimación de parámetro mayor.
Código MATLAB en caso de que quiera reproducir las tramas:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
ACTUALIZACIÓN 3:
En el código anterior, conecté alguna función arbitraria en forma de campana en la ecuación de curvatura, luego calculé la segunda derivada de su registro. No volví a escalar nada, los valores son directamente de las ecuaciones para mostrar la equivalencia que mencioné anteriormente.
Aquí está el primer artículo sobre la probabilidad que Fisher publicó mientras estaba en la universidad, "Sobre un criterio absoluto para ajustar curvas de frecuencia", Messenger of Mathmatics, 41: 155-160 (1912)
Como insistí todo el tiempo, no menciona ninguna conexión "más profunda" de probabilidades de registro con la entropía y otros temas sofisticados, ni ofrece su criterio de información todavía. Simplemente coloca la ecuación en la p.54 y luego continúa hablando de maximizar las probabilidades. En mi opinión, esto muestra que estaba usando el logaritmo solo como un método conveniente para analizar las probabilidades conjuntas. Es especialmente útil en el ajuste continuo de curvas, para el cual da una fórmula obvia en p.55:
Buena suerte analizando esta probabilidad (o probabilidad según Fisher) sin el registro!log P = ∫Iniciar sesiónPAG′= ∑norte1Iniciar sesiónpag
Iniciar sesiónPAG= ∫∞- ∞Iniciar sesiónFreX
PAG
Una cosa a tener en cuenta al leer el documento: solo estaba comenzando con el trabajo de estimación de máxima probabilidad, e hizo más trabajo en los siguientes 10 años, por lo que incluso el término MLE aún no se acuñó, por lo que sé.