Suponga en general que decidió tomar un modelo del formulario
P(y=1|X=x)=h(x;Θ)
para algún parámetro . Luego, simplemente escriba la probabilidad de ello, es decirΘ
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0P(y=0|x=x;Θ)
que es lo mismo que
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0(1−P(y=1|x=x;Θ))
Ahora ha decidido 'asumir' (modelo)
P(y=1|X=x)=σ(Θ0+Θ1x)
donde
σ(z)=1/(1+e−z)
así que solo calcule la fórmula para la probabilidad y realice algún tipo de algoritmo de optimización para encontrar el , por ejemplo, el método newtons o cualquier otro método basado en gradiente.argmaxΘL(Θ)
Tenga en cuenta que a veces, las personas dicen que cuando están haciendo una regresión logística no maximizan una probabilidad (como lo hicimos nosotros / usted anteriormente) sino que minimizan una función de pérdida
l(Θ)=−∑i=1Nyilog(P(Yi=1|X=x;Θ))+(1−yi)log(P(Yi=0|X=x;Θ))
pero observe que .−log(L(Θ))=l(Θ)
Este es un patrón general en el aprendizaje automático: el lado práctico (que minimiza las funciones de pérdida que miden cuán 'incorrecto' es un modelo heurístico) es, de hecho, igual al 'lado teórico' (modelado explícito con el símbolo , maximizando cantidades estadísticas como verosimilitudes) y, de hecho, muchos modelos que no se parecen a los probabilísticos (SVM, por ejemplo) pueden reunirse en un contexto probabilístico y, de hecho, son maximizaciones de probabilidades.P