La respuesta depende de si se trata de variables aleatorias discretas o continuas. Entonces, dividiré mi respuesta en consecuencia. Asumiré que desea algunos detalles técnicos y no necesariamente una explicación en inglés simple.
Variables aleatorias discretas
Suponga que tiene un proceso estocástico que toma valores discretos (p. Ej., Resultados de lanzar una moneda 10 veces, número de clientes que llegan a una tienda en 10 minutos, etc.). En tales casos, podemos calcular la probabilidad de observar un conjunto particular de resultados haciendo suposiciones adecuadas sobre el proceso estocástico subyacente (p. Ej., La probabilidad de que las cabezas caigan monedas es y que los lanzamientos de monedas son independientes).p
Denote los resultados observados por y el conjunto de parámetros que describen el proceso estocástico como . Por lo tanto, cuando hablamos de probabilidad, queremos calcular . En otras palabras, dado valores específicos para , es la probabilidad de que se podría observar los resultados representados por .OθP(O|θ)θP(O|θ)O
Sin embargo, cuando modelamos un proceso estocástico de la vida real, a menudo no conocemos . Simplemente observamos y el objetivo, entonces, para llegar a una estimación de que sería una opción plausible, dado los resultados observados . Sabemos que dado un valor de la probabilidad de observar es . Por lo tanto, un proceso de estimación 'natural' es elegir que el valor de que maximizaría la probabilidad de que nos observan efectivamente . En otras palabras, encontramos los valores de los parámetros que maximizan la siguiente función:θOθOθOP(O|θ)θOθ
L(θ|O)=P(O|θ)
L(θ|O) se llama función de verosimilitud. Observe que, por definición, la función de probabilidad está condicionada por el observado y que es una función de los parámetros desconocidos .Oθ
Variables aleatorias continuas
En el caso continuo, la situación es similar con una diferencia importante. Ya no podemos hablar de la probabilidad de que observemos dado porque en el caso continuo . Sin entrar en tecnicismos, la idea básica es la siguiente:OθP(O|θ)=0
Denote la función de densidad de probabilidad (pdf) asociada con los resultados como: . Por lo tanto, en el caso continuo, estimamos resultados observados maximizando la siguiente función:Of(O|θ)θO
L(θ|O)=f(O|θ)
En esta situación, no podemos afirmar que técnicamente estamos encontrando el valor del parámetro que maximiza la probabilidad de que observamos al maximizar el PDF asociado con los resultados observados .OO