Respuesta corta
La densidad de probabilidad de una variable distribuida gaussiana multivariada , con media está relacionada con el cuadrado del euclídeo distancia entre la media y la variable ( ), o en otras palabras, la suma de los cuadrados.x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μ−x|22
Respuesta larga
Si multiplica múltiples distribuciones gaussianas para sus errores, donde asume desviaciones iguales, entonces obtiene una suma de cuadrados.n
L(μj,xij)=P(xij|μj)=∏ni=112πσ2√exp[−(xij−μi)22σ2]=(12πσ2√)nexp[−∑ni=1(xij−μi)22σ2]
o en la forma logarítmica conveniente:
log(L(μj,xij))=nlog(12πσ2−−−−√)−12σ2∑i=1n(xij−μj)2
Entonces, optimizar la para minimizar la suma de los cuadrados es igual a maximizar la probabilidad (log) (es decir, el producto de múltiples distribuciones gaussianas o la distribución gaussiana multivariada).μ
Es este cuadrado anidado de la diferencia dentro de la estructura exponencial, , que otras distribuciones no tienen.(μ−x)exp[(xi−μ)2]
Compare, por ejemplo, con el caso de las distribuciones de Poisson
log(L)=log(∏μxijjxij!exp[−μj])=−∑μj−∑log(xij!)+∑log(μj)xij
que tiene un máximo cuando se minimiza lo siguiente:
∑μj−log(μj)xij
que es una bestia diferente
Además (historia)
La historia de la distribución normal (ignorando que deMoivre llega a esta distribución como una aproximación a la distribución binomial) es en realidad como el descubrimiento de la distribución que hace que el MLE corresponda al método de mínimos cuadrados (en lugar de que el método de mínimos cuadrados sea un método que puede expresar el MLE de la distribución normal, primero vino el método de mínimos cuadrados, segundo vino la distribución gaussiana)
Tenga en cuenta que a Gauss, al conectar el 'método de máxima verosimilitud' con el 'método de mínimos cuadrados', se le ocurrió la 'distribución gaussiana', , como la única distribución de errores que nos lleva a Haga esta conexión entre los dos métodos.e−x2
De la traducción de Charles Henry Davis (Teoría del movimiento de los cuerpos celestes que se mueven alrededor del sol en secciones cónicas. Una traducción del "Motivo Theoria" de Gauss, con un apéndice) ...
Gauss define:
Por consiguiente, la probabilidad de ser asignada a cada error se expresará mediante una función de que denotaremos por .ΔΔψΔ
(Cursiva hecha por mí)
Y continúa ( en la sección 177 pp. 258 ):
... de donde se deduce fácilmente que debe ser una cantidad constante. que denotaremos por . Por lo tanto, tenemos denota la base de los logaritmos hiperbólicos por y suponiendoψ′ΔΔklog ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
eConstant=logx
terminando (después de la normalización y realizando ) enk<0
ψΔ=hπ−−√e−hhΔΔ
Escrito por StackExchangeStrike