Lo que parece faltar es la historia temprana. Puede consultar el documento de Fienberg (2006) ¿Cuándo la inferencia bayesiana se convirtió en "bayesiana"? . Primero, se da cuenta de que Thomas Bayes fue el primero que sugirió usar un uniforme antes:
En el lenguaje estadístico actual, el artículo de Bayes introduce una distribución previa uniforme en el parámetro binomial, , razonando por analogía con una "tabla de billar" y basándose en la forma de la distribución marginal de la variable aleatoria binomial, y no en el principio de "razón insuficiente", como muchos otros han afirmado.θ
Pierre Simon Laplace fue la siguiente persona en discutirlo:
Laplace también articuló, más claramente que Bayes, su argumento para la elección de una distribución previa uniforme, argumentando que la distribución posterior del parámetro debería ser proporcional a lo que ahora llamamos la probabilidad de los datos, es decir,θ
F( θ ∣ x1, x2, ... , xnorte) ∝ f( x1, x2,... , xnorte∣ θ )
Ahora entendemos que esto implica que la distribución previa de
es uniforme, aunque en general, por supuesto, la anterior puede no existir.θ
Además, Carl Friedrich Gauss también se refirió al uso de un previo poco informativo, como lo señalan David y Edwards (2001) en su libro Lecturas comentadas en la historia de la estadística :
Gauss utiliza un argumento ad hoc de tipo bayesiano para mostrar que la densidad posterior de es proporcional a la probabilidad (en terminología moderna):h
F( h | x ) ∝ f( x | h )
donde ha asumido que se distribuye uniformemente sobre . Gauss no menciona ni Bayes ni Laplace, aunque este último había popularizado este enfoque desde Laplace (1774).h[ 0 , ∞ )
y como observa Fienberg (2006), la "probabilidad inversa" (y lo que sigue, usando antecedentes uniformes) era popular a principios del siglo XIX
[...] Por lo tanto, en retrospectiva, no debería sorprender ver la probabilidad inversa como el método de elección de los grandes estadísticos ingleses del cambio de siglo, como Edgeworth y Pearson. Por ejemplo, Edgeworth (49) dio una de las primeras derivaciones de lo que ahora conocemos como la distribución Student, la distribución posterior de la media de una distribución normal dada distribuciones previas uniformes en y [...]tμμh = σ- 1
Stigler (1986) también revisa la historia temprana del enfoque bayesiano en su libro La historia de las estadísticas: la medición de la incertidumbre antes de 1900 .
En su breve reseña tampoco parece mencionar a Ronald Aylmer Fisher (nuevamente citado después de Fienberg, 2006):
Fisher se alejó de los métodos inversos y se dirigió hacia su propio enfoque de inferencia que llamó la "probabilidad", un concepto que, según él, era distinto de la probabilidad. Pero la progresión de Fisher en este sentido fue lenta. Stigler (164) ha señalado que, en un manuscrito inédito que data de 1916, Fisher no distinguió entre probabilidad y probabilidad inversa con un plano anterior, aunque cuando más tarde hizo la distinción afirmó haber entendido en este momento.
Jaynes (1986) proporcionó su propio artículo de revisión breve Bayesian Methods: General Background. Un tutorial introductorio que puede consultar, pero que no se centra en los antecedentes no informativos. Además, como señaló AdamO , definitivamente debería leer The Epic Story of Maximum Likelihood de Stigler (2007).
También vale la pena mencionar que no existe un "previo no informativo" , por lo que muchos autores prefieren hablar de "anteriores imprecisos" o "anteriores informativos semanales" .
Kass y Wasserman (1996) proporcionan una revisión teórica en La selección de distribuciones previas por reglas formales , quienes entran en mayor detalle sobre la elección de priors, con una discusión extendida sobre el uso de priors no informativos.