La "teoría del muestreo" le dirá que no existe tal estimación. Pero puede obtener uno, solo debe ser razonable con respecto a su información previa y hacer un trabajo matemático mucho más difícil.
Si especificó un método de estimación bayesiano, y el posterior es el mismo que el anterior, puede decir que los datos no dicen nada sobre el parámetro. Debido a que las cosas pueden ponerse "singulares" en nosotros, entonces no podemos usar espacios de parámetros infinitos. Supongo que debido a que usa la correlación de Pearson, tiene una probabilidad normal bivariada:
Qi=(xi-μx)2
p(D|μx,μy,σx,σy,ρ)=(σxσy2π(1−ρ2)−−−−−−−−√)−Nexp(−∑iQi2(1−ρ2))
donde
Qi=(xi−μx)2σ2x+(yi−μy)2σ2y−2ρ(xi−μx)(yi−μy)σxσy
Ahora, para indicar que un conjunto de datos puede tener el mismo valor, escriba , y luego obtenemos:yi=y
s2x=1
∑iQi=N[(y−μy)2σ2y+s2x+(x¯¯¯−μx)2σ2x−2ρ(x¯¯¯−μx)(y−μy)σxσy]
donde
s2x=1N∑i(xi−x¯¯¯)2
Y así su probabilidad depende de cuatro números, . Por lo tanto, desea una estimación de , por lo que debe multiplicar por un previo e integrar los parámetros molestos . Ahora, para preparar la integración, "completamos el cuadrado"
ρ μ x , μ y , σ x , σ y ∑ i Q is2x,y,x¯¯¯,Nρμx,μy,σx,σy
∑iQi1−ρ2=N⎡⎣⎢⎢(μy−[y−(x¯¯¯−μx)ρσyσx])2σ2y(1−ρ2)+s2xσ2x(1−ρ2)+(x¯¯¯−μx)2σ2x⎤⎦⎥⎥
Ahora deberíamos errar por el lado de la precaución y garantizar una probabilidad normalizada adecuadamente. De esa manera no podemos meternos en problemas. Una de esas opciones es usar un previo débilmente informativo, que solo restringe el rango de cada uno. Entonces tenemos para los medios con anterior plano y para las desviaciones estándar con jeffreys anterior. Estos límites son fáciles de establecer con un poco de "sentido común" pensando en el problema. Tomaré un previo no especificado para , y así obtenemos (el uniforme debería funcionar bien, si no trunca la singularidad en ): L σ < σ x , σ y < U σ ρ ± 1Lμ<μx,μy<UμLσ<σx,σy<Uσρ±1
p(ρ,μx,μy,σx,σy)=p(ρ)Aσxσy
Donde . Esto da un posterior de:A=2(Uμ−Lμ)2[log(Uσ)−log(Lσ)]2
p(ρ|D)=∫p(ρ,μx,μy,σx,σy)p(D|μx,μy,σx,σy,ρ)dμydμxdσxdσy
=p(ρ)A[2π(1−ρ2)]N2∫UσLσ∫UσLσ(σxσy)−N−1exp(−Ns2x2σ2x(1−ρ2))×
∫UμLμexp(−N(x¯¯¯−μx)22σ2x)∫UμLμexp⎛⎝⎜⎜−N(μy−[y−(x¯¯¯−μx)ρσyσx])22σ2y(1−ρ2)⎞⎠⎟⎟dμydμxdσxdσy
Ahora la primera integración sobre se puede hacer haciendo un cambio de variables y la primera integral sobre convierte en:μyz=N−−√μy−[y−(x¯¯¯−μx)ρσyσx]σy1−ρ2√⟹dz=N√σy1−ρ2√dμyμy
σy2π(1−ρ2)−−−−−−−−√N−−√⎡⎣⎢Φ⎛⎝⎜Uμ−[y−(x¯¯¯−μx)ρσyσx]σyN√1−ρ2−−−−−√⎞⎠⎟−Φ⎛⎝⎜Lμ−[y−(x¯¯¯−μx)ρσyσx]σyN√1−ρ2−−−−−√⎞⎠⎟⎤⎦⎥
Y puede ver desde aquí que no hay soluciones analíticas posibles. Sin embargo, también vale la pena señalar que el valor no se ha eliminado de las ecuaciones. Esto significa que los datos y la información previa aún tienen algo que decir sobre la verdadera correlación. Si los datos no dicen nada sobre la correlación, entonces simplemente nos quedaríamos con como la única función de en estas ecuaciones.ρp(ρ)ρ
También muestra cómo ese paso al límite de límites infinitos para "desecha" parte de la información sobre , que está contenida en la función CDF normal de aspecto complicado . Ahora, si tiene muchos datos, entonces pasar al límite está bien, no perderá mucho, pero si tiene información muy escasa, como en su caso, es importante mantener cada chatarra que tenga. Significa matemáticas feas, pero este ejemplo no es demasiado difícil de hacer numéricamente. Por lo tanto, podemos evaluar la probabilidad integrada de en valores de digamos bastante facilidad. Simplemente reemplace las integrales por sumas en intervalos lo suficientemente pequeños, para que tenga una suma triple ρ Φ ( . ) ρ - 0.99 , - 0.98 , … , 0.98 , 0.99μyρΦ(.)ρ−0.99,−0.98,…,0.98,0.99