Calcular la expectativa matemática del coeficiente de correlación o en regresión lineal


8

Estoy volviendo a publicar una pregunta de math.stackexchange.com , creo que la respuesta actual en math.se no es correcta.

Seleccione números de un conjunto \ {1,2, ..., U \} , y_i es el número i seleccionado, y x_i es el rango de y_i en los n números. La selección es sin reemplazo. n es siempre menor que T . El rango es el orden del número a después de que los n números se ordenan en orden ascendente.n{1,2,...,U}yiixiyinnUn

Podemos obtener n puntos de datos (x1,y1),(x2,y2),...,(xn,yn) , y se puede encontrar una mejor línea de ajuste para estos puntos de datos por regresión lineal. rxy (coeficiente de correlación) es la bondad de la línea de ajuste, quiero calcular E(rxy) o E(rxy2) (correlación de determinación) .

Si no se puede calcular el E[rxy] , una estimación o límite inferior todavía está bien.

Actualizado: Al calcular el coeficiente de correlación de la muestra utilizando datos generados aleatoriamente, podemos ver que rxy está bastante cerrado a 1, por lo que quiero probarlo desde el punto de vista teórico, o teóricamente decir que los datos generados por el método anterior son muy lineal.

Actualizado: ¿Es posible obtener la distribución del coeficiente de correlación de la muestra?


Por favor, publique un enlace a la pregunta de matemáticas. Por lo general, no es bueno realizar una publicación cruzada a menos que haya transcurrido un tiempo considerable.
cardenal

¿Se puede seleccionar el mismo número dos veces? ¿Es n menor o mayor que U?
Nick Sabbe

1
Aquí está la pregunta anterior sobre matemáticas. SE
cardenal

@Nick Sabbe La selección no tiene reemplazo. n siempre es más pequeño que U.
Fan Zhang

1
@Fan Las técnicas aplicables incluirían formas cuadráticas en variables aleatorias ( stats.stackexchange.com/questions/9220 ), el "método delta" para estimar momentos de funciones de variables aleatorias; distribuciones de estadísticas de pedidos para variables uniformes; la relación entre las diferencias entre las variables uniformes y la distribución exponencial y, posiblemente, incluso los métodos Saddlepoint, aproximaciones normales, Teorema del límite central, etc.
whuber

Respuestas:


1

Reorganizar el problema en términos de nuevas variables, de manera que . Luego tenemos , como señaló @whuber en los comentarios. Por lo tanto, está regresando efectivamente en , y . Por lo tanto, si podemos resolver la distribución marginal para , y mostrar que es básicamente lineal en el problema está solucionado y tendremos .1z1<z2<<znU(xi,yi)=(xi,zxi)zjjrxy=rxzzjjrxy1

Primero necesitamos la distribución conjunta para . Esto es bastante simple, después de que tiene la solución, pero descubrí que no era sencillo antes de hacer los cálculos. Solo una breve lección sobre cómo hacer que las matemáticas valgan la pena, por lo que presentaré primero las matemáticas y luego la respuesta fácil.z1,,zn

Ahora, la distribución conjunta original es . Las variables cambiantes simplemente vuelven a etiquetar las cosas para probabilidades discretas, por lo que la probabilidad sigue siendo constante. Sin embargo, el etiquetado no es 1 a 1, por lo que no podemos simplemente escribir . En cambio, tenemosp(y1,,yn)1p(z1,,zn)=(Un)!U!

p(z1,,zn)=1C1z1<z2<<znU

Y podemos encontrar por normalización C

C=zn=nUzn1=n1zn1z2=2z31z1=1z21(1)=zn=nUzn1=n1zn1z2=2z31(z21)
=zn=nUzn1=n1zn1z3=2z41(z31)(z32)2=zn=nUz4=4z51(z41)(z42)(z43)(2)(3)
=zn=nUzn1=n1zn1zj=jzj+11(zj1j1)=(Un)

Lo que muestra que la relación de reetiquetado es igual a - para cada hay valores. Tiene sentido porque cualquier permutación de las en conduce al mismo conjunto de valores clasificados . Ahora, la distribución marginal , repetimos anteriormente pero con la suma sobre caída, y un rango diferente de suma para el resto, es decir, los mínimos cambian de a , y obtenemos:(Un)!U!(Un)=1n!(z1,,zn)n! (y1,,yn)yiziz1z1(2,,n)(z1+1,,z1+n1)

p(z1)=zn=z1+n1Uzn1=z1+n2zn1z2=z1+1z31p(z1,z2,,zn)=(Uz1n1)(Un)

Con soporte . Esta forma, combinada con un poco de intuición, muestra que la distribución marginal de cualquier puede por:z1{1,2,,U+1n}zj

  1. elegir valores por debajo de , lo que se puede hacer de (si );j1zj(zj1j1)zjj
  2. eligiendo el valor , que se puede hacer de 1 manera; yzj
  3. elegir valores por encima de que se puede hacer de (si )njzj(Uzjnj)zjU+jn

Este método de razonamiento se generalizará con esfuerzo a distribuciones conjuntas, como (que puede usarse para calcular el valor esperado de la covarianza de la muestra si lo desea). Por lo tanto tenemos:p(zj,zk)

p(zj)=(zj1j1)(Uzjnj)(Un)jzjU+jnp(zj,zk)=(zj1j1)(zkzj1kj1)(Uzknk)(Un)jzjzk+jkU+jn

Ahora el marginal es el pdf de una distribución hipergeométrica negativa con parámetros (en términos de la notación del artículo). Ahora esto es claro, no lineal exactamente en , pero la expectativa marginal para esk=j,r=n,N=Ujzj

E(zj)=jU+1n+1

De hecho, esto es lineal en , y cabría esperar un coeficiente beta de partir de la regresión y la intersección de cero.jU+1n+1

ACTUALIZAR

Paré mi respuesta un poco antes. Ahora he completado con suerte una respuesta más completa

Dejar y , el cuadrado esperado de La covarianza muestral entre y viene dada por:j¯=n+12z¯=1nj=1nzjjzj

E[sxz2]=E[1nj=1n(jj¯)(zjz¯)]2
=1n2[j=1n(jj¯)2E(zj2)+2k=2nj=1k1(jj¯)(kj¯)E(zjzk)]

Entonces necesitamos , donde y (usando la fórmula en el archivo pdf). Entonces la primera suma se convierteE(zj2)=V(zj)+E(zj)2=Aj2+BjA=(U+1)(U+2)(n+1)(n+2)B=(U+1)(Un)(n+1)(n+2)

j=1n(jj¯)2E(zj2)=j=1n(j22jj¯+j¯2)(Aj2+Bj)
=n(n1)(U+1)120(U(2n+1)+(3n1))

También necesitamos . E(zjzk)=E[zj(zkzj)]+E(zj2)

E[zj(zkzj)]=zk=kU+knzj=jzk+jkzj(zkzj)p(zj,zk)
=j(kj)zk=kU+knzj=jzk+jk(zjj)(zkzjkj)(Uzknk)(Un)=j(kj)zk=kU+kn(zk+1k+1)(U+1(zk+1)nk)(Un)
=j(kj)(U+1n+1)(Un)=j(kj)U+1n+1
E(zjzk)=jkU+1n+1+j2(U+1)(Un)(n+1)(n+2)+j(U+1)(Un)(n+1)(n+2)

Y la segunda suma es:

2k=2nj=1k1(jj¯)(kj¯)E(zjzk)
=n(U+1)(n1)720(n+2)(6(Un)(n32n29n2)+(n+2)(5n324n235n+6))

Entonces, después de algunas manipulaciones bastante tediosas, obtienes el valor esperado de la covarianza al cuadrado de:

E[sxz2]=(n1)(n2)U(U+1)120(U+1)(n1)(n3+2n2+11n+22)720(n+2)

Ahora si tenemos , entonces el primer término domina, ya que es , mientras que el segundo término es . Podemos mostrar que el término dominante está bien aproximado por , y tenemos otra razón teórica por la cual la correlación de Pearson está muy cerca de (más allá del hecho de que ).U>>nO(U2n2)O(Un3)E[sx2sz2]1E(zj)j

Ahora la varianza muestral esperada de es solo la varianza muestral, que es . La varianza de muestra esperada para viene dada por:jsx2=1nj=1n(jj¯)2=(n+1)(n1)12zj

E[sz2]=E[1nj=1n(zjz¯)2]=1nj=1nE(zj2)[1nj=1nE(zj)]2
=A(n+1)(2n+1)6+B(n+1)2(U+1)24
=(U+1)(U1)12

Combinando todo junto y notando que , tenemos:E[sx2sz2]=sx2E[sz2]

E[sx2sz2]=(n+1)(n1)(U+1)(U1)144(n1)(n2)U(U+1)120E[sxz2]

Que es aproximadamente lo mismo queE[rxz2]1


Entiendo su respuesta, y mi pregunta es cómo obtener la expectativa del coeficiente de correlación de su estado actual.
Fan Zhang

Lamento haber visto la respuesta hoy. Una cosa creo que debería aclararse por qué cuando , entonces . E[sx2sz2]E[sxz2]E[rxz2]1
Fan Zhang

Creo que el último paso está mal. E [X / Y] no es igual a E [X] / E [Y].
Fan Zhang

@FanZhang: el último paso es aproximadamente correcto. Esto se debe a que podemos expandir al primer orden sobre . Y obtenemos . Debido a que para cualquier variable aleatoria cuya expectativa exista, obtenemos . g(X,Y)=XY(E[X],E[Y])XYE[X]E[Y]+(XE[X])1E[Y](YE[Y])E[X]E[Y]2E(XE[X])=0E(XY)E[X]E[Y]
probabilidadislogica

Gracias. ¿Y cómo se llama este tipo de aproximación?
Fan Zhang

3

Si sólo desea mostrar debe ser cercano a 1, y calcular un límite inferior para ello, es sencillo, porque eso significa que para determinado y sólo es necesario para maximizar la varianza de los residuos. Esto se puede hacer exactamente de cuatro maneras simétricas. Los dos extremos (correlaciones más bajas y más altas posibles) se ilustran para .rxy2UnU=20,n=9

Gráficos de correlación extrema para U = 20, n = 9

Para valores grandes de y valores apropiados de , realidad puede acercarse a 0. Por ejemplo, con y valores muy grandes de , En el peor de los casos.Unrxy2n=100Unrxy20.03


Entonces, estamos tratando de mostrar que está cerca de 1 (o que podemos esperar encontrar casi una línea recta) [Estoy trabajando en este problema con Zhang Fan]. Si bien malo en algunos casos, debería haber relativamente pocos de estos casos. Por lo tanto, una esperanza para resolver este problema es el número de casos en los que, por ejemplo, (o algún otro límite). E(rxy2)rxy2rxy20.99
Douglas S. Stones

Espero que 0.99 sea un límite razonable a considerar. Por ejemplo, si calculamos algunos ejemplos en R, podemos obtener consistentemente cor (x, y) que están muy cerca de 1. Por ejemplo, 0.9994561 es un resultado típico devuelto por: m <- 10 ^ 5; n <-10 ^ 3; lista <- muestra (1: m, tamaño = n, reemplazar = FALSO); lista <- ordenar (lista); cor (lista, 1: n);
Douglas S. Stones

@ Douglas Eso sugiere lo que podría ser una simplificación considerable: al tomar un objetivo como 0.99, puede convertir la proporción de formas cuadráticas que aparecen en en una diferencia (al borrar el denominador) y luego investigar la posibilidad de que el La diferencia es positiva. Entonces, ahora está viendo la distribución de una forma cuadrática bajo permutaciones uniformemente aleatorias: ese es un problema accesible. rxy2
whuber

@Douglas, @Fan También podemos hacer algunas heurísticas: asintóticamente, se verá uniforme, indicando como . Considere la estadística Kolmogorov-Smirnov , por ejemplo: usar eso como un límite superior para los residuos muestra que es proporcional a una sobreestimación (bruta) de . Por lo tanto, al menos tan rápido como . yir21UD1r2r21D0
whuber

@whuber ¿Tiene una descripción más detallada sobre la estadística D de Kolmogorov-Smirnov?
Fan Zhang
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.