Ha habido cierta confusión en mi cabeza acerca de dos tipos de estimadores del valor poblacional del coeficiente de correlación de Pearson.
A. Fisher (1915) mostró que para la población normal bivariada, empírico es un estimador de sesgado negativamente , aunque el sesgo puede ser de una cantidad prácticamente considerable solo para muestras pequeñas ( ). La muestra subestima en el sentido de que está más cerca de que . (Excepto cuando este último es o , porque entonces es imparcial). Se han propuesto varios estimadores casi imparciales de , el mejor probablemente sea Olkin y Pratt (1958)ρ n < 30 r ρ 0 ρ 0 ± 1 r corregido :
B. Se dice que en la regresión observada sobreestima la R-cuadrado de la población correspondiente. O, con una regresión simple, es que sobreestima . En base a ese hecho, he visto muchos textos que dicen que está sesgado positivamente en relación con , lo que significa un valor absoluto: está más lejos de que (¿es esa afirmación verdadera?). Los textos dicen que es el mismo problema que la sobreestimación del parámetro de desviación estándar por su valor de muestra. Existen muchas fórmulas para "ajustar" observado más cerca de su parámetro de población, Wherry's (1931)r 2 ρ 2 rr 0 ρ R 2 es el más conocido (pero no el mejor). La raíz de tal ajustada se llama encogida :
Presente hay dos estimadores diferentes de . Muy diferente: el primero infla , el segundo desinfla . ¿Cómo reconciliarlos? ¿Dónde usar / informar uno y dónde - el otro?r r
En particular, ¿ puede ser cierto que el estimador "reducido" también es (casi) imparcial, como el "imparcial", pero solo en el contexto diferente , en el contexto asimétrico de regresión. Porque, en la regresión de MCO consideramos los valores de un lado (el predictor) como fijos, atendiendo sin error aleatorio de una muestra a otra. (Y para agregar aquí, la regresión no necesita normalidad bivariada ).