La línea de fondo
El coeficiente de correlación muestral necesario para rechazar la hipótesis de que el coeficiente de correlación verdadero (Pearson) es cero se vuelve pequeño bastante rápido a medida que aumenta el tamaño de la muestra. Entonces, en general, no, no puede tener simultáneamente un coeficiente de correlación grande (en magnitud) y un valor simultáneamente grandepags .
La línea superior (detalles)
La prueba utilizada para el coeficiente de correlación de Pearson en la función es una versión muy ligeramente modificada del método que analizo a continuación.Rcor.test
Supongamos que son vectores aleatorios normales bivariados con correlación . Queremos probar la hipótesis nula de que versus . Sea el coeficiente de correlación de la muestra. Utilizando la teoría de regresión lineal estándar, no es difícil demostrar que el estadístico de prueba,
tiene un distribución bajo la hipótesis nula. Para grande , la distribución acerca a la normal estándar. Por lo tanto,ρ ρ = 0 ρ ≠ 0 r T = r √( X1, Y1) , ( X2, Y2) , … , ( Xnorte, Ynorte)ρρ = 0ρ ≠ 0r tn-2ntn-2T2T2∼F1,n-2χ21
T= r n - 2-----√( 1 - r2)------√
tn - 2nortetn - 2T2es aproximadamente chi-cuadrado distribuido con un grado de libertad. (Según los supuestos que hemos hecho, en realidad, pero la aproximación aclara lo que está sucediendo, creo).
T2∼ F1 , n - 2χ21
Entonces,
donde es el cuantil de una distribución chi-cuadrado con un grado de libertad.q 1 - α ( 1 - α )
P ( r21 - r2( n - 2 ) ≥ q1 - α) ≈α,
q1 - α( 1 - α )
Ahora, tenga en cuenta que aumenta a medida que aumenta. Reordenando la cantidad en el enunciado de probabilidad, tenemos eso para todos
obtendremos un rechazo de la hipótesis nula en el nivel . Claramente, el lado derecho disminuye con .r 2 | r | ≥ 1r2/ (1- r2)r2 αn
El | r | ≥ 11 + ( n - 2 ) / q1 - α-------------√
αnorte
Una parcela
Aquí hay una gráfica de la región de rechazo deen función del tamaño de la muestra. Entonces, por ejemplo, cuando el tamaño de la muestra excede 100, la correlación (absoluta) solo necesita ser de aproximadamente 0.2 para rechazar el valor nulo en el nivel .α = 0.05El | r |α = 0.05
Una simulación
Podemos hacer una simulación simple para generar un par de vectores de media cero con un coeficiente de correlación exacto . Debajo está el código. De esto podemos ver la salida de cor.test
.
k <- 100
n <- 4*k
# Correlation that gives an approximate p-value of 0.05
# Change 0.05 to some other desired p-value to get a different curve
pval <- 0.05
qval <- qchisq(pval,1,lower.tail=F)
rho <- 1/sqrt(1+(n-2)/qval)
# Zero-mean orthogonal basis vectors
b1 <- rep(c(1,-1),n/2)
b2 <- rep(c(1,1,-1,-1),n/4)
# Construct x and y vectors with mean zero and an empirical
# correlation of *exactly* rho
x <- b1
y <- rho * b1 + sqrt(1-rho^2) * b2
# Do test
ctst <- cor.test(x,y)
Como se solicitó en los comentarios, aquí está el código para reproducir la trama, que se puede ejecutar inmediatamente después del código anterior (y utiliza algunas de las variables definidas allí).
png("cortest.png", height=600, width=600)
m <- 3:1000
yy <- 1/sqrt(1+(m-2)/qval)
plot(m, yy, type="l", lwd=3, ylim=c(0,1),
xlab="sample size", ylab="correlation")
polygon( c(m[1],m,rev(m)[1]), c(1,yy,1), col="lightblue2", border=NA)
lines(m,yy,lwd=2)
text(500, 0.5, "p < 0.05", cex=1.5 )
dev.off()