El valor p para la prueba t se calcula bajo el supuesto de que todas las observaciones son independientes. Calcular las probabilidades (como el valor p) es mucho más difícil cuando se trata de variables dependientes, y no siempre es fácil ver matemáticamente dónde las cosas salen mal con la prueba en presencia de dependencia. Sin embargo, podemos ilustrar fácilmente el problema con una simulación.
Considere, por ejemplo, el caso en el que hay 5 aulas en cada una de las dos escuelas, con 10 estudiantes en cada aula. Bajo el supuesto de normalidad, el valor p de la prueba debe distribuirse uniformemente en el intervalo si no hay diferencia en los puntajes promedio de la prueba entre todas las aulas. Es decir, si realizamos muchos estudios como este y trazamos un histograma de todos los valores de p, debería parecerse a la distribución uniforme en forma de caja .( 0 , 1 )
Sin embargo, si existe una correlación dentro del aula entre los resultados de los estudiantes, los valores p ya no se comportan como deberían. Una correlación positiva (como podría esperarse aquí) a menudo conducirá a valores p que son demasiado pequeños, de modo que la hipótesis nula será rechazada con demasiada frecuencia cuando de hecho sea cierta. Una simulación R que ilustra esto se puede encontrar a continuación. Se simulan 1000 estudios de dos escuelas para diferentes correlaciones dentro del aula. Los valores p de la prueba t de corrección de correlación se muestran en los histogramas de la figura. Se distribuyen uniformemente cuando no hay correlación, pero no de otra manera. En la simulación, se supone que no hay diferencias medias entre las aulas y que todas las aulas tienen la misma correlación dentro del aula.
La consecuencia de este fenómeno es que la tasa de error de tipo I de la prueba t estará muy lejos si hay correlaciones presentes dentro del aula. Como ejemplo, una prueba t al nivel del 5% es, de hecho, aproximadamente al nivel del 25% si la correlación dentro del aula es 0.1. En otras palabras, el riesgo de rechazar falsamente la hipótesis nula aumenta dramáticamente cuando las observaciones son dependientes .
Tenga en cuenta que los ejes difieren algo entre los histogramas.
Código R:
library(MASS)
B1<-1000
par(mfrow=c(3,2))
for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)
# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
# Generate observations of 50 students from school A
A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
# Generate observations of 50 students from school B
B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
p.value[i]<-t.test(A,B)$p.value
}
# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}