La única forma de conocer la varianza de la población es medir a toda la población.
Sin embargo, medir una población completa a menudo no es factible; requiere recursos que incluyen dinero, herramientas, personal y acceso. Por esta razón, tomamos muestras de poblaciones; eso es medir un subconjunto de la población. El proceso de muestreo debe diseñarse cuidadosamente y con el objetivo de crear una población de muestra que sea representativa de la población; dando dos consideraciones clave: tamaño de la muestra y técnica de muestreo.
Ejemplo de juguete: desea estimar la varianza en peso para la población adulta de Suecia. Hay unos 9,5 millones de suecos, por lo que no es probable que puedas salir y medirlos a todos. Por lo tanto, debe medir una población de muestra a partir de la cual puede estimar la verdadera varianza dentro de la población.
Te diriges a probar la población sueca. Para hacer esto, te paras en el centro de Estocolmo, y te encuentras justo afuera de la popular cadena de hamburguesas ficticias sueca Burger Kungen . De hecho, está lloviendo y hace frío (debe ser verano), así que te paras dentro del restaurante. Aquí pesas cuatro personas.
Lo más probable es que su muestra no refleje muy bien la población de Suecia. Lo que tienes es una muestra de personas en Estocolmo, que están en un restaurante de hamburguesas. Esta es una técnica de muestreo deficiente porque es probable que sesgue el resultado al no dar una representación justa de la población que está tratando de estimar. Además, tiene una muestra pequeña, por lo que tiene un alto riesgo de elegir a cuatro personas que se encuentran en los extremos de la población; ya sea muy ligero o muy pesado. Si tomó una muestra de 1000 personas, es menos probable que cause un sesgo de muestreo; es mucho menos probable elegir 1000 personas que son inusuales que elegir cuatro que son inusuales. Un tamaño de muestra más grande al menos le daría una estimación más precisa de la media y la varianza en el peso entre los clientes de Burger Kungen.
El histograma ilustra el efecto de la técnica de muestreo, la distribución de grises podría representar a la población de Suecia que no come en Burger Kungen (promedio de 85 kg), mientras que el rojo podría representar la población de los clientes de Burger Kungen (promedio de 100 kg) , y los guiones azules podrían ser las cuatro personas que muestreas. La técnica de muestreo correcta necesitaría pesar la población de manera justa, y en este caso ~ 75% de la población, por lo tanto, 75% de las muestras que se miden, no deberían ser clientes de Burger Kungen.
Este es un problema importante con muchas encuestas. Por ejemplo, las personas que probablemente respondan a encuestas de satisfacción del cliente, o encuestas de opinión en las elecciones, tienden a estar representadas desproporcionadamente por aquellos con opiniones extremas; las personas con opiniones menos fuertes tienden a ser más reservadas para expresarlas.
El punto de prueba de hipótesis es ( no siempre ), por ejemplo, probar si dos poblaciones difieren entre sí. Por ejemplo, ¿los clientes de Burger Kungen pesan más que los suecos que no comen en Burger Kungen? La capacidad de probar esto con precisión depende de una técnica de muestreo adecuada y un tamaño de muestra suficiente.
El código R para probar hace que todo esto suceda:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Resultados:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024