¿Cómo podemos conocer la varianza de la población?


10

En las pruebas de hipótesis, una pregunta común es ¿cuál es la varianza de la población? Mi pregunta es ¿cómo podemos conocer la varianza de la población? Si supiéramos toda la distribución, también podríamos saber la media de toda la población. Entonces, ¿cuál es el punto de prueba de hipótesis?


Alguna literatura relevante: nber.org/papers/w20325
dv_bn

Uno puede conocer la varianza sin saber nada acerca de la media. Por ejemplo, la varianza se puede recuperar de los cuadrados de todas las diferencias de valores en la población, pero esas diferencias no dan información sobre la media. De todos modos, no veo cómo las declaraciones y preguntas en esta publicación conducen a la pregunta en sí sobre el punto de prueba de hipótesis.
whuber

Respuestas:


10

No estoy seguro de que este problema surja "a menudo" fuera de las Estadísticas 101 (introducción a las estadísticas). No estoy seguro de haberlo visto alguna vez. Por otro lado, presentamos el material de esa manera cuando enseñamos cursos introductorios, porque proporciona una progresión lógica: comienzas con una situación simple en la que solo hay un grupo y conoces la variación, luego avanzas a donde no Conozca la varianza, luego avance a donde hay dos grupos (pero con la misma varianza), etc.

Para abordar un punto ligeramente diferente, se pregunta por qué nos molestaríamos con la prueba de hipótesis si supiéramos la varianza, ya que también debemos conocer la media. La última parte es razonable, pero la primera parte es un malentendido: la media que sabríamos sería la media bajo la hipótesis nula. Eso es lo que estamos probando. Considere el ejemplo de @ StephanKolassa de puntajes de IQ. Sabemos que la media es 100 y la desviación estándar es 15; lo que estamos probando es si nuestro grupo (por ejemplo, pelirrojos zurdos, o tal vez estudiantes de estadística introductorios) difiere de eso.


2
(+1) Quizás surja más cuando "tomar muestras de una población" es una forma de pensar sobre el proceso de generación de datos, en lugar de algo que debe tomarse literalmente. Conocer la precisión de un instrumento de medición, por ejemplo.
Scortchi - Restablece a Monica

Gung, como practicante con más de 20 años de carrera, este problema surgió en mi experiencia con más frecuencia de lo que implica. No estoy sugiriendo que surgiera "con frecuencia", solo que los debates ocurrieron. Sin embargo, y en su opinión sobre las Estadísticas 101, la mayoría de las veces las discusiones fueron pistas falsas que resolvieron poco o nada con respecto a los detalles de un estudio o proyecto: alguien solo quería crear la apariencia de inteligencia al hacer la pregunta.
Mike Hunter

1
@DJohnson, supongo que depende de los temas en los que trabajes.
gung - Restablece a Monica

4

A menudo no conocemos la varianza de la población como tal, pero tenemos una estimación muy confiable de una muestra diferente. Por ejemplo, aquí hay un ejemplo para evaluar si el peso promedio de los pingüinos se ha reducido, donde usamos la media de una muestra pequeña, pero la varianza de una muestra independiente más grande. Por supuesto, esto presupone que la varianza es la misma en ambas poblaciones.

Un ejemplo diferente podría ser las escalas de coeficiente intelectual clásico. Estos están normalizados para tener una media de 100 y una desviación estándar de 15, utilizando muestras realmente grandes. Entonces podríamos tomar una muestra específica (por ejemplo, 50 pelirrojos zurdos) y preguntar si su coeficiente intelectual promedio es significativamente mayor que 100, utilizando 15 ^ 2 como una variación "conocida". Por supuesto, una vez más, esto plantea la pregunta de si la varianza es realmente igual entre las dos muestras; después de todo, ya estamos probando si las medias son diferentes, entonces, ¿por qué las varianzas deberían ser iguales?

En pocas palabras: sus inquietudes son válidas y, por lo general, las pruebas con momentos conocidos solo tienen fines didácticos. En los cursos de estadística, generalmente se siguen inmediatamente con pruebas que utilizan momentos estimados .


2

La única forma de conocer la varianza de la población es medir a toda la población.

Sin embargo, medir una población completa a menudo no es factible; requiere recursos que incluyen dinero, herramientas, personal y acceso. Por esta razón, tomamos muestras de poblaciones; eso es medir un subconjunto de la población. El proceso de muestreo debe diseñarse cuidadosamente y con el objetivo de crear una población de muestra que sea representativa de la población; dando dos consideraciones clave: tamaño de la muestra y técnica de muestreo.

Ejemplo de juguete: desea estimar la varianza en peso para la población adulta de Suecia. Hay unos 9,5 millones de suecos, por lo que no es probable que puedas salir y medirlos a todos. Por lo tanto, debe medir una población de muestra a partir de la cual puede estimar la verdadera varianza dentro de la población.

Te diriges a probar la población sueca. Para hacer esto, te paras en el centro de Estocolmo, y te encuentras justo afuera de la popular cadena de hamburguesas ficticias sueca Burger Kungen . De hecho, está lloviendo y hace frío (debe ser verano), así que te paras dentro del restaurante. Aquí pesas cuatro personas.

Lo más probable es que su muestra no refleje muy bien la población de Suecia. Lo que tienes es una muestra de personas en Estocolmo, que están en un restaurante de hamburguesas. Esta es una técnica de muestreo deficiente porque es probable que sesgue el resultado al no dar una representación justa de la población que está tratando de estimar. Además, tiene una muestra pequeña, por lo que tiene un alto riesgo de elegir a cuatro personas que se encuentran en los extremos de la población; ya sea muy ligero o muy pesado. Si tomó una muestra de 1000 personas, es menos probable que cause un sesgo de muestreo; es mucho menos probable elegir 1000 personas que son inusuales que elegir cuatro que son inusuales. Un tamaño de muestra más grande al menos le daría una estimación más precisa de la media y la varianza en el peso entre los clientes de Burger Kungen.

ingrese la descripción de la imagen aquí

El histograma ilustra el efecto de la técnica de muestreo, la distribución de grises podría representar a la población de Suecia que no come en Burger Kungen (promedio de 85 kg), mientras que el rojo podría representar la población de los clientes de Burger Kungen (promedio de 100 kg) , y los guiones azules podrían ser las cuatro personas que muestreas. La técnica de muestreo correcta necesitaría pesar la población de manera justa, y en este caso ~ 75% de la población, por lo tanto, 75% de las muestras que se miden, no deberían ser clientes de Burger Kungen.

Este es un problema importante con muchas encuestas. Por ejemplo, las personas que probablemente respondan a encuestas de satisfacción del cliente, o encuestas de opinión en las elecciones, tienden a estar representadas desproporcionadamente por aquellos con opiniones extremas; las personas con opiniones menos fuertes tienden a ser más reservadas para expresarlas.

El punto de prueba de hipótesis es ( no siempre ), por ejemplo, probar si dos poblaciones difieren entre sí. Por ejemplo, ¿los clientes de Burger Kungen pesan más que los suecos que no comen en Burger Kungen? La capacidad de probar esto con precisión depende de una técnica de muestreo adecuada y un tamaño de muestra suficiente.


El código R para probar hace que todo esto suceda:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

Resultados:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

1

Sí, eso es cierto, pero en esos casos también hay una escala a una media fija, por lo que no produce una situación en la que haya una media desconocida y una varianza conocida. Además, la escala se realiza después de conocer todos los valores.
Ben - Restablece a Mónica

1

El único ejemplo realista que se me ocurre cuando se desconoce la media pero se conoce la varianza es cuando hay un muestreo aleatorio de puntos en una hiperesfera (en cualquier dimensión) con un radio fijo y un centro desconocido. Este problema tiene una media desconocida (centro de la esfera) pero una varianza fija (radio cuadrado de la esfera). No conozco ningún otro ejemplo realista en el que haya una media desconocida pero una varianza conocida. (Y para ser claros: el simple hecho de tener una estimación de varianza externa de otros datos no es un ejemplo de una varianza conocida. Además, si tiene esta estimación de varianza de otros datos, ¿por qué no tiene también una estimación media correspondiente de esa misma ¿datos?)

En mi opinión, los cursos introductorios de estadística que enseñan pruebas con una media desconocida y una varianza conocida son un anacronismo, y están mal orientados como una herramienta de enseñanza moderna. Pedagógicamente, es mucho mejor comenzar directamente con la prueba T para el caso de una media y varianza desconocidas, y tratar la prueba z como una aproximación asintótica a esta que se cumple cuando los grados de libertad son grandes (o no incluso molestarse en enseñar la prueba z). La cantidad de situaciones en las que habría una variación conocida pero una media desconocida es muy pequeña, y generalmente es engañoso para los estudiantes presentar este caso (increíblemente raro).


0

A veces, en problemas aplicados, hay razones presentadas por la física, la economía, etc. que nos informan sobre la variación y no tienen incertidumbre. Otras veces, la población puede ser limitada y podemos saber algunas cosas sobre todos, pero necesitamos muestrear y realizar estadísticas para aprender el resto.

En general, su inquietud es bastante válida.


55
Me cuesta imaginar un ejemplo de la física o la economía en el que conoceríamos la varianza, pero no la media. Similar para distribuciones discretas. ¿Podría dar un ejemplo concreto o dos?
Stephan Kolassa

@StephanKolassa Creo que las mediciones experimentales de física serían un ejemplo: podemos tener un proceso o dispositivo de medición que tenga una varianza bien conocida (error de medición), por lo que al medir un evento en particular, puede suponer que la varianza es la misma, pero usted solo se puede estimar la media real.
Peteris

2
@Peteris: tiene sentido, pero suena más como el caso que noto , de la variación (de su instrumento) que se ha estimado en "muestras de calibración" anteriores. Esperaría que una varianza teóricamente derivada sin incertidumbre (!) Sea algo diferente.
Stephan Kolassa
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.