¿Cómo se realiza la prueba t de Student teniendo solo el tamaño de la muestra, el promedio de la muestra y el promedio de la población?

28

La prueba Student requiere la desviación estándar de la muestra . Sin embargo, ¿cómo calculo para cuando solo se conocen el tamaño de la muestra y el promedio de la muestra? $t$ $s$ $s$

Por ejemplo, si el tamaño de la muestra es y el promedio de la muestra es , intentaré crear una lista de muestras idénticas con valores de cada una. Como era de esperar, la desviación estándar de la muestra es . Esto creará un problema de división por cero en la prueba . $49$ $112$ $49$ $112$ $0$ $t$

DATOS ADICIONALES:
El ingreso promedio de los trabajadores de ACME North Factory es de . Se informa que una muestra aleatoria de trabajadores en ACME South Factory tuvo un ingreso anual de . ¿Es esta diferencia estadísticamente significativa? $\$200$ $49$ $\$112$

¿Estoy en lo cierto al decir que la media de la población es ? $\$200$

t-test standard-deviation small-sample

— Equipo
fuente

¿Que problema estas tratando de resolver? Nos ayudaría a ayudarlo si nos contara más.

— pmgjones

Seguro. Agregué un problema de muestra.

— Kit

32

Esto puede sorprender a muchos, pero para resolver este problema no necesariamente necesita estimar s . De hecho, no necesita saber nada sobre la difusión de los datos (aunque eso sería útil, por supuesto). Por ejemplo, Wall, Boen y Tweedie en un artículo de 2001 describen cómo encontrar un intervalo de confianza finito para la media de cualquier distribución unimodal basada en un solo sorteo.

En el presente caso, tenemos alguna base para ver la media muestral de 112 como un sorteo de una distribución aproximadamente normal (es decir, la distribución muestral del promedio de una muestra aleatoria simple de 49 salarios). Suponemos implícitamente que hay un número bastante grande de trabajadores de fábrica y que su distribución salarial no es tan sesgada o multimodal como para hacer que el teorema del límite central no funcione. Luego, un IC conservador del 90% para la media se extiende hacia arriba hasta

112 + 5.84 | 112 |,

$112 + 5.84\ |112|,$

cubriendo claramente la media real de 200. (Véase la fórmula 3 de Wall et al .) Dada la limitada información disponible y las suposiciones hechas aquí, por lo tanto, no podemos concluir que 112 difiere "significativamente" de 200.

Referencia: "Un intervalo de confianza efectivo para la media con muestras de tamaño uno y dos". The American Statistician, mayo de 2001, vol. 55, núm. 2: págs. 102-105. ( pdf )

— whuber
fuente

44

¡Sí lo es! Por eso vale la pena estudiar: los desafíos a nuestra intuición son excepcionalmente educativos. Me enteré de esto por primera vez en un documento claro en la página web de Carlos Rodríguez (SUNY Albany) pero no pude encontrarlo esta mañana: parece que el servidor está caído. Intenta buscar en Google "estadísticas de carlos rogriguez" más tarde. (Se supone que su artículo está en omega.albany.edu/8008/confint.html , pero esta podría ser una URL antigua.)

— whuber

44

Asombroso. No lo sabia. Gracias por la referencia

— Rob Hyndman

44

Gracias, ¿hay alguna posibilidad de que este sea el artículo de Rodríguez en el que está pensando? arxiv.org/abs/bayes-an/9504001

— ars

2

Esto es genial. Sin embargo, tengo curiosidad por qué aplicó la fórmula (3) (que proviene de Edelman), que Wall et al describen como "más amplia de lo necesario". Hacia el final del párrafo, inmediatamente antes de mencionar (3) usan 4.84 (exactamente 1 más pequeño que 5.84) para un intervalo del 90%, que proviene de su ecuación (4). Sin duda me perdí algo.

— Glen_b -Reinstale a Monica el

2

@Glen_b Por el contrario, lo más probable es que me haya perdido algo. Prestaré atención a eso la próxima vez que necesite este documento, pero mientras tanto la diferencia en las constantes no afecta el análisis aquí.

— whuber

13

Esto parece ser una pregunta un poco inventada. 49 es un cuadrado exacto de 7. El valor de una distribución t con 48 DoF para una prueba de dos lados de p <0.05 es casi 2 (2.01).

Rechazamos la hipótesis nula de igualdad de medios si | sample_mean - popn_mean | > 2 * StdError, es decir 200-112> 2 * SE, entonces SE <44, es decir, SD <7 * 44 = 308.

Sería imposible obtener una distribución normal con una media de 112 con una desviación estándar de 308 (o más) sin salarios negativos.

Dado que los salarios están limitados a continuación, es probable que sean asimétricos, por lo que asumir una distribución logarítmica normal sería más apropiado, pero aún requeriría salarios muy variables para evitar una p <0.05 en una prueba t.

— Thylacoleo
fuente

3

$\mu = 0.999 * 112 + 0.001 * 88112 = 200.$ $49 / 1000 < 0.05$ la media de la muestra será de 112. De hecho, al ajustar la proporción de trabajadores / CEO y el salario del CEO, podemos hacer que sea arbitrariamente improbable que una muestra de 49 empleados atraiga a un CEO, mientras fijamos la media de la población en 200, y la media de la muestra en 112. Por lo tanto, sin hacer algunas suposiciones sobre la distribución subyacente, no se puede hacer ninguna inferencia sobre la media de la población.

— shabbychef
fuente

2

$

$\$$

1

(1) buena captura. (2), sí, puedo hacer que la configuración del problema sea asintóticamente perversa para resultados fijos, post hoc . mi error. Sin embargo, ya no estoy seguro de lo que el OP está tratando de probar. Si saben que la media de la población es 200, ¿por qué están tratando de probarla?

— shabbychef

1

Por cierto, evidentemente, una relación de salario CEO / salario menos pagado de 400 no se considera extrema en los EE. Sin embargo, 800 es un poco perverso.

— shabbychef

2

Supongo que se refiere a una prueba t de una muestra. Su objetivo es comparar la media de su muestra con una media hipotética. Luego calcula (suponiendo que su población es gaussiana) un valor P que responde a esta pregunta: si la media de la población realmente fuera el valor hipotético, ¿qué tan improbable sería extraer una muestra cuya media esté tan lejos de ese valor (o más) que usted observó? Por supuesto, la respuesta a esa pregunta depende del tamaño de la muestra. Pero también depende de la variabilidad. Si sus datos tienen una gran cantidad de dispersión, son consistentes con una amplia gama de medios de población. Si sus datos son realmente ajustados, son consistentes con un rango menor de medios de población.

— Harvey Motulsky
fuente