¿Cómo realizar la prueba t con muestras enormes?

Tengo dos poblaciones, una con N = 38.704 (número de observaciones) y otra con N = 1.313.662. Estos conjuntos de datos tienen ~ 25 variables, todas continuas. Tomé la media de cada uno en cada conjunto de datos y calculé el estadístico de prueba usando la fórmula

t = diferencia media / error estándar

El problema es el grado de libertad. Mediante la fórmula de df = N1 + N2-2 tendremos más libertad de la que la tabla puede manejar. ¿Alguna sugerencia sobre esto? Cómo verificar la estadística t aquí. Sé que la prueba t se usa para manipular muestras, pero ¿qué pasa si aplicamos esto en muestras grandes?

t-test

— ayush biyani
fuente

Respuestas:

chl ya mencionó la trampa de las comparaciones múltiples al realizar simultáneamente 25 pruebas con el mismo conjunto de datos. Una manera fácil de manejar eso es ajustar el umbral del valor p dividiéndolos por el número de pruebas (en este caso 25). La fórmula más precisa es: valor p ajustado = 1 - (1 - valor p) ^ (1 / n). Sin embargo, las dos fórmulas diferentes derivan casi el mismo valor p ajustado.

Hay otro problema importante con su ejercicio de prueba de hipótesis. Seguramente se encontrará con un error Tipo I (falso positivo) por el cual descubrirá algunas diferencias realmente triviales que son extremadamente significativas en el nivel de 99.9999%. Esto se debe a que cuando maneja una muestra de un tamaño tan grande (n = 1,313,662), obtendrá un error estándar que está muy cerca de 0. Eso es porque la raíz cuadrada de 1,313,662 = 1,146. Entonces, dividirá la desviación estándar entre 1,146. En resumen, capturará pequeñas diferencias que pueden ser completamente irrelevantes.

Le sugeriría que se aleje de este marco de prueba de hipótesis y, en su lugar, realice un análisis del tipo Tamaño del efecto. Dentro de este marco, la medida de la distancia estadística es la desviación estándar. A diferencia del error estándar, la desviación estándar no se reduce artificialmente por el tamaño de la muestra. Y, este enfoque le dará una mejor idea de las diferencias materiales entre sus conjuntos de datos. El tamaño del efecto también está mucho más enfocado en el intervalo de confianza en torno a la diferencia promedio promedio, que es mucho más informativo que el enfoque de prueba de hipótesis en la significación estadística que a menudo no es significativa en absoluto. Espero que ayude.

— Sympa
fuente

+1 para presentar las ideas clave: (1) podemos garantizar que los medios diferirán cuando los conjuntos de datos sean tan grandes y (2) algún otro análisis sea más apropiado y útil. Pero debido a que no sabemos sobre el propósito del análisis, debemos ser cautelosos al hacer recomendaciones específicas.

— whuber

Gracias Gaetan ... te tengo ... Creo que lo que me quito de esto es que la desviación estándar es una mejor medida cuando tienes muestras grandes como la mía ... por favor, avísame si me perdí algo.

— ayush biyani

ayush ... tienes razón. Eso es básicamente eso. Y esto se debe a que su error estándar será muy pequeño (debido al gran tamaño de la muestra). Esto a su vez exagera la distancia estadística entre su prueba y los grupos de control. Y, en última instancia, te encuentras con un error de tipo I (descubre una diferencia que es tan pequeña como para ser irrelevante). Este es un problema común en las pruebas de hipótesis con muestras grandes.

— Sympa

La distribución t de Student se acerca cada vez más a la distribución normal estándar a medida que aumentan los grados de libertad. Con 1313662 + 38704 - 2 = 1352364 grados de libertad, la distribución t será indistinguible de la distribución normal estándar, como se puede ver en la imagen a continuación (a menos que tal vez esté en los extremos y le interese distinguir valores p absolutamente pequeños de los aún más pequeños). Por lo tanto, puede usar la tabla para la distribución normal estándar en lugar de la tabla para la distribución t .

texto alternativo

— una parada
fuente

Chicos, gracias por la respuesta. Tengo una información para analizar. ¿Cómo adjunto datos a esto? Hay mucho que preguntarles a las personas ... Gracias de antemano. Esperando una pronta respuesta.

— ayush biyani

¿Eh? Usted dijo en la pregunta que ya había calculado la estadística t, y chl ha proporcionado un código R de muestra. ¿Qué más quieres? Por cierto, no estoy seguro de que tenga derecho a esperar o solicitar una pronta respuesta; no nos pagan por esto, sabes.

— parada el

@ayush Para su pregunta anterior, proporciono una respuesta completa a su pregunta (en mi humilde opinión), luego le di un seguimiento a sus comentarios antes de detenerme cuando pensé que estaba haciendo otra pregunta que no es el propósito de la opción de comentario aquí . Por lo tanto, sugeriría que declare claramente si su pregunta se relaciona con la consideración teórica o el análisis de datos aplicado (en este último caso, denos un ejemplo reproducible) o separe sus preguntas. Por cierto, todavía tiene la opción de aceptar respuestas que le resulten útiles (de nuevo, escriba su pregunta original, no los comentarios que siguen).

— chl

@ayush Ah, y me doy cuenta de que nunca votas ninguna de las respuestas que se te proporcionaron (aunque ahora tienes suficiente representante).

— chl

@ chl-- yeah..even realizo este fallo mío y rectificará a ciencia cierta en los puestos de come..Thanks por señalar esto out..Consider mí por algunos días un aficionado ingenuo ..

— ayush Biyani

La distribución tiende a la distribución (gaussiana) cuando es grande (de hecho, cuando , son casi idénticos, vea la imagen proporcionada por @onestop). En su caso, diría que es MUY grande, por lo que puede usar una prueba . Como consecuencia del tamaño de la muestra, cualquier diferencia MUY pequeña se declarará significativa. Por lo tanto, vale la pena preguntarse si estas pruebas (con el conjunto de datos completo) son realmente interesantes. $t$ $z$ $n$ $n>30$ $n$ $z$

Solo para estar seguro, ya que su conjunto de datos incluye 25 variables, ¿está haciendo 25 pruebas? Si este es el caso, probablemente deba corregir las comparaciones múltiples para no inflar la tasa de error de tipo I (vea el hilo relacionado en este sitio).

Por cierto, el software R le daría los valores p que está buscando, sin necesidad de confiar en las tablas:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039

— chl
fuente