Prueba t de muestras independientes: ¿los datos realmente necesitan distribuirse normalmente para muestras de gran tamaño?

Digamos que quiero probar si dos muestras independientes tienen medios diferentes. Sé que la distribución subyacente no es normal .

Si entiendo correctamente, mi estadística de prueba es la media , y para tamaños de muestra lo suficientemente grandes, la media debería distribuirse normalmente incluso si las muestras no lo son. Entonces, una prueba de significancia paramétrica debería ser válida en este caso, ¿verdad? He leído información contradictoria y confusa sobre esto, así que agradecería alguna confirmación (o explicación de por qué estoy equivocado).

Además, he leído que para tamaños de muestra grandes, debería usar el estadístico z en lugar del estadístico t. Pero en la práctica, la distribución t convergerá a la distribución normal y las dos estadísticas deberían ser las mismas, ¿no?

Editar : a continuación hay algunas fuentes que describen la prueba z. Ambos afirman que las poblaciones deben distribuirse normalmente:

Aquí , dice "Independientemente del tipo de prueba Z utilizada, se supone que las poblaciones de las que se extraen las muestras son normales". Y aquí , los requisitos para la prueba z se enumeran como "Dos poblaciones distribuidas normalmente pero independientes, se conoce σ".

t-test central-limit-theorem z-test

— Lisa
fuente

Lo que estás diciendo tiene sentido. Está utilizando el teorema del límite central para asumir la normalidad en la distribución de las medias muestrales. Además, está utilizando la prueba t porque no tiene la varianza de la población y la está estimando en función de la varianza de la muestra. Pero, ¿puedes vincular o publicar alguna de estas fuentes en conflicto?

— Antoni Parellada

¡Gracias por su respuesta! Aquí, por ejemplo, los requisitos para la prueba z se enumeran como "Dos poblaciones normalmente distribuidas pero independientes, se conoce σ", por lo que están hablando de la distribución de la población, no de la media, ¿está mal?

— Lisa

@AntoniParellada ¡He incorporado algunas fuentes en la publicación original!

— Lisa

Consulte en Wikipedia

— Antoni Parellada

Si se sabe que las poblaciones originales son normales, entonces tenemos una situación perfecta e indiscutible. Sin embargo, el CLT a menudo está allí, particularmente en muestras grandes, para evitar depender de este alto orden de condiciones indicado en su papel vinculado.

— Antoni Parellada

Respuestas:

Creo que este es un malentendido común del CLT. El CLT no solo no tiene nada que ver con preservar el error tipo II (que nadie ha mencionado aquí) sino que a menudo no es aplicable cuando debe estimar la varianza de la población. La varianza de la muestra puede estar muy lejos de una distribución chi-cuadrado escalada cuando los datos no son gaussianos, por lo que el CLT puede no aplicarse incluso cuando el tamaño de la muestra excede decenas de miles. Para muchas distribuciones, la SD ni siquiera es una buena medida de dispersión.

Para usar realmente el CLT, una de las dos cosas debe ser cierta: (1) la desviación estándar de la muestra funciona como una medida de dispersión para la distribución verdadera desconocida o (2) se conoce la desviación estándar de la población real. Ese no suele ser el caso. Y un ejemplo de que n = 20,000 es demasiado pequeño para que el CLT "funcione" proviene de tomar muestras de la distribución lognormal como se discutió en otra parte de este sitio.

La desviación estándar de la muestra "funciona" como medida de dispersión si, por ejemplo, la distribución es simétrica y no tiene colas más pesadas que la distribución gaussiana.

No quiero confiar en el CLT para ninguno de mis análisis.

— Frank Harrell
fuente

El CLT puede ser un poco de arenque rojo. A menudo puede suceder que la media muestral tenga una distribución decididamente no normal y que la muestra SD sea decididamente de forma no chi, pero sin embargo, el estadístico t se aproxima útilmente por una distribución t de Student (en parte debido a la dependencia entre los dos Estadísticas). Si este es el caso, debe evaluarse en cualquier situación dada. Sin embargo, debido a que el CLT afirma poco acerca de las muestras finitas (y no dice absolutamente nada cuantitativo sobre ellas), su invocación en apoyo de los supuestos de distribución generalmente no es válida.

— whuber

¿Sería justo decir que estamos discutiendo (y aprendiendo en mi caso) un procedimiento (que compara dos medias de muestra de distribuciones desconocidas con una prueba t) que se realiza de forma rutinaria (y posiblemente sin pensar) a diario en todas partes, aunque la justificación puede ser débil? Y, ¿hay algún uso del CLT en la práctica que sea tolerable / aceptable, incluso si no es ideal?

— Antoni Parellada

La estadística

menudo tiene una distribución que está muy lejos de la distribución

cuando los datos provienen de una distribución no gaussiana. Y sí, diría que la justificación para usar la prueba

es más débil de lo que piensan la mayoría de los profesionales. Por eso prefiero los métodos semi y no paramétricos.

t

$t$

t

$t$

t

$t$

— Frank Harrell

El CLT es realmente una afirmación asintótica, y cuando la mayoría de las personas lo invocan, sospecho que la idea en su cabeza es realmente algo así como el teorema de Berry-Esseen (creen que la convergencia a la normalidad ocurre a una tasa "razonable" y, por lo tanto, su tamaño de muestra es bastante bueno"). Pero incluso este razonamiento un poco más sofisticado puede llevar a una conclusión incorrecta sobre la validez de la prueba t. Me pregunto si vale la pena mencionar / enfatizar en esta respuesta que incluso Berry – Esseen no "salva" el atractivo falaz al CLT.

— Silverfish

@FrankHarrell ¿Qué quiere decir con "la desviación estándar de la muestra funciona como una medida de dispersión para la verdadera distribución desconocida"? Sería útil si agregara una breve explicación (posiblemente solo una oración) a su respuesta.

— mark999

Dejo este párrafo para que los comentarios tengan sentido: Probablemente, la suposición de normalidad en las poblaciones originales es demasiado restrictiva, y puede ser perdonada centrándose en la distribución de muestreo, y gracias al teorema del límite central, especialmente para muestras grandes.

La aplicación de la prueba es probablemente una buena idea si (como suele ser el caso) no conoce la varianza de la población y, en cambio, utiliza las varianzas muestrales como estimadores. Tenga en cuenta que la suposición de variaciones idénticas puede necesitar probarse con una prueba F de variaciones o una prueba de Lavene antes de aplicar una variación agrupada. Tengo algunas notas sobre GitHub aquí . $t$

Como mencionas, la distribución t converge a la distribución normal a medida que aumenta la muestra, ya que este gráfico R rápido demuestra:

En rojo está el pdf de una distribución normal, y en púrpura, puede ver el cambio progresivo en las "colas gruesas" (o colas más pesadas) del pdf de la distribución medida que aumentan los grados de libertad hasta que finalmente se combina con el trama normal. $t$

Por lo tanto, aplicar una prueba z probablemente estaría bien con muestras grandes.

Abordar los problemas con mi respuesta inicial. Gracias, Glen_b por tu ayuda con el OP (los posibles nuevos errores de interpretación son completamente míos).

LA T ESTADÍSTICA SIGUE EN LA DISTRIBUCIÓN BAJO LA ASUNCIÓN DE NORMALIDAD:

Dejando de lado las complejidades en las fórmulas para una muestra versus dos muestras (emparejadas y no emparejadas), la estadística t general que se centra en el caso de comparar una media muestral con una media poblacional es:

$\text{t-test}= \Large \frac{\bar X-\mu}{\frac{s}{\sqrt{n}}}=\large\frac{\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{s^2}{\sigma^2}}} =\displaystyle \large\frac{\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{\frac{\sum_{x=1}^n(X - \bar{X})^2}{n-1}}{\sigma^2}}} \tag1$

$X$ $\mu$ $\sigma^2$

$(1)$ $\sim N(1,0)$
$(1)$ $\frac{s^2/\sigma^2}{n-1}\sim\frac{1}{n-1}\,\,\chi^2_{n-1}$ (scaled chi squared), since $(n-1)s^2/\sigma^2\sim\chi^2_{n-1}$ as derived here.
Numerator and denominator should be independent.

Under these conditons the $\text{t-statistic} \sim t(df=n-1)$ .

CENTRAL LIMIT THEOREM:

The tendency towards normality of the sampling distribution of the sample means as the sample size increases can justify assuming a normal distribution of the numerator even if the population is not normal. However, it does not influence the other two conditions (chi square distribution of the denominator and independence of the numerator from the denominator).

But not all is lost, in this post it is discussed how Slutzky theorem supports the asymptotic convergence towards a normal distribution even if the chi distribution of the denominator is not met.

ROBUSTNESS:

On the paper "A More Realistic Look at the Robustness and Type II Error Propertiesof the t Test to Departures From Population Normality" by Sawilowsky SS and Blair RC in Psychological Bulletin, 1992, Vol. 111, No. 2, 352-360, where they tested less ideal or more "real world" (less normal) distributions for power and for type I errors, the following assertions can be found: "Despite the conservative nature with regard to Type I error of the t test for some of these real distributions, there was little effect on the power levels for the variety of treatment conditions and sample sizes studied. Researchers may easily compensate for the slight loss in power by selecting a slightly larger sample size".

"The prevailing view seems to be that the independent-samples t test is reasonably robust, insofar as Type I errors are concerned, to non-Gaussian population shape so long as (a) sample sizes are equal or nearly so, (b) sample sizes are fairly large (Boneau, 1960, mentions sample sizes of 25 to 30), and (c) tests are two-tailed rather than one-tailed. Note also that when these conditions are met and differences between nominal alpha and actual alpha do occur, discrepancies are usually of a conservative rather than of a liberal nature."

The authors do stress the controversial aspects of the topic, and I look forward to working on some simulations based on the lognormal distribution as mentioned by Professor Harrell. I would also like to come up with some Monte Carlo comparisons with non-parametric methods (e.g. Mann–Whitney U test). So it's a work in progress...

SIMULATIONS:

Disclaimer: What follows is one of these exercises in "proving it myself" one way or another. The results cannot be used to make generalizations (at least not by me), but I guess I can say that these two (probably flawed) MC simulations don't seem to be too discouraging as to the use of the t test in the circumstances described.

Type I error:

Sobre el tema de los errores de tipo I, ejecuté una simulación de Monte Carlo usando la distribución Lognormal. Extrayendo lo que se considerarían muestras más grandes ( $n=50$ ) muchas veces desde una distribución lognormal con parámetros $\mu=0$ y $\sigma=1$ , Calculé los valores t y los valores p que resultarían si tuviéramos que comparar las medias de estas muestras, todas ellas derivadas de la misma población y todas del mismo tamaño. El lognormal se eligió en función de los comentarios y el marcado sesgo de la distribución a la derecha:

Establecer un nivel de significación de $5\%$ la tasa de error real tipo I habría sido $4.5\%$ , No está mal...

De hecho, la gráfica de la densidad de las pruebas t obtenidas parece superponerse al pdf real de la distribución t:

La parte más interesante fue mirar el "denominador" de la prueba t, la parte que se suponía que debía seguir una distribución de chi-cuadrado:

(norte - 1) s^{2} / / σ^{2} = 98 \frac{(49 ({Dakota del Sur}_{UN}^{2} + {Dakota del Sur}_{UN}^{2})) / / 98}{({mi}^{σ^{2}} - 1) {mi}^{2 μ + σ^{2}}}

$(n-1)s^2/\sigma^2=98\,\frac{(49 \, (\text{SD}_A^2 + \text{SD}_A^2))/98} {(e^{\sigma^2}-1) \, e^{2\mu+\sigma^2}}$ .

Aquí estamos usando la desviación estándar común, como en esta entrada de Wikipedia :

S_{X_{1} X_{2}} = \sqrt{\frac{({norte}_{1} - 1) S_{X_{1}}^{2} + ({norte}_{2} - 1) S_{X_{2}}^{2}}{{norte}_{1} + {norte}_{2} - 2}}

$S_{X_1X_2}=\sqrt{\frac{(n_1 -1)\,S_{X_1}^2 + (n_2 -1)\,S_{X_2}^2}{n_1+n_2-2}}$

Y, sorprendentemente (o no), la trama era extremadamente diferente al pdf chi-cuadrado superpuesto:

Error tipo II y potencia:

La distribución de la presión arterial es posible log-normal , lo cual es extremadamente útil para establecer un escenario sintético en el que los grupos de comparación están separados en valores promedio por una distancia de relevancia clínica, por ejemplo, en un estudio clínico que prueba el efecto de la presión arterial fármaco centrado en la presión arterial diastólica, un efecto significativo podría considerarse una caída promedio de $10$ mmHg (un SD de aproximadamente $9$ mmHg fue elegido):

Ejecutar pruebas t de comparación en una simulación Monte Carlo similar a la de los errores de tipo I entre estos grupos ficticios, y con un nivel significativo de $5\%$ terminamos con $0.024\%$ errores tipo II, y un poder de solo $99\%$ .

El codigo esta aqui .

— Antoni Parellada
fuente

Creo que este es un malentendido común del CLT. El CLT no solo no tiene nada que ver con preservar el error tipo II (que nadie ha mencionado aquí) sino que a menudo no es aplicable cuando debe estimar la varianza de la población. La varianza muestral puede estar muy lejos de una distribución chi-cuadrado escalada cuando los datos no son gaussianos, por lo que el CLT puede no aplicarse incluso cuando el tamaño de la muestra excede decenas de miles. Para muchas distribuciones, la SD ni siquiera es una buena medida de dispersión.

— Frank Harrell

Profesor Harrell, estaré encantado de eliminar el mensaje si es incorrecto. Esto puede muy bien ser un malentendido muy fundamental. Estaba sugiriendo que es el CLT aplicado a la distribución de los medios de muestra que valida, en muestras grandes, la comparación de medias con una prueba z o una prueba t, independientemente de la distribución de origen de las muestras. ¿Esto no es correcto?

— Antoni Parellada

Eso sería correcto si (1) la desviación estándar de la muestra funciona como una medida de dispersión para la verdadera distribución desconocida o (2) se conoce la verdadera desviación estándar de la población. Ese no suele ser el caso. Y un ejemplo de n = 20.000 siendo ahora demasiado pequeño para el CLT para "trabajar" viene de la toma de muestras de la distribución logarítmica normal. El malentendido sobre estos puntos es rampante entre los doctores en estadística con 20 años de experiencia.

— Frank Harrell

El problema, Lisa, es si necesita comparar medios o simplemente desea comparar las ubicaciones de dos poblaciones. En algunas aplicaciones, el interés se centra en una media o suma, por lo que su reemplazo por algún otro parámetro sería de poca utilidad. Este es especialmente el caso donde la población es una cantidad acumulativa natural, como el dinero o la contaminación ambiental.

— whuber

Antoni, tu última sección sobre robustez es bastante apropiada. He realizado muchos estudios similares a los descritos por Sawilosky y Blair, y he leído muchos más, y por lo tanto sospecho que sus conclusiones deben limitarse a tipos de datos muy especiales. La prueba t falla miserablemente, especialmente en términos de potencia, en presencia de distribuciones muy sesgadas. Lo que me ha sorprendido a lo largo de los años es que es bastante sólido para otras desviaciones de la normalidad, hasta el punto de que veo cierta validez en las afirmaciones de que es un procedimiento no paramétrico.

— whuber