Parece que cuando se cumple el supuesto de homogeneidad de la varianza, los resultados de una prueba t ajustada de Welch y una prueba t estándar son aproximadamente los mismos. ¿Por qué no simplemente usar siempre la t ajustada de Welch?
Parece que cuando se cumple el supuesto de homogeneidad de la varianza, los resultados de una prueba t ajustada de Welch y una prueba t estándar son aproximadamente los mismos. ¿Por qué no simplemente usar siempre la t ajustada de Welch?
Respuestas:
Me gustaría oponerme a las otras dos respuestas basadas en un documento (en alemán) de Kubinger, Rasch y Moder (2009) .
Argumentan, basándose en simulaciones "extensas" de distribuciones que cumplen o no con los supuestos impuestos por una prueba t (normalidad y homogeneidad de varianza) que las pruebas de welch funcionan igualmente bien cuando se cumplen los supuestos (es decir, básicamente iguales probabilidad de cometer errores alfa y beta) pero supera la prueba t si no se cumplen los supuestos, especialmente en términos de potencia. Por lo tanto, recomiendan usar siempre la prueba de soldadura si el tamaño de la muestra excede 30.
Como meta-comentario: Para las personas interesadas en las estadísticas (como yo y probablemente la mayoría aquí), un argumento basado en datos (como el mío) debería contar al menos por igual como argumentos basados únicamente en motivos teóricos (como los otros aquí).
Actualización:
Después de pensar nuevamente en este tema, encontré dos recomendaciones más, de las cuales la más nueva me ayuda a entender. Mire los documentos originales (que son ambos, al menos para mí, disponibles gratuitamente) para ver los argumentos que conducen a estas recomendaciones.
La primera recomendación proviene de Graeme D. Ruxton en 2006: " Si desea comparar la tendencia central de 2 poblaciones en base a muestras de datos no relacionados, entonces la prueba t de varianza desigual siempre debe usarse con preferencia a la prueba t de Student o prueba U de Mann-Whitney " .
En:
Ruxton, GD, 2006. La prueba t de varianza desigual es una alternativa subutilizada a la prueba t de Student y la prueba U de Mann-Whitney .
Behav Ecol . 17, 688-690.
La segunda recomendación (más antigua) es de Coombs et al. (1996, p. 148): " En resumen, la prueba t de muestras independientes es generalmente aceptable en términos de control de las tasas de error Tipo I, siempre que haya muestras suficientemente grandes de igual tamaño, incluso cuando se viola el supuesto de varianza de población igual. Por desigual sin embargo, es preferible utilizar una prueba de segundo orden de James cuando las distribuciones sean simétricas o normales de cola corta. Las alternativas prometedoras incluyen las pruebas de medios recortados Wilcox H y Yuen, que proporcionan un control más amplio de las tasas de error Tipo I que la prueba de Welch o la prueba de James y tienen mayor poder cuando los datos tienen cola larga ". (énfasis agregado)
En:
Coombs WT, Algina J, Oltman D. 1996. Pruebas de hipótesis ómnibus univariadas y multivariadas seleccionadas para controlar las tasas de error tipo I cuando las variaciones de población no son necesariamente iguales . Rev Educ Res 66: 137–79.
por supuesto, uno podría deshacerse de ambas pruebas y comenzar a usar una prueba t bayesiana (prueba de relación Savage-Dickey), que puede explicar las variaciones desiguales y desiguales, y lo mejor de todo, permite una cuantificación de la evidencia a favor de la hipótesis nula (lo que significa, no más de la vieja conversación de "fracaso para rechazar")
Esta prueba es muy simple (y rápida) de implementar, y hay un documento que explica claramente a los lectores que no están familiarizados con las estadísticas bayesianas cómo usarlo, junto con un script R. básicamente puede insertar sus datos y enviar los comandos a la consola R:
También hay un tutorial para todo esto, con datos de ejemplo:
http://www.ruudwetzels.com/index.php?src=SDtest
Sé que esto no es una respuesta directa a lo que se preguntó, pero pensé que los lectores podrían disfrutar de esta buena alternativa
salud
Debido a que los resultados exactos son preferibles a las aproximaciones, y evite los casos de borde impar donde la aproximación puede conducir a un resultado diferente al método exacto.
El método Welch no es una forma más rápida de hacer una prueba t antigua, es una aproximación manejable a un problema que de otra manera sería muy difícil: cómo construir una prueba t bajo variaciones desiguales. El caso de la varianza igual se entiende bien, es simple y exacto, y por lo tanto siempre debe usarse cuando sea posible.
Dos razones por las que puedo pensar:
La T de Student regular es bastante robusta a la heterocedasticidad si los tamaños de muestra son iguales.
Si crees firmemente a priori que los datos son homoscedastic, entonces no pierdes nada y podrías ganar una pequeña cantidad de energía usando Studen'ts T en lugar de Welch's T.
Una razón que no daría es que la T de Student es exacta y la T de Welch no. En mi humilde opinión, la exactitud de la T de Student es académica porque solo es exacta para datos distribuidos normalmente, y no hay datos reales exactamente distribuidos normalmente. No puedo pensar en una sola cantidad que la gente realmente mida y analice estadísticamente donde la distribución podría tener un soporte de todos los números reales. Por ejemplo, solo hay tantos átomos en el universo, y algunas cantidades no pueden ser negativas. Por lo tanto, cuando utiliza cualquier tipo de prueba T en datos reales, de todos modos está haciendo una aproximación.
El hecho de que algo más complejo se reduzca a algo menos complejo cuando se verifica alguna suposición no es suficiente para descartar el método más simple.
Tomaría la vista opuesta aquí. ¿Por qué molestarse con la prueba de Welch cuando la prueba t de estudiante no emparejada estándar le da resultados casi idénticos? Estudié este problema hace un tiempo y exploré una variedad de escenarios en un intento de desglosar la prueba t y favorecer la prueba de Welch. Para hacerlo, utilicé tamaños de muestra hasta 5 veces mayores para un grupo frente al otro. Y exploré las variaciones hasta 25 veces mayores para un grupo frente al otro. Y, realmente no hizo ninguna diferencia material. La prueba t no emparejada todavía generó un rango de valores de p que eran casi idénticos a la prueba de Welch.
Puede ver mi trabajo en el siguiente enlace y centrarse especialmente en las diapositivas 5 y 6.
Es cierto que las propiedades frecuentistas de la prueba corregida de Welch son mejores que la T de Student ordinaria, al menos para los errores. Estoy de acuerdo en que solo eso es un argumento bastante bueno para la prueba de Welch. Sin embargo, generalmente soy reacio a recomendar la corrección de Welch porque su uso a menudo es engañoso. Lo cual, ciertamente, no es una crítica de la prueba en sí.
La razón por la que no recomiendo la corrección de Welch es que no solo cambia los grados de libertad y la distribución teórica posterior de la que se extrae el valor p. Hace que la prueba no sea paramétrica. Para realizar una prueba t corregida de Welch, uno agrupa la varianza como si se pudiera suponer una varianza igual, pero luego cambia el procedimiento de prueba final, lo que implica que no se puede suponer una varianza igual o que solo le interesan las variaciones de la muestra. Esto lo convierte en una prueba no paramétrica porque la varianza agrupada se considera no representativa de la población y admitió que solo está probando sus valores observados.
En sí mismo, no hay nada particularmente malo en eso. Sin embargo, lo encuentro engañoso porque a) generalmente no se informa con suficiente especificidad; yb) las personas que lo usan tienden a pensarlo indistintamente con una prueba t. La única forma en que sé que se ha hecho en documentos publicados es cuando veo un DF extraño para la distribución t. Esa fue también la única forma en que Rexton (al que se hace referencia en la respuesta de Henrik) podía verlo en la revisión. Desafortunadamente, la naturaleza no paramétrica de la prueba corregida de Welch ocurre si los grados de libertad han cambiado o no (es decir, incluso si las variaciones de la muestra son iguales). Pero este problema de informe es sintomático del hecho de que la mayoría de las personas que usan la corrección de Welch no reconocen este cambio en la prueba.
Por lo tanto, debido a esto, creo que si va a recomendar una prueba no paramétrica, no use una que a menudo parezca paramétrica o al menos tenga muy claro lo que está haciendo. El nombre oficial de la prueba debe ser Prueba T corregida Welch no paramétrica. Si la gente lo informara de esa manera, estaría mucho más feliz con la recomendación de Henrik.