¿Es una prueba de Mann Whitney sobre datos donde los supuestos no se satisfacen o son casi tan poderosos como una prueba t sobre datos donde se cumplen los supuestos?
Una frase como 'tan poderoso' realmente no funciona como una declaración general.
El poder no es especialmente comparable entre los diferentes modelos de distribución. El tamaño de un efecto dado tiene diferentes significados en diferentes partes de la distribución. Imagina que tienes una distribución que es bastante alta, pero tiene una cola pesada; ¿en qué medida decimos que un tamaño particular de desviación es similar a algo con un centro mucho más 'plano' y una cola más pequeña? Una pequeña desviación podría ser tan fácil de detectar, pero una gran desviación podría ser (en relación con la otra posibilidad de distribución por la que estamos tratando de comparar el poder) más difícil.
Con dos posibles conjuntos de distribuciones normales, un par con un SD grande y otro con un SD pequeño, es fácil decir 'bueno, la potencia solo escalará con la desviación estándar; Si definimos el tamaño de nuestro efecto en términos de número de desviaciones estándar, podemos relacionar las dos curvas de potencia '.
Pero ahora con distribuciones de formas diferentes , no hay una elección de escala obvia. Debemos tomar algunas decisiones sobre cómo compararlos. Las elecciones que hagamos determinarán cómo se "comparan".
Por ejemplo, ¿cómo comparo el poder cuando los datos son Cauchy con el poder cuando los datos son, por ejemplo, una beta escalada (2,2)? ¿Qué es un tamaño de efecto comparable? El Cauchy a continuación tiene más de su distribución entre -1 y 1 y menos de su distribución entre -3 y 3 que el otro. Sus rangos intercuartiles son diferentes, por ejemplo. ¿Cuál es nuestra base de comparación?
Si puede resolver ese enigma, considere ahora si una de las distribuciones está sesgada a la izquierda y la otra es bimodal, o cualquiera de una miríada de otras posibilidades.
Todavía puede calcular el poder bajo cualquier conjunto particular de supuestos, pero la comparación de una prueba entre diferentes supuestos de distribución en lugar de dos pruebas bajo un supuesto de distribución dado es conceptualmente muy difícil.