Esto es en respuesta a @vinesh, así como al principio general en la pregunta original.
Realmente hay 2 problemas aquí con comparaciones múltiples: a medida que aumentamos el número de comparaciones que se realizan, tenemos más información que hace que sea más fácil ver las diferencias reales, pero el mayor número de comparaciones también hace que sea más fácil ver las diferencias que no existen. (falsos positivos, dragado de datos, tortura de los datos hasta que confiesa).
Piense en una clase con 100 estudiantes, cada uno de los estudiantes recibe una moneda justa y se le dice que lance la moneda 10 veces y use los resultados para probar la hipótesis nula de que la proporción de caras es del 50%. Esperaríamos que los valores de p oscilen entre 0 y 1 y, por casualidad, esperaríamos ver que alrededor de 5 de los estudiantes obtengan valores de p inferiores a 0.05. De hecho, estaríamos muy sorprendidos si ninguno de ellos obtuviera un valor p menor que 0.05 (menos del 1% de probabilidad de que eso suceda). Si solo observamos los pocos valores significativos e ignoramos todos los demás, concluiremos falsamente que las monedas están sesgadas, pero si usamos una técnica que tenga en cuenta las comparaciones múltiples, entonces probablemente todavía juzgaremos correctamente que las monedas son justas (o al menos no rechazar que ellos o justo).
Por otro lado, considere un caso similar en el que tenemos 10 estudiantes tirando un dado y determinando si el valor está en el conjunto {1,2,3} o el conjunto {4,5,6} cada uno de los cuales tendrá un 50% posibilidad de cada lanzamiento si el dado es justo (pero podría ser diferente si el dado está amañado). Los 10 estudiantes calculan los valores p (nulo es del 50%) y obtienen valores entre 0.06 y 0.25. Ahora, en este caso, ninguno de ellos alcanzó el límite mágico del 5%, por lo que mirar los resultados de los estudiantes individuales no dará como resultado una declaración no justa, pero todos los valores p son menores que 0.5, si todos los dados son justos entonces los valores p deberían estar distribuidos uniformemente y tener una probabilidad del 50% de estar por encima de 0.5. La posibilidad de obtener 10 valores p independientes, todos menores que 0.5 cuando los valores nulos son verdaderos, es menor que la magia 0.05 y esto sugiere que los dados están sesgados,
Ahora el lanzamiento de monedas y el lanzamiento de dados son un poco artificiales, por lo que un ejemplo diferente: tengo un nuevo medicamento que quiero probar. Mi presupuesto me permite probar la droga en 1,000 sujetos (esta será una comparación pareada con cada sujeto siendo su propio control). Estoy considerando 2 diseños de estudio diferentes, en el primero recluto a 1,000 sujetos para hacer el estudio e informar un solo valor p. En el segundo diseño, recluto a 1,000 sujetos pero los divido en 100 grupos de 10 cada uno, hago el estudio en cada uno de los 100 grupos de 10 y calculo un valor p para cada grupo (100 valores p totales). Piense en las posibles diferencias entre las 2 metodologías y cómo las conclusiones podrían diferir. Un enfoque objetivo requeriría que ambos diseños de estudio lleven a la misma conclusión (dados los mismos 1,000 pacientes y todo lo demás es igual).
@mljrg, ¿por qué elegiste comparar g1 y g2? Si se trataba de una cuestión de interés antes de recopilar datos, entonces el valor p de MW es razonable y significativo, sin embargo, si realizó la prueba KW, buscó para ver qué 2 grupos eran los más diferentes e hizo la prueba MW solo en aquellos que Parecían los más diferentes, luego se violaron los supuestos para la prueba de MW y el valor p de MW no tiene sentido y el valor p de KW es el único con significado potencial.