Si ejecuta pruebas estadísticas independientes utilizando α como su nivel de significancia, y el valor nulo se obtiene en todos los casos, si encontrará o no 'significancia' es simplemente un sorteo de una variable aleatoria. Específicamente, se toma de una distribución binomial con p = α y n = k . Por ejemplo, si planea ejecutar 3 pruebas usando α = .05 , y (sin que usted lo sepa) en realidad no hay diferencia en cada caso, entonces hay un 5% de posibilidades de encontrar un resultado significativo en cada prueba. De esta manera, la tasa de error tipo I se mantiene en αkαp = αn = kα = .05αpara las pruebas individualmente, pero en el conjunto de 3 pruebas, la tasa de error tipo I a largo plazo será mayor. Si cree que es significativo agrupar / pensar en estas 3 pruebas juntas, es posible que desee mantener la tasa de error de tipo I en para el conjunto como un todo , en lugar de solo individualmente. ¿Cómo deberías hacer esto? Hay dos enfoques que se centran en cambiar del α original (es decir, ) a un nuevo valor (es decir, ):ααα n e wαoαn e w
Bonferroni: ajuste el utilizado para evaluar la 'importancia' de modo queα
αn e w= αok
Dunn-Sidak: ajuste usandoα
αn e w= 1 - ( 1 - αo)1 / k
(Tenga en cuenta que Dunn-Sidak asume que todas las pruebas dentro del conjunto son independientes entre sí y podrían generar una inflación de error tipo I familiar si ese supuesto no se cumple).
Es importante señalar que cuando se realizan las pruebas, hay dos tipos de errores que se quiere evitar, de tipo I (es decir, diciendo que es una diferencia cuando no hay uno) y tipo II (es decir, diciendo que no es una diferencia cuando en realidad la hay). Por lo general, cuando las personas discuten este tema, solo discuten, y parecen estar conscientes o preocupados por, los errores de tipo I. Además, las personas a menudo no mencionan que la tasa de error calculada solo se mantendrá si todos los valores nulos son verdaderos. Es trivialmente obvio que no puede cometer un error de tipo I si la hipótesis nula es falsa, pero es importante tener ese hecho explícitamente en mente al discutir este tema.
Traigo esto a colación porque hay implicaciones de estos hechos que parecen pasar desapercibidos. Primero, si , el enfoque Dunn-Sidak ofrecerá una mayor potencia (aunque la diferencia puede ser bastante pequeña con una pequeña ) y, por lo tanto, siempre debe preferirse (cuando corresponda). En segundo lugar, se debe utilizar un enfoque de "reducción" . Es decir, pruebe primero el mayor efecto; Si está convencido de que el valor nulo no se obtiene en ese caso, el número máximo posible de errores de tipo I es , por lo que la siguiente prueba debe ajustarse en consecuencia, y así sucesivamente. (Esto a menudo hace que las personas incómodas y se parece a la pesca, pero es nok k - 1 αk > 1kk - 1pesca, ya que las pruebas son independientes y tenía la intención de realizarlas antes de ver los datos. Esta es solo una forma de ajustar manera óptima). α
Lo anterior se cumple sin importar cómo valore el tipo I en relación con los errores de tipo II. Sin embargo, a priori no hay razón para creer que los errores de tipo I son peores que los de tipo II (a pesar de que todo el mundo parece asumirlo). En cambio, esta es una decisión que debe tomar el investigador y debe ser específica para esa situación. Personalmente, si estoy ejecutando contrastes ortogonales teóricamente sugeridos, a priori , generalmente no ajusto .α
(Y para decir esto nuevamente, porque es importante, todo lo anterior supone que las pruebas son independientes. Si los contrastes no son independientes, como cuando se comparan varios tratamientos con el mismo control, un enfoque diferente al ajuste , como la prueba de Dunnett, debe usarse). α