El ajuste de Bonferroni siempre proporcionará un fuerte control de la tasa de error familiar. Esto significa que, cualquiera que sea la naturaleza y el número de las pruebas, o las relaciones entre ellas, si se cumplen sus supuestos, se asegurará de que la probabilidad de tener incluso un resultado significativo erróneo entre todas las pruebas sea a lo sumo , su nivel de error original . Por lo tanto, siempre está disponible .α
Si es apropiado usarlo (a diferencia de otro método o quizás ningún ajuste) depende de sus objetivos, los estándares de su disciplina y la disponibilidad de mejores métodos para su situación específica. Como mínimo, probablemente debería considerar el método Holm-Bonferroni, que es tan general pero menos conservador.
Con respecto a su ejemplo, dado que está realizando varias pruebas, está aumentando la tasa de error familiar (la probabilidad de rechazar erróneamente al menos una hipótesis nula). Si solo realiza una prueba en cada mitad, serían posibles muchos ajustes, incluido el método de Hommel o los métodos que controlan la tasa de descubrimiento falso (que es diferente de la tasa de error familiar). Si realiza una prueba en todo el conjunto de datos seguido de varias subpruebas, las pruebas ya no son independientes, por lo que algunos métodos ya no son apropiados. Como dije antes, Bonferroni está en cualquier caso siempre disponible y garantizado para funcionar como se anuncia (pero también para ser muy conservador ...).
También podría ignorar todo el problema. Formalmente, la tasa de error familiar es más alta, pero con solo dos pruebas todavía no es tan mala. También puede comenzar con una prueba en todo el conjunto de datos, tratada como el resultado principal, seguida de subpruebas para diferentes grupos, sin corregir porque se entienden como resultados secundarios o hipótesis auxiliares.
Si considera muchas variables demográficas de esa manera (en lugar de solo planear probar las diferencias de género desde el principio o tal vez un enfoque de modelado más sistemático), el problema se vuelve más grave con un riesgo significativo de "dragado de datos" (una diferencia resulta significativo por casualidad, lo que le permite rescatar un experimento no concluyente con una buena historia sobre la variable demográfica para arrancar, mientras que en realidad no sucedió nada) y definitivamente debe considerar alguna forma de ajuste para múltiples pruebas. La lógica sigue siendo la misma con X hipótesis diferentes (probar dos hipótesis X dos veces, una en cada mitad del conjunto de datos) implica una tasa de error familiar más alta que probar las hipótesis X solo una vez y probablemente debería ajustarse para eso).