Tienes razón. El problema de las comparaciones múltiples existe en todas partes, pero, debido a la forma en que generalmente se enseña, las personas solo piensan que se trata de comparar muchos grupos entre sí a través de un montón de pruebas . En realidad, hay muchos ejemplos en los que existe el problema de las comparaciones múltiples, pero donde no parece muchas comparaciones por pares; por ejemplo, si tiene muchas variables continuas y se pregunta si alguna está correlacionada, tendrá un problema de comparaciones múltiples (vea aquí: Mire y encontrará una correlación ). t
Otro ejemplo es el que planteas. Si ejecutara una regresión múltiple con 20 variables, y utilizara como su umbral, esperaría que una de sus variables sea 'significativa' solo por casualidad, incluso si todos los valores nulos fueran verdaderos. El problema de las comparaciones múltiples simplemente proviene de la matemática de ejecutar muchos análisis. Si todas las hipótesis nulas fueran verdaderas y las variables estuvieran perfectamente sin correlación, la probabilidad de no rechazar falsamente cualquier nulo verdadero sería ( . Ej., Con , esto es ). α = .051 - ( 1 - α ) p p = 5 .231 - ( 1 - α )pagp = 5.23
La primera estrategia para mitigar esto es realizar una prueba simultánea de su modelo. Si está ajustando una regresión OLS, la mayoría del software le dará una prueba global como parte predeterminada de su salida. Si está ejecutando un modelo lineal generalizado, la mayoría del software le proporcionará una prueba de razón de probabilidad global análoga. Esta prueba le dará cierta protección contra la inflación de error tipo I debido al problema de las comparaciones múltiples (cf., mi respuesta aquí: Importancia de los coeficientes en la regresión lineal: prueba t significativa versus estadística F no significativa ). Un caso similar es cuando tiene una variable categórica que se representa con varios códigos ficticios; no querrías interpretar esosFtt-prueba, pero eliminaría todos los códigos ficticios y, en su lugar, realizaría una prueba de modelo anidado.
Otra estrategia posible es utilizar un procedimiento de ajuste alfa, como la corrección de Bonferroni. Debes darte cuenta de que hacer esto reducirá tu poder y reducirá tu tasa de error familiar tipo I. Si esta compensación vale la pena es una decisión decisiva para usted. (FWIW, normalmente no uso correcciones alfa en regresión múltiple).
Con respecto al tema del uso de los valores para hacer la selección del modelo, creo que esta es una muy mala idea. No pasaría de un modelo con 5 variables a uno con solo 2 porque los otros eran 'no significativos'. Cuando las personas hacen esto, sesgan su modelo. Puede ayudarlo a leer mi respuesta aquí: algoritmos para la selección automática de modelos para comprender esto mejor. p
Con respecto a su actualización, no sugeriría que evalúe primero las correlaciones univariadas para decidir qué variables usar en el modelo final de regresión múltiple. Hacer esto conducirá a problemas con la endogeneidad a menos que las variables no estén correlacionadas entre sí. este problema en mi respuesta aquí: Estimando lugar deb1x1+b2x2b1x1+b2x2+b3x3 .
Con respecto a la cuestión de cómo manejar los análisis con diferentes variables dependientes, si desea utilizar algún tipo de ajuste se basa en cómo ve los análisis entre sí. La idea tradicional es determinar si se consideran significativamente como una 'familia'. Esto se discute aquí: ¿Cuál podría ser una definición clara y práctica para una "familia de hipótesis"? También es posible que desee leer este hilo: Métodos para predecir múltiples variables dependientes .