El problema con las expediciones de pesca es el siguiente: si prueba suficientes hipótesis, una de ellas se confirmará con un valor p bajo. Déjame darte un ejemplo concreto.
Imagina que estás haciendo un estudio epidemiológico. Ha encontrado 1000 pacientes que sufren de una condición rara. Quieres saber qué tienen en común. Entonces comienza a probar: desea ver si una característica particular está sobrerrepresentada en esta muestra. Inicialmente, realiza una prueba de género, raza, ciertos antecedentes familiares pertinentes (el padre murió de una enfermedad cardíaca antes de los 50 años, ...) pero eventualmente, como tiene problemas para encontrar algo que se "pegue", comienza a agregar todo tipo de otros factores que simplemente podría relacionarse con la enfermedad:
- es vegetariano
- ha viajado a Canadá
- termino la universidad
- está casado
- tiene niños
- tiene gatos
- tiene perros
- bebe al menos 5 vasos de vino tinto por semana
...
Ahora aquí está la cosa. Si selecciono suficientes hipótesis "aleatorias", comienza a ser probable que al menos una de ellas dé como resultado un valor p menor que 0.05, porque la esencia misma del valor p es "la probabilidad de estar equivocado al rechazar la hipótesis nula cuando existe no tiene efecto ". Dicho de otra manera: en promedio, por cada 20 hipótesis falsas que pruebe, una de ellas le dará una p <0.05 .
Esto se resume muy bien en la caricatura de XKCD http://xkcd.com/882/ :
La tragedia es que incluso si un autor individual no realiza 20 pruebas de hipótesis diferentes en una muestra para buscar significado, podría haber otros 19 autores haciendo lo mismo; y el que "encuentra" una correlación ahora tiene un artículo interesante para escribir, y uno que probablemente sea aceptado para su publicación ...
Esto lleva a una desafortunada tendencia a hallazgos irreproducibles. La mejor manera de protegerse contra esto como autor individual es poner el listón más alto. En lugar de probar el factor individual, pregúntese "si pruebo N hipótesis, cuál es la probabilidad de obtener al menos un falso positivo". Cuando realmente está probando "hipótesis de pesca", podría pensar en hacer una corrección de Bonferroni para protegerse contra esto, pero la gente con frecuencia no lo hace.
Hubo algunos documentos interesantes del Dr. Ioannides, perfilados en el Atlantic Monthly específicamente sobre este tema.
Vea también esta pregunta anterior con varias respuestas perspicaces.
actualice para responder mejor a todos los aspectos de su pregunta:
Si tiene miedo de estar "pescando", pero realmente no sabe qué hipótesis formular, definitivamente podría dividir sus datos en las secciones "exploración", "replicación" y "confirmación". En principio, esto debería limitar su exposición a los riesgos descritos anteriormente: si tiene un valor p de 0.05 en los datos de exploración y obtiene un valor similar en los datos de replicación y confirmación, su riesgo de equivocarse disminuye. Un buen ejemplo de "hacerlo bien" se mostró en el British Medical Journal (una publicación muy respetada con un factor de impacto de 17+)
Exploración y confirmación de factores asociados con el embarazo no complicado en mujeres nulíparas: estudio de cohorte prospectivo, Chappell et al.
Aquí está el párrafo relevante:
Dividimos el conjunto de datos de 5628 mujeres en tres partes: un conjunto de datos de exploración de dos tercios de las mujeres de Australia y Nueva Zelanda, elegidas al azar (n = 2129); un conjunto de datos de replicación local del tercio restante de mujeres de Australia y Nueva Zelanda (n = 1067); y un conjunto de datos de confirmación externo, geográficamente distinto, de 2432 mujeres europeas del Reino Unido y la República de Irlanda.
Volviendo un poco a la literatura, hay un buen artículo de Altman et al titulado "Pronóstico e investigación pronóstica: validando un modelo pronóstico" que profundiza mucho más y sugiere formas de asegurarse de que no caiga en este error. Los "puntos principales" del artículo:
Los modelos no validados no deben usarse en la práctica clínica. Al validar un modelo de pronóstico, se debe evaluar la calibración y la discriminación. La validación debe realizarse con datos diferentes de los utilizados para desarrollar el modelo, preferiblemente de pacientes en otros centros. Los modelos pueden no funcionar bien en la práctica debido a deficiencias en los métodos de desarrollo o porque la nueva muestra es muy diferente de la original
Tenga en cuenta en particular la sugerencia de que se realice la validación (parafraseo) con datos de otras fuentes , es decir, no es suficiente dividir sus datos arbitrariamente en subconjuntos, pero debe hacer lo que pueda para demostrar que el "aprendizaje" en el conjunto de un conjunto de experimentos se pueden aplicar a datos de un conjunto diferente de experimentos. Esa es una barra más alta, pero reduce aún más el riesgo de que un sesgo sistemático en su configuración cree "resultados" que no se pueden verificar de forma independiente.
Es un tema muy importante. ¡Gracias por hacer la pregunta!