No sé nada acerca de los estudios de expresión génica, pero tengo cierto interés en la inferencia múltiple, por lo que me arriesgaré a responder esta parte de la pregunta de todos modos.
Personalmente, no abordaría el problema de esa manera. Ajustaría el nivel de error en los estudios originales, calcularía la nueva superposición y dejaría la prueba al final sola. Si el número de genes expresados diferencialmente (y cualquier otro resultado que esté usando) ya se basa en pruebas ajustadas, diría que no necesita hacer nada.
Si no puede volver a los datos originales y realmente desea ajustar el valor p , puede multiplicarlo por el número de pruebas, pero no veo por qué debería tener algo que ver con el tamaño de list2. Tendría más sentido ajustar el número total de pruebas realizadas en ambos estudios (es decir, dos veces la población). Sin embargo, esto va a ser brutal.
Para ajustar los valores p en R, puede usar p.adjust(p)
, donde p
es un vector de valores p .
p.adjust(p, method="bonferroni") # Bonferroni method, simple multiplication
p.adjust(p, method="holm") # Holm-Bonferroni method, more powerful than Bonferroni
p.adjust(p, method="BH") # Benjamini-Hochberg
Como se indica en el archivo de ayuda, no hay ninguna razón para no utilizar Holm-Bonferroni sobre Bonferroni, ya que también proporciona un fuerte control de la tasa de error familiar en cualquier caso, pero es más poderoso. Benjamini-Hochberg controla la tasa de descubrimiento falso, que es un criterio menos estricto.
Editado después del comentario a continuación:
Cuanto más pienso en el problema, más pienso que una corrección para comparaciones múltiples es innecesaria e inapropiada en esta situación. Aquí es donde entra en juego la noción de una "familia" de hipótesis. Su última prueba no es muy comparable a todas las pruebas anteriores, no existe el riesgo de "capitalizar la oportunidad" o elegir resultados significativos, solo hay una prueba de interés y es legítimo usar el nivel de error ordinario para este.
Incluso si corrige agresivamente las numerosas pruebas realizadas anteriormente, aún no abordaría directamente la principal preocupación, que es el hecho de que algunos de los genes en ambas listas podrían haberse detectado espuriosamente como expresados diferencialmente. Los resultados de las pruebas anteriores aún "se mantienen" y si desea interpretar estos resultados mientras controla la tasa de error familiar, también debe corregirlos todos.
Pero si la hipótesis nula realmente es cierta para todos los genes, cualquier resultado significativo sería un falso positivo y no esperaría que el mismo gen se marcara nuevamente en la siguiente muestra. Por lo tanto, la superposición entre ambas listas ocurriría solo por casualidad y esto es exactamente lo que está probando la prueba basada en la distribución hipergeométrica. Entonces, incluso si las listas de genes son basura completa, el resultado de esa última prueba es seguro. Intuitivamente, parece que cualquier cosa intermedia (una combinación de hipótesis verdaderas y falsas) también debería estar bien.
Tal vez alguien con más experiencia en este campo podría influir, pero creo que un ajuste solo sería necesario si desea comparar el número total de genes detectados o descubrir cuáles se expresan de manera diferencial, es decir, si desea interpretar los miles de individuos pruebas realizadas en cada estudio.