Espero que alguien en estos foros pueda ayudarme con este problema básico en los estudios de expresión génica.
Hice una secuenciación profunda de un tejido experimental y uno de control. Luego obtuve valores de enriquecimiento doble de genes en la muestra experimental sobre el control. El genoma de referencia tiene ~ 15,000 genes. 3.000 de los 15.000 genes están enriquecidos por encima de un cierto límite en mi muestra de interés en comparación con el control.
Entonces: A = población total de genes = 15,000 B = subpoblación enriquecida en RNA-Seq = 3,000.
En un experimento anterior de ChIP-chip, encontré 400 genes enriquecidos por ChIP-chip. De los 400 genes del chip ChIP, 100 genes están en el grupo de 3.000 transcripciones de RNA-Seq enriquecidas.
Entonces: C = número total de genes enriquecidos en chips ChIP = 400.
¿Cuál es la probabilidad de que mis 100 genes ChIP-chip se enriquezcan con RNA-Seq solo por casualidad? En otras palabras, ¿cuál es la forma más prudente de calcular si mi superposición observada entre B y C (100 genes) es mejor que la obtenida por casualidad? Por lo que he leído hasta ahora, la mejor manera de probar esto es mediante el uso de distribución hipergeométrica.
Utilicé una calculadora en línea (stattrek.com) para configurar una prueba de distribución hipergeométrica con los siguientes parámetros: - tamaño de pop = 15,000 - # de éxitos en población = 3,000 - tamaño de muestra = 400, - # de éxitos en muestra = 100. Obtengo lo siguiente para Probabilidad hipergeométrica P (x = 100) = 0.00224050636447747
El número real de genes superpuestos entre B y C = 100. ¿Es esto mejor que por casualidad? No parece que sea si la posibilidad de que un gen sea enriquecido es 1: 5 (3,000 de 15,000). Es por eso que no entiendo cómo es que mi P (x = 100) que calculé anteriormente es 0.0022. Eso equivale a una probabilidad del 0.2% de que la superposición ocurra por casualidad. ¿No debería ser esto mucho más alto?
Si tomé muestras de 400 genes aleatorios de la gran lista de 15,000, entonces se esperaría que 80 de estos genes se enriquecieran por casualidad (1: 5). El número de genes que en realidad se superponen es de 100, por lo que es un poco mejor que por casualidad.
También intenté encontrar una solución usando las funciones dhyper o phyper en R (usando lo que vi en otra publicación): A = todos los genes en el genoma (15,000) B = genes enriquecidos en RNA-Seq (3,000) C = ChIP genes enriquecidos en chip (400) Aquí está la entrada / salida R (adaptada de una publicación anterior de intercambio de pila):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
No estoy seguro de cómo interpretar estos números. Creo que 2.36e-36 es la probabilidad de obtener una superposición completa entre B y C solo por casualidad. Pero esto no tiene sentido, ya que esa probabilidad está mucho más cerca de 1: 5. Si empiezo con 15,000 genes, 3,000 se enriquecerán. Del mismo modo, si empiezo con 400 genes de chips ChIP, 80 de ellos deberían enriquecerse solo en la secuencia de RNA debido a las posibilidades 1: 5 de enriquecimiento en ese conjunto de datos.
¿Cuál es la forma correcta de calcular el valor p, de acuerdo con la distribución hipergeométrica, para la superposición de B y C?