Esa es una pregunta interesante. Mi grupo de investigación ha estado utilizando la distribución a la que hace referencia durante algunos años en nuestro software de bioinformática disponible al público. Hasta donde yo sé, la distribución no tiene un nombre y no hay literatura al respecto. Si bien el artículo de Chandra et al (2012) citado por Aksakal está estrechamente relacionado, la distribución que consideran parece estar restringida a valores enteros para y no parecen dar una expresión explícita para el pdf.r
Para darle algunos antecedentes, la distribución NB se usa mucho en la investigación genómica para modelar datos de expresión génica que surgen de RNA-seq y tecnologías relacionadas. Los datos del recuento surgen a medida que el número de lecturas de secuencias de ADN o ARN extraídas de una muestra biológica que se puede mapear a cada gen. Por lo general, hay decenas de millones de lecturas de cada muestra biológica que se asignan a unos 25,000 genes. Alternativamente, uno podría tener muestras de ADN de las cuales las lecturas se asignan a ventanas genómicas. Nosotros y otros hemos popularizado un enfoque mediante el cual NB glms se ajustan a las lecturas de secuencia para cada gen, y se utilizan métodos empíricos de Bayes para moderar los estimadores de dispersión genewise (dispersionϕ=1/r) Este enfoque ha sido citado en decenas de miles de artículos de revistas en la literatura genómica, por lo que puede tener una idea de cuánto se usa.
Mi grupo mantiene el paquete de software edgeR R. Hace algunos años revisamos todo el paquete para que funcione con recuentos fraccionarios, utilizando una versión continua del NB pmf. Simplemente convertimos todos los coeficientes binomiales en el NB pmf a relaciones de funciones gamma y lo usamos como un pdf continuo (mixto). La motivación para esto fue que los recuentos de lectura de secuencia a veces pueden ser fraccionados debido a (1) mapeo ambiguo de lecturas al transcriptoma o genoma y / o (2) normalización de recuentos para corregir los efectos técnicos. Entonces, los recuentos a veces son recuentos esperados o recuentos estimados en lugar de conteos observados. Y, por supuesto, los recuentos de lectura pueden ser exactamente cero con probabilidad positiva. Nuestro enfoque garantiza que los resultados de inferencia de nuestro software sean continuos en los recuentos, coincidiendo exactamente con resultados discretos de NB cuando los recuentos estimados son enteros.
Hasta donde sé, no hay una forma cerrada para la constante de normalización en el pdf, ni hay formas cerradas para la media o la varianza. Cuando se considera que no existe una forma cerrada para la integral
(la constante de Fransen-Robinson), está claro que no puede existir para la integral de la continua NB pdf tampoco. Sin embargo, me parece que las fórmulas tradicionales de media y varianza para el NB deberían seguir siendo buenas aproximaciones para el NB continuo. Además, la constante de normalización debe variar lentamente con los parámetros y, por lo tanto, puede ignorarse por tener una influencia insignificante en los cálculos de máxima verosimilitud.
∫∞01Γ(x)dz
Uno puede confirmar estas hipótesis por integración numérica. La distribución NB surge en bioinformática como una mezcla gamma de distribuciones de Poisson (ver el artículo binomial negativo de Wikipedia o McCarthy et al más abajo). La distribución continua de NB surge simplemente reemplazando la distribución de Poisson con su análogo continuo con pdf
para donde es una constante de normalización para garantizar que la densidad se integre a 1. Supongamos, por ejemplo, que . La distribución de Poisson tiene pmf igual al pdf anterior en los enteros no negativos y, con x≥0un(λ)λ=10λ=10una(10)=1/0.999875-1/2∞
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10, la media y la varianza de Poisson son iguales a 10. La integración numérica muestra que y la media y la varianza de la distribución continua son iguales a 10 a aproximadamente 4 cifras significativas. Por lo tanto, la constante de normalización es prácticamente 1 y la media y la varianza son casi exactamente las mismas que para la distribución discreta de Poisson. La aproximación se mejora aún más si agregamos una corrección de continuidad, integrando de a lugar de 0. Con la corrección de continuidad, todo es correcto (la constante de normalización es 1 y los momentos coinciden con Poisson discreto) a aproximadamente 6 figuras
a(10)=1/0.999875−1/2∞
En nuestro paquete edgeR, no necesitamos hacer ningún ajuste por el hecho de que hay masa en cero, porque siempre trabajamos con probabilidades de registro condicionales o con diferencias de probabilidad de registro y cualquier función delta se cancela de los cálculos. Esto es típico por cierto para glms con distribuciones de probabilidad mixtas. Alternativamente, podríamos considerar que la distribución no tiene masa en cero sino que tiene un soporte que comienza en -1/2 en lugar de en cero. Cualquiera de las perspectivas teóricas conduce a los mismos cálculos en la práctica.
Aunque hacemos un uso activo de la distribución NB continua, no hemos publicado nada explícitamente. Los artículos citados a continuación explican el enfoque NB de los datos genómicos, pero no discuten explícitamente la distribución continua de NB.
En resumen, no me sorprende que el artículo que está estudiando haya obtenido resultados razonables de una versión continua del pdf de NB, porque esa es también nuestra experiencia. El requisito clave es que deberíamos modelar las medias y las variaciones correctamente y eso estará bien siempre que los datos, sean enteros o no, exhiban la misma forma de relación cuadrática de media-varianza que la distribución NB.
Referencias
Robinson, M. y Smyth, GK (2008). Estimación de muestra pequeña de dispersión binomial negativa, con aplicaciones para datos SAGE . Bioestadística 9, 321-332.
Robinson, MD, y Smyth, GK (2007). Pruebas estadísticas moderadas para evaluar las diferencias en la abundancia de etiquetas . Bioinformática 23, 2881-2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). Análisis de expresión diferencial de experimentos multifactoriales de RNA-Seq con respecto a la variación biológica . Nucleic Acids Research 40, 4288-4297.
Chen, Y, Lun, ATL y Smyth, GK (2014). Análisis de expresión diferencial de experimentos complejos de RNA-seq usando edgeR. En: Análisis estadístico de datos de secuencia de próxima generación, Somnath Datta y Daniel S Nettleton (eds), Springer, Nueva York, páginas 51-74. Preimpresión
Lun, ATL, Chen, Y y Smyth, GK (2016). Es DE-licious: una receta para análisis de expresión diferencial de experimentos de RNA-seq utilizando métodos de cuasi-verosimilitud en edgeR. Methods in Molecular Biology 1418, 391-416. Preimpresión
Chen Y, Lun ATL y Smyth, GK (2016). De las lecturas a los genes a las vías: análisis de expresión diferencial de experimentos de RNA-Seq usando Rsubread y la tubería de cuasi-verosimilitud edgeR . F1000 Investigación 5, 1438.