Fondo biologico
Con el tiempo, algunas especies de plantas tienden a duplicar sus genomas completos, obteniendo una copia adicional de cada gen. Debido a la inestabilidad de esta configuración, muchos de estos genes se eliminan y el genoma se reorganiza y se estabiliza, listo para duplicarse nuevamente. Estos eventos de duplicación están asociados con eventos de especiación e invasión, y la teoría es que la duplicación ayuda a las plantas a adaptarse más rápido a sus nuevos entornos.
Lupinus, un género de plantas con flores, invadió los Andes en uno de los eventos de especiación más rápidos jamás detectados, y lo que es más, parece tener más copias duplicadas en su genoma que el género más estrechamente relacionado, Baptisia.
Y ahora el problema matemático:
Los genomas de un miembro de Lupinus y un miembro de Baptisia han sido secuenciados, proporcionando datos en bruto sobre 25,000 genes en cada especie. Al consultar una base de datos de genes de función conocida, ahora tengo una "mejor suposición" sobre qué funciones podría desempeñar ese gen, por ejemplo, Gene1298 podría estar asociado con "metabolismo de la fructosa, respuesta al estrés salino, respuesta al estrés por frío". Quiero saber, si hubo un evento de duplicación entre Baptisia y Lupinus, si la pérdida de genes tuvo lugar al azar, o si los genes que realizan funciones particulares tenían más probabilidades de mantenerse o eliminarse.
Tengo un script que generará una tabla como la que se muestra a continuación. L * es un recuento de todos los genes de Lupinus asociados con la función. L 1+ es un recuento de genes de lupino asociados con la función donde existe al menos una copia duplicada. Puedo lograr que produzca L 2+, L 3+, etc., aunque L 1+ es un grupo mucho más confiable que L 2+ debido al proceso de secuenciación.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Lo que me gustaría hacer es evaluar, para cada función genética, si hay más o menos genes con duplicados de lo que podría esperarse por casualidad en Lupinus y Baptisia, y si Lupinus difiere de Baptisia en la proporción de lo observado a lo esperado.
Lo mejor que tengo hasta ahora
Estudios anteriores en diferentes especies han utilizado el Análisis de enriquecimiento, con la Prueba exacta de Fisher y la corrección FDR para muestreo múltiple, para hacer una prueba de contingencia en cada fila.
Sería bueno mejorar esto; No estoy seguro de que esto parezca la mejor manera de hacerlo.
Glen_b ha sugerido usar un GLM para analizar los datos; He jugado con GLM en JMP8, lo que ha sido interesante, pero admito que realmente no los entiendo.
Dicho esto, estoy tratando de usar R en su lugar ahora.
¿Para qué estoy usando esto?
Originalmente se suponía que esto era parte de un breve proyecto de investigación que estoy haciendo en la universidad, pero ahora se ha convertido en un enorme proyecto de anotación genómica. ¿Por qué? Porque la bioinformática es genial. Poder tomar una cadena de A, T, C y G y usarla para inferir información sobre eventos que sucedieron hace millones de años es increíble.
No hace falta decir que no voy a intentar enviar ninguna respuesta amablemente proporcionada como mi propio trabajo. Me complacería incluir un reconocimiento en el documento si uso un método sugerido aquí en el trabajo presentado.