Estoy examinando algunos datos de cobertura genómica que son básicamente una larga lista (unos pocos millones de valores) de enteros, cada uno de los cuales dice cuán bien (o "profunda") está cubierta esta posición en el genoma.
Me gustaría buscar "valles" en estos datos, es decir, regiones que son significativamente "más bajas" que su entorno.
Tenga en cuenta que el tamaño de los valles que estoy buscando puede variar de 50 bases a unos pocos miles.
¿Qué tipo de paradigmas recomendarías usar para encontrar esos valles?
ACTUALIZAR
Algunos ejemplos gráficos para los datos:
ACTUALIZACIÓN 2
Definir qué es un valle es, por supuesto, una de las preguntas con las que estoy luchando. Estos son obvios para mí:
pero hay algunas situaciones más complejas. En general, hay 3 criterios que considero: 1. La cobertura (¿promedio? ¿Máxima?) En la ventana con respecto al promedio global. 2. La (...) cobertura en la ventana con respecto a su entorno inmediato. 3. ¿Qué tan grande es la ventana: si veo una cobertura muy baja para un período corto es interesante, si veo una cobertura muy baja durante un largo periodo también es interesante, si veo una cobertura ligeramente bajo para un corto espacio es no realmente interesante , pero si veo una cobertura levemente baja durante un período largo, es ... Entonces, es una combinación de la longitud del sapn y su cobertura. Cuanto más largo es, más alto dejo la cobertura y aún lo considero un valle.
Gracias,
Dave