Tengo un conjunto de datos que contiene ~ 7.500 análisis de sangre de ~ 2.500 personas. Estoy tratando de averiguar si la variabilidad en los análisis de sangre aumenta o disminuye con el tiempo entre dos pruebas. Por ejemplo: extraigo su sangre para la prueba de referencia y luego extraigo inmediatamente una segunda muestra. Seis meses después, saco otra muestra. Uno podría esperar que la diferencia entre la línea de base y las pruebas de repetición inmediata sea menor que la diferencia entre la línea de base y la prueba de seis meses.
Cada punto en la gráfica a continuación refleja la diferencia entre dos pruebas. X es el número de días entre dos pruebas; Y es el tamaño de la diferencia entre las dos pruebas. Como puede ver, las pruebas no se distribuyen uniformemente a lo largo de X: el estudio no fue diseñado para abordar esta pregunta, realmente. Debido a que los puntos están muy apilados en la media, he incluido 95% (azul) y 99% (rojo) líneas cuantiles, basadas en ventanas de 28 días. Obviamente, estos se ven afectados por los puntos más extremos, pero se entiende la idea.
texto alternativo http://a.imageshack.us/img175/6595/diffsbydays.png
Me parece que la variabilidad es bastante estable. En todo caso, es mayor cuando la prueba se repite en un período corto, eso es terriblemente contradictorio. ¿Cómo puedo abordar esto de una manera sistemática, teniendo en cuenta la variación de n en cada punto de tiempo (y algunos períodos sin pruebas)? Tus ideas son muy apreciadas.
Solo como referencia, esta es la distribución del número de días entre prueba y prueba:
texto alternativo http://a.imageshack.us/img697/6572/testsateachtimepoint.png