¿Cómo puedo estimar el tiempo en que el 50% de una variable binomial habrá realizado la transición?

8

Tengo los siguientes datos, que representan el estado binario de cuatro sujetos en cuatro ocasiones, tenga en cuenta que solo es posible para cada sujeto a la transición pero no : $0\to 1$ $1\to 0$

testdata <- data.frame(id = c(1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4),
                       day = c(1,1,1,1,8,8,8,8,16,16,16,16,24,24,24,24,32,32,32,32),
                       obs = c(0,0,0,0,0,1,0,0,0,1,1,0,0,1,1,1,1,1,1,1))

Puedo modelarlo con una regresión logística:

testmodel <- glm(formula(obs~day, family=binomial), data=testdata)

> summary(testmodel)


Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.018890   0.148077  -0.128 0.899907    
day          0.032030   0.007555   4.240 0.000493 ***

Primero, ¿cómo puedo explicar las medidas repetidas en el mismo individuo dentro del modelo?

En segundo lugar, ¿cómo puedo estimar, con incertidumbre, el día en que la mitad de los sujetos habrán realizado la transición de ? $0\to 1$

logistic censoring interval-censoring

— David LeBauer
fuente

1

Parece que hay una fuerte dependencia en estos datos: a saber, ¿es el caso que si obs = 1 para el sujeto

el día

entonces necesariamente obs = 1 para el sujeto

el día

siempre que

? Si es así, entonces solo tiene cuatro valores de datos, uno para cada sujeto, y uno de ellos está censurado a la derecha.

i

$i$

t

$t$

i

$i$

s

$s$

s \geq t

$s \ge t$

— whuber

@whuber tiene razón sobre la dependencia (al menos en el análisis actual dentro del año); los datos representan si se produjo o no una 'explosión de brotes' antes de la fecha de observación para cada uno de los cuatro árboles replicados. Pero no estoy seguro de lo que quieres decir con respecto a los valores de datos censurados a la derecha.

— David LeBauer

1

Aquí hay un resumen: el sujeto 2 hizo la transición en el intervalo [1,8]; es decir, 2 -> [1,8]. También 3 -> [8,16], 4 -> [16,24] y 1 -> [24, infinito]. Esto último significa que el sujeto 1 se observó durante 24 días sin transición; Es el valor censurado. Puede enmarcar esto como un problema de análisis de supervivencia y analizarlo en consecuencia. Por cierto, esta dependencia significa que los valores p en la regresión logística son engañosamente bajos.

— whuber

@whuber gracias por la información, pero ¿significa esto que mi enfoque es fundamentalmente defectuoso dado que no estoy interesado en estimar los valores p? Además, ninguno de los datos será censurado correctamente en unas pocas semanas; Estoy desarrollando el análisis antes de que se complete el conjunto de datos. He alterado los datos de la prueba para que ninguno de los sujetos esté censurado correctamente.

— David LeBauer

3

@DWin, @David Esta no es una situación de medición repetida. El formato de datos solo hace que se vea así. La medición para cada sujeto consiste en un único intervalo durante el cual se observó una transición.

— whuber

3

Como se hizo evidente en los comentarios a la pregunta, los datos consisten en solo cuatro observaciones del tiempo hasta la explosión. (Sería un error analizarlos como si fueran 16 valores independientes). Consisten en intervalos de tiempos en lugar de tiempos exactos:

[1,8], [8,16], [16,24], [24,32]

Hay varios enfoques que uno podría tomar. Una muy atractiva y muy general es tomar estos intervalos en su palabra: el verdadero momento de la explosión de brotes podría ser cualquier cosa dentro de cada intervalo. Por lo tanto, se nos lleva a representar la "incertidumbre" en dos formas separadas: incertidumbre de muestreo (presumiblemente tenemos una muestra representativa de la especie este año) e incertidumbre de observación (reflejada por los intervalos).

La incertidumbre de muestreo se maneja con técnicas estadísticas familiares: se nos pide que calculemos la mediana y podemos hacerlo de varias maneras, dependiendo de los supuestos estadísticos, y podemos proporcionar intervalos de confianza para la estimación. Por simplicidad, supongamos que el tiempo para estallar brotes tiene una distribución simétrica. Debido a que es (presumiblemente) no negativo, esto implica que tiene una varianza y también sugiere que la media de incluso solo cuatro observaciones puede estar aproximadamente distribuida normalmente. Además, la simetría implica que podemos usar la media como un sustituto de la mediana (que se busca en la pregunta original). Esto nos da acceso a métodos estándar, simples, estimados e intervalos de confianza.

$(1+8+16+24)/4$ $10.25$ $(8+16+24+32)$ $18$

Mean = [10.25, 18] .

$\text{Mean} = [10.25, 18].$

Esto representa un intervalo completo de estimaciones: ¡un resultado apropiado de un cálculo con entradas de intervalo!

$1-\alpha$ $\mathbf{x} = (x_1, x_2, x_3, x_4)$ $m$ $s$

ucl (x, α) = x + t_{n - 1} (α) s / \sqrt{n} .

$\text{ucl}(\mathbf{x}, \alpha) = x + t_{n-1}(\alpha) s / \sqrt{n}.$

$\text{ucl}((1,8,16,24), .025)$ $28.0758$ $\text{ucl}((8, 11.676, 16, 24), .025) = 25.8674$ Es más pequeño todavía. Al maximizar y minimizar el ucl entre todas las combinaciones posibles de valores consistentes con las observaciones, encontramos (por ejemplo) que

ucl (data, .025) = [25.8, 39.3]

$\text{ucl}(\text{data},.025) = [25.8, 39.3]$

(¡ese es un intervalo de números que representa un intervalo valorado en ucl, no un intervalo de confianza!) y, para el límite de confianza inferior,

lcl (data, .025) = [0, 6.2] .

$\text{lcl}(\text{data},.025) = [0, 6.2].$

$0$ $0$

En palabras, podríamos decir que

"Estas observaciones son consistentes con valores que, si se hubieran medido con precisión , podrían dar como resultado un límite superior de confianza del 2.5% de la mediana de hasta 39.3 días, pero no más alto. Son consistentes con los valores (que podrían diferir del primero) eso daría como resultado un límite de confianza inferior del 2.5% tan bajo como 0. "

Lo que hay que hacer de esto es un asunto de contemplación individual y depende de la aplicación. Si se quiere estar razonablemente seguro de que el brote ocurre antes de los 40 días, entonces este resultado proporciona cierta satisfacción ( condicionalmente en los supuestos sobre la distribución del brote y la independencia de las observaciones ). Si se quiere estimar la explosión de brotes al día más cercano, entonces claramente se necesitan más datos. En otras circunstancias, esta conclusión estadística en términos de límites de confianza con valores de intervalo puede ser frustrante. Por ejemplo, ¿qué tan seguros podemos estar de que el brote se produce en el 50% de las muestras antes de los 30 días? Es difícil de decir, porque las respuestas serán intervalos.

Hay otras formas de manejar este problema. Estoy especialmente a favor de usar métodos de máxima verosimilitud. (Para aplicarlos aquí, necesitaríamos saber más sobre cómo se establecieron los puntos de corte del intervalo. Importa si se determinaron independientemente de los datos o no). La presente pregunta parece ser una buena oportunidad para introducir métodos basados en intervalos porque no parecen ser bien conocidos, aunque en ciertas disciplinas (evaluación de riesgos y análisis de algoritmos) algunas personas los han recomendado calurosamente.

— whuber
fuente

Gracias por su respuesta. Las fechas de muestreo se eligieron independientemente de los datos (aproximadamente cada 1-2 semanas, cuando tuve la oportunidad de salir.

— David LeBauer

Me lo imaginé, David, pero también se me ocurrió que tu habilidad para hacer observaciones podría estar relacionada con las condiciones climáticas y otros factores que podrían influir en el momento de la explosión de las yemas. Por lo tanto, aunque el proceso de elección de las fechas de muestreo puede haberse considerado independiente del proceso de brote, ambos podrían tener una fuerte dependencia

— whuber

2

lo siento, hablé mal. Mis fechas de muestreo fueron menos rigurosas el otoño pasado; en la primavera, todas las fechas estaban separadas por 10 días, excluyendo las observaciones del primer segundo con dt = 13, pero no hubo cambios entre estas observaciones. En el otoño, sin embargo, octubre-noviembre fue bastante lluvioso; tanto la senescencia foliar como los intervalos de muestreo dependieron del clima. (Sé que la senescencia de las hojas depende del clima de la biología, esta información no está en los datos).

— David LeBauer

1

Aquí hay un enfoque simple que no usa regresión logística, pero intenta usar las sugerencias anteriores. El cálculo de las estadísticas de resumen supone, quizás ingenuamente, que la fecha se distribuye normalmente.

Por favor, perdone el código no elegante

escriba una función para estimar el día del brote para cada individuo: use el día del año a mitad de camino entre la última observación de 0 y la primera observación de 1 para cada individuo.

budburst.day <- function(i){
   data.subset <- subset(testdata, subset =
                         id == i, 
                         na.rm = TRUE)
   y1 <- data.subset$day[max(which(data.subset$obs==0))]
   y2 <- data.subset$day[min(which(data.subset$obs==1))]
   y <- mean(c(y1, y2), na.rm = TRUE)
   if(is.na(y) | y<0 | y > 180) y <- NA
   return(y)
}

Calcular estadísticas resumidas

#calculate mean
mean(unlist(lapply(1:4, budburst.day)))
[1] 16.125  

#calculate SE = sd/sqrt(n)
sd(unlist(lapply(1:4, budburst.day)))/2
[1] 5.06777

— David LeBauer
fuente

0

$t_1$ id=1 $24<t_1<32$ $t_1$ $t_i$ $\text{median}(t_i)$

t = replicate(10000, median(sample(c(runif(1, 24, 32),  # id=1
                                     runif(1,  1,  8),  # id=2
                                     runif(1,  8, 16),  # id=3
                                     runif(1, 16, 24)), # id=4
                                   replace=TRUE)))
c(quantile(t, c(.025, .25, .5, .75, .975)), mean=mean(t), sd=sd(t))

Resultado (repetido):

    2.5%       25%       50%       75%     97.5%      mean        sd 
4.602999 11.428310 16.005289 20.549056 28.378774 16.085808  6.243129 
4.517058 11.717245 16.084075 20.898324 28.031452 16.201022  6.219094

Por lo tanto, una aproximación con un intervalo de confianza del 95% de esta mediana es 16 (5 - 28).

EDITAR: Vea el comentario de whuber sobre la limitación de este método cuando el número de observaciones es pequeño (incluyendo n = 4 en sí).

— GaBorgulya
fuente

@GaBorgulya Creo que tienes un error tipográfico; mediana (IC 95%) = 16 (5,28)

— David LeBauer

Sería mejor con un ajuste ML de una forma de distribución razonable a los datos del intervalo seguido de una estimación de la mediana de la distribución.

— whuber

@whuber La "distribución razonable" es la pregunta clave en sí misma.

— GaBorgulya

1

Estoy de acuerdo. Se me ocurre que debe haber enfoques no paramétricos, como los suavizados del núcleo, que funcionen con datos con valores de intervalo.

— whuber

44

1 / 2^{4}

$1/2^4$

0

Puede usar un modelo de riesgo de tiempo discreto ajustado con regresión logística (usando un conjunto de datos de período de persona). Consulte Análisis de datos longitudinales aplicados: software y capítulos de libro 10-12.

Allison también discute

Sin embargo, su conjunto de datos es pequeño.

— B_Miner
fuente

1

Gracias por su respuesta; aunque el conjunto de datos de ejemplo es pequeño, el conjunto de datos real tiene 100 sujetos medidos en 6 fechas

— David LeBauer

-1

Suponiendo que tendrá más datos de la misma estructura, podrá utilizar el método actuarial (tabla de vida) para estimar la supervivencia media.

— GaBorgulya
fuente

1

¡Buena idea! - ¿Pero podría explicar cómo obtener CI para la mediana de una tabla de vida?

— whuber