¿Cómo calcular la duración promedio de la adhesión al vegetarianismo cuando solo tenemos datos de encuestas sobre vegetarianos actuales?

Se encuestó una muestra de población aleatoria. Se les preguntó si comen dieta vegetariana. Si respondieron que sí, también se les pidió que especificaran cuánto tiempo habían estado comiendo una dieta vegetariana sin interrupción. Quiero usar estos datos para calcular la duración promedio de la adherencia al vegetarianismo. En otras palabras, cuando alguien se vuelve vegetariano, quiero saber que, en promedio, se mantienen vegetarianos. Asumamos que:

Todos los encuestados dieron respuestas correctas y precisas.
El mundo es estable: la popularidad del vegetarianismo no está cambiando, la duración promedio de la adhesión tampoco está cambiando.

Mi razonamiento hasta ahora

Me resultó útil analizar un modelo de juguete del mundo, donde a principios de cada año dos personas se vuelven vegetarianas. Cada vez, uno de ellos permanece vegetariano durante 1 año y otro durante 3 años. Obviamente, la duración promedio de la adherencia en este mundo es (1 + 3) / 2 = 2 años. Aquí hay un gráfico que ilustra el ejemplo. Cada rectángulo representa un período de vegetarianismo:

an illustration

Digamos que realizamos una encuesta a mediados del año 4 (línea roja). Obtenemos los siguientes datos:

a table

Obtendríamos los mismos datos si realizáramos la encuesta en cualquier año, comenzando el año 3. Si solo promediamos las respuestas que obtenemos:

(2 * 0.5 + 1.5 + 2.5) / 4 = 1.25

Subestimamos porque suponemos que todos dejaron de ser vegetarianos justo después de la encuesta, lo que obviamente es incorrecto. Para obtener una estimación más cercana al promedio real de veces que estos participantes seguirían siendo vegetarianos, podemos suponer que, en promedio, informaron un tiempo aproximadamente a la mitad de su período de vegetarianismo y multiplicaron las duraciones informadas por 2. En una gran encuesta realizada al azar de la población (como la que estoy analizando), creo que esta es una suposición realista. Al menos daría un valor esperado correcto. Sin embargo, si duplicar es lo único que hacemos, obtenemos un promedio de 2.5, lo cual es una sobreestimación. Esto se debe a que mientras más tiempo la persona permanezca vegetariana, es más probable que esté en la muestra de vegetarianos actuales.

Entonces pensé que la probabilidad de que alguien esté en la muestra de vegetarianos actuales es proporcional a su duración de vegetarianismo. Para tener en cuenta este sesgo, traté de dividir el número de vegetarianos actuales por su duración de adhesión prevista:

yet another table

Sin embargo, esto también da un promedio incorrecto:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2.533333 = 1.579 años

Daría la estimación correcta si el número de vegetarianos se dividiera por sus longitudes correctas de adherencia:

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 años

Pero no funciona si uso longitudes de adherencia previstas y son todo lo que tengo en realidad. No sé qué más probar. Leí un poco sobre el análisis de supervivencia, pero no estoy seguro de cómo aplicarlo en este caso. Idealmente, también me gustaría poder calcular un intervalo de confianza del 90%. Algún consejo sería de gran aprecio.

EDITAR: Es posible que la pregunta anterior no tenga respuesta. Pero también hubo otro estudio que preguntó a una muestra aleatoria de personas si eran / eran vegetarianas y cuántas veces habían sido vegetarianas en el pasado. También sé la edad de todos en ambos estudios y algunas otras cosas. Quizás esta información se pueda usar junto con la encuesta de vegetarianos actuales para obtener el significado de alguna manera. En realidad, el estudio del que hablé es solo una pieza del rompecabezas, pero es muy importante y quiero sacarle más provecho.

— Saulius Šimčikas
fuente

Esa no es una opción de cajero automático. Estos datos definitivamente proporcionan alguna evidencia de la duración de la adherencia, simplemente no sé cómo usarlos.

— Saulius Šimčikas

Al menos una de sus imágenes parece haber desaparecido (error 403 cuando uso la URL).

— barrycarter

@kjetilbhalvorsen Porque el problema no importa si los vegetarianos siguen siendo vegetarianos de por vida. En algún momento, dejarán de ser vegetarianos, ya sea comiendo carne o muriendo.

— Pere

@kjetil Su comentario de "verdaderos vegetarianos" suena como un No Verdadero Escocés . La definición ordinaria de vegetariano no dice nada sobre lo que podría suceder en el futuro, ni sobre por qué alguien es vegetariano, sino solo sobre su comportamiento en el momento en que se considera el atributo. Si alguien es vegetariano ahora, también lo es, por cualquier razón que sea uno. No creo que nuestros sentimientos personales sobre la idea de comer carne o las razones por las que podríamos sentir que lo hagamos estén en el tema aquí; Pertenecen a otro lugar.

— Glen_b -Reinstate Monica

Dado que las personas que son vegetarianas durante más tiempo tienen más probabilidades de ser seleccionadas para aparecer en su muestra, esto significa que la función de densidad de probabilidad de los datos de su muestra es proporcional a uno menos la función de distribución acumulativa de las longitudes de adherencia. Para hacer un ejemplo de su ejemplo, la distribución de longitudes es [0, 0.5, 0, 0.5] (50% duran 1 año, 50% durante 3 años), dando un CDF de [0, 0.5, 0.5, 1 ], siendo uno menos [1, 0.5, 0.5, 0] que es proporcional a los recuentos [2, 1, 1, 0] de su muestra.

— PhiNotPi

Respuestas:

$f_X(x)$ $X$ $EX=\int_0^\infty xf_X(x)dx$

$S$ $X$ $X$

f_{X | S} (x) = \frac{x f_{X} (x)}{\int x f_{X} (x) d x} = \frac{x f_{X} (x)}{E X} .

$f_{X|S}(x) = \frac{xf_X(x)}{\int x f_X(x) dx}=\frac{xf_X(x)}{EX}.$

Z

$Z$

X

$X$

S

$S$

f_{Z | X = x} (z) = \frac{1}{x}, 0 < z < x .

$f_{Z|X=x}(z) = \frac1x, 0<z<x.$

Z

$Z$

\begin{aligned} f_{Z} (z) & = \int_{z}^{\infty} f_{Z | X = x} (z) f_{X | S} (x) d x \\ = \int_{z}^{\infty} \frac{1}{x} \frac{x f_{X} (x)}{E X} d x \\ = \frac{1 - F_{X} (z)}{E X}, \end{aligned}

$\begin{align} f_Z(z) &= \int_z^\infty f_{Z|X=x}(z)f_{X|S}(x)dx \\&= \int_z^\infty \frac1x \frac{xf_X(x)}{EX}dx \\&= \frac{1-F_X(z)}{EX}, \end{align}$

F_{X} (z)

$F_X(z)$

X

$X$

X

$X$

F_{X} (0) = P (X \leq 0) = 0

$F_X(0)=P(X\le 0)=0$

f_{Z} (0) = 1 / E X

$f_Z(0)=1/EX$

$EX$ $f_Z(z)$ $z_1,z_2,\dots,z_n$ $z=0$ $f_Z(z)$ $z=0$ $\hat f_Z(0)$ $f_Z(z)$ $z=0$ $EX$ $\widehat{EX}=1/\hat f_Z(0)$

$f_Z(z)$ $f_X(0)=F_X'(0)>0$ $f_Z(0)$ $EX$ $EX$ en tales situaciones, sin hacer más suposiciones, parece difícil, esencialmente porque los cortos tiempos de adherencia presentes en esta situación apenas se muestran en los datos observados como resultado del muestreo sesgado.

$f_X(x)$

L (θ) = \prod_{i = 1}^{n} \frac{1 - F_{X} (z_{i}; θ)}{E X (θ)}

$L(\theta)=\prod_{i=1}^n \frac{1-F_X(z_i;\theta)}{EX(\theta)}$

Código R que simula datos e implementa ambos métodos:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)

— Jarle Tufto
fuente

Hola, muchas gracias por responder, todavía no me he tomado el tiempo para entenderlo todo, solo quería agregar que sí conozco la distribución general de ese otro estudio. (El único problema con el otro estudio es que hizo que las personas elijan entre opciones por cuánto tiempo han sido vegetarianas y una de las opciones fue "Más de 10 años" y el promedio depende casi por completo de cuánto más de 10 años las personas permanecer vegetariano)

— Saulius Šimčikas

Ok, espero que no haya fallas importantes en mi razonamiento. Veo que @PhiNotPi llega al mismo pdf en su comentario al OP.

— Jarle Tufto

@Saulius Si tiene acceso al segundo conjunto de datos censurado correcto y se puede suponer que las distribuciones subyacentes son idénticas, entonces la solución ideal sería combinar la probabilidad de ese conjunto de datos (que es fácil de escribir si es solo un poco de muestreo censurado correcto) y luego maximizar la probabilidad conjunta.

— Jarle Tufto

ese no está bien censurado: imgur.com/U8ofZ3A Ahora me doy cuenta de que tenía que mencionar esto al principio, pero pensé que mi problema tenía una solución más directa ...

— Saulius Šimčikas

@Saulius Esos datos están censurados por intervalos. Nuevamente, es sencillo calcular la probabilidad.

— Jarle Tufto

(He dudado en agregar esto, ya que parece que @JarleTufto ya ha dado un buen enfoque matemático; sin embargo, no soy lo suficientemente inteligente como para entender su respuesta, y ahora tengo curiosidad si es exactamente el mismo enfoque, o si El enfoque que describo a continuación tiene sus usos).

Lo que haría es adivinar una longitud promedio, y adivinar algunas distribuciones a su alrededor, y luego, para cada una, hacer una simulación de mi población y muestrearla regularmente.

Dijiste que asumir que la población total de vegetarianos no está cambiando, así que cada vez que mi modelo hace que alguien se detenga, se crea un nuevo vegetariano. Necesitamos ejecutar el modelo durante varios años simulados para asegurarnos de que se haya establecido, antes de que podamos comenzar a muestrear. Después de eso, creo que puede tomar muestras cada mes simulado (*) hasta que tenga suficiente para formar su intervalo de confianza del 90%.

*: o cualquier resolución que funcione con sus datos. Si las personas dieron su respuesta al año más cercano, el muestreo cada 6 meses es suficiente.

De todas sus conjeturas, usted elige la media y la distribución que (promediado sobre todas las muestras que tomó) le da el resultado más cercano a lo que dio su encuesta de la vida real.

Repetiría mis conjeturas varias veces, para enfocarme en la mejor coincidencia.

La mejor distribución no puede ser de un solo pico. Los ex vegetarianos en los que personalmente puedo pensar se detuvieron debido a cambios importantes en el estilo de vida (generalmente casarse / vivir con un país no vegetariano o en movimiento, o enfermarse gravemente y un médico sugiere que podría ser una dieta); Por otro lado está el poder del hábito: cuanto más tiempo haya sido vegetariano, más probabilidades tendrá de seguir siendo uno. Si sus datos le hubieran preguntado la edad y el estado de la relación, también podríamos incluirlo en la simulación anterior.

— Darren Cook
fuente