¿Cómo calcular los intervalos de confianza para las razones?

12

Considere un experimento que genera una relación entre 0 y 1. La forma en que se obtiene esta relación no debería ser relevante en este contexto. Se elaboró en una versión anterior de esta pregunta , pero se eliminó para mayor claridad después de una discusión sobre meta . $X_i$

Este experimento se repite veces, mientras que es pequeño (aproximadamente 3-10). Se supone que es independiente e idénticamente distribuido. A partir de estos, estimamos la media calculando el promedio , pero ¿cómo calcular el intervalo de confianza correspondiente ? $n$ $n$ $X_i$ $\overline X$ $[U,V]$

Cuando se utiliza el enfoque estándar para calcular los intervalos de confianza, veces es mayor que 1. Sin embargo, mi intuición es que el intervalo de confianza correcto ... $V$

... debe estar dentro del rango 0 y 1
... debería hacerse más pequeño con el aumento de $n$
... está aproximadamente en el orden del calculado con el enfoque estándar
... se calcula mediante un método matemáticamente sólido

Estos no son requisitos absolutos, pero al menos me gustaría entender por qué mi intuición está equivocada.

Cálculos basados en respuestas existentes.

A continuación, los intervalos de confianza resultantes de las respuestas existentes se comparan para . $\{X_i\} = \{0.985,0.986,0.935,0.890,0.999\}$

Enfoque estándar (también conocido como "Matemáticas escolares")

$\overline X = 0.959$ , , por lo tanto, el intervalo de confianza del 99% es . Esto contradice la intuición 1. $\sigma^2 = 0.0204$ $[0.865,1.053]$

Recorte (sugerido por @soakley en los comentarios)

Simplemente usar el enfoque estándar y proporcionar como resultado es fácil de hacer. ¿Pero se nos permite hacer eso? Todavía no estoy convencido de que el límite inferior se mantenga constante (-> 4.) $[0.865,1.000]$

Modelo de regresión logística (sugerido por @Rose Hartman)

Datos transformados: Resultando en , transformando de nuevo resulta en . Obviamente, el 6.90 es un valor atípico para los datos transformados, mientras que el 0.99 no es para los datos no transformados, lo que resulta en un intervalo de confianza que es muy grande. (-> 3.) $\{4.18,4.25,2.09,2.66,6.90\}$ $[0.173,7.87]$ $[0.543,0.999]$

Intervalo de confianza de proporción binomial (sugerido por @Tim)

El enfoque parece bastante bueno, pero desafortunadamente no se ajusta al experimento. Simplemente combinando los resultados e interpretándolo como un gran experimento repetido de Bernoulli como lo sugiere @ZahavaKor resulta en lo siguiente:

$985+986+890+935+999 = 4795$ de en total. Alimentando esto en el Adj. La calculadora Wald da . ¡Esto no parece ser realista, porque ni un solo está dentro de ese intervalo! (-> 3.) $5*1000$ $[0.9511,0.9657]$ $X_i$

Bootstrapping (sugerido por @soakley)

Con tenemos 3125 posibles permutaciones. Tomando el medio de las permutaciones, obtenemos . El aspecto no que mal, aunque me esperaba un mayor intervalo (-> 3.). Sin embargo, es por construcción nunca mayor que . Por lo tanto, para una muestra pequeña, crecerá en lugar de reducirse para aumentar (-> 2.). Esto es al menos lo que sucede con las muestras dadas anteriormente. $n=5$ $\frac{3093}{3125} = 0.99$ $[0.91,0.99]$ $[min(X_i),max(X_i)]$ $n$

confidence-interval

— koalo
fuente

Tienes razón en tu segundo enfoque. No estoy seguro sobre el primero, no se establece claramente en términos estadísticos. Hasta donde yo sé, la reproducibilidad significa que el mismo experimento lo realiza un investigador diferente y obtienen resultados similares. Debe especificar su objetivo con mayor claridad, preferiblemente en términos de una hipótesis estadística sobre el parámetro que está tratando de estimar. Simplemente usar el término "reproducibilidad" es demasiado vago en mi opinión.

— Zahava Kor

Tiene razón, la repetibilidad es el término correcto y no la reproducibilidad. Intentaré construir una definición en términos estadísticos.

— koalo

@ZahavaKor Eliminé mi ejemplo poco especificado sobre la repetibilidad y especifiqué mi aplicación real con la esperanza de que aclare mi problema y no confunda.

— koalo

Si realmente está tomando muestras de tamaño 1000, entonces no ha aplicado correctamente el enfoque de remuestreo. Pero con esa cantidad de datos, no necesita volver a muestrear y debería obtener buenos resultados (es decir, intervalos de confianza estrechos) con el enfoque binomial estándar, como se encontró anteriormente. El hecho de que sus puntos de datos individuales no estén en el intervalo resultante no significa que el intervalo sea incorrecto.

— soakley

1

Bueno, piensa en esto. Muestras 10 artículos y obtienes 9 éxitos. Pruebo 1000 y obtengo 900 éxitos. ¿Quién tendrá la estimación más precisa de la media? Intente utilizar la fórmula a la que hace referencia Tim si la intuición aún no está allí. Entonces, en el último ejemplo en su pregunta, el tamaño de la muestra no es 5, ¡es 5000!

— soakley

6

Primero, para aclarar, lo que está tratando no es una distribución binomial, como sugiere su pregunta (se refiere a él como un experimento de Bernoulli). Las distribuciones binomiales son discretas: el resultado es éxito o fracaso. Su resultado es una relación cada vez que ejecuta su experimento , no un conjunto de éxitos y fracasos sobre los que luego calcula una relación de resumen. Debido a eso, los métodos para calcular un intervalo de confianza de proporción binomial tirarán mucha de su información. Y, sin embargo, tiene razón en que es problemático tratar esto como si estuviera normalmente distribuido, ya que puede obtener un CI que se extienda más allá del rango posible de su variable.

Recomiendo pensar en esto en términos de regresión logística. Ejecute un modelo de regresión logística con su variable de proporción como resultado y sin predictores. La intercepción y su CI le darán lo que necesita en logits, y luego puede convertirlo nuevamente a proporciones. También puede hacer la conversión logística usted mismo, calcular el CI y luego volver a convertir a la escala original. Mi python es terrible, pero así es como puedes hacer eso en R:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

data_logits <- log(data/(1-data)) 
hist(data_logits)

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

Estos son los límites inferior y superior en un IC del 99% para estos datos:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924

— Rose Hartman
fuente

Eso suena como un buen enfoque, sin embargo, los resultados no son lo que esperaría intuitivamente: los data_logits para 0.99,0.94,0.94 son 4.59,2.75,2,75, dando un intervalo de confianza de [-2.73,9.47]. Transformar esto de nuevo da [0.061,0.999], mucho más grande de lo que esperaría.

— koalo

1

Para solo tres observaciones, debe esperar un intervalo de confianza muy grande. Según su histograma, parece que tiene muchas más de tres observaciones --- Supuse que su ejemplo con 0.99,0.94,0.94 era solo para ilustrar. Si el tamaño real de su muestra es tres, no recomiendo calcular los intervalos de confianza (o los medios, para el caso).

— Rose Hartman

El histograma anterior proviene del script de Python para ilustrar mi problema. No puedo obtener tantas mediciones del experimento del mundo real. Al menos no para cada combinación de parámetros. Estoy de acuerdo en que 3 podría ser demasiado pequeño y tal vez alrededor de 10 serán posibles en la evaluación final, pero ciertamente no mucho más. Entonces, ¿qué debo hacer al respecto para demostrar que no solo tuve la suerte de obtener una sola medición, sino que repetir el experimento no da resultados completamente diferentes?

— koalo

@RoseHartman Esa es una descripción clara y agradable, pero también sería bueno ver su método aplicado a la muestra de datos (n = 5) en la pregunta.

— PM.

@scitamehtam Escribí mi respuesta antes de que koalo proporcionara los datos de ejemplo y aclarase que el tamaño de la muestra sería de 10 o menos observaciones. Desde entonces, Koalo ha actualizado la pregunta original para incluir ejemplos trabajados de cada método de respuesta con los datos n = 5, muy útil.

— Rose Hartman

3

Es posible que desee probar remuestreo / bootstrapping. Veamos el caso simple que mencionaste.

Con 3 puntos de datos de 0.99, 0.94 y 0.94, ni siquiera haría el remuestreo porque solo puede enumerar las 27 permutaciones posibles, encontrar la media en cada caso y luego ordenar las medias.

Si crea la lista y toma las 25 observaciones del medio, tiene un intervalo de confianza de 25/27 92.6% de [0.9400, 0.9733]. Si desea aumentar la confianza a 26/27 96.3%, tiene dos opciones de intervalos unilaterales. Ya sea [0.9400, 0.9733] o [0.94, 0.99]. $25/27=$ $26/27=$

Supongo que su será mucho mayor que 3, por lo que volverá a muestrear con reemplazo. Digamos que haces esto 1000 veces. Luego encuentra la media en cada caso. Del conjunto de 1000 medias, tome los valores medios de 950. Los valores más bajos y más altos de este subconjunto forman el intervalo de confianza del 95%. $n$

La pregunta aquí: ¿Cómo creamos un intervalo de confianza para el parámetro de una prueba de permutación? da más detalles, incluido un código R.

— Soakley
fuente

Como se escribió en otro comentario, n no será "mucho mayor que 3", pero tal vez n = 10 es posible si es necesario. Si bien este enfoque garantiza que mi intervalo de confianza no superará 1.0, parece subestimar considerablemente el intervalo de confianza proporcionado por otros métodos. De hecho, nunca será mayor que el intervalo [min, max].

— koalo

¿Con qué frecuencia cree que la media estará fuera de [min, max]?

— soakley

Probablemente rara vez, pero ¿eso también significa que si el intervalo [min, max] es lo suficientemente pequeño como para demostrar mi apoyo, puedo olvidar el intervalo de confianza y simplemente proporcionar [min, max]? En mi experiencia, para tamaños de muestra pequeños, el intervalo de confianza es bastante grande en comparación con [min, max].

— koalo

2

Los intervalos de confianza binomiales han sido objeto de debates estadísticos durante mucho tiempo. Su problema considera una proporción inferior al 100%, pero se vuelve aún más problemático si usamos el 100%. Una forma perspicaz de hacer la pregunta es:

Dado que el sol ha salido sin falta todos los días durante los últimos 2.000 años, ¿cuál es la probabilidad de que salga mañana?

$p=1$

Hay varios métodos para calcular estas colas. Recomiendo consultar Wikipedia para las matemáticas, o si solo desea la respuesta, busque una calculadora de intervalo binomial como esta (que también tiene una explicación más de las matemáticas detrás de ella).

— Tim
fuente

Eso está muy cerca de lo que estoy buscando, pero las fórmulas solo parecen calcular el intervalo de confianza para el resultado de una sola ejecución de mi experimento y no un intervalo de confianza para la media de varios experimentos.

— koalo

No importa si tiene una o varias ejecuciones, siempre que el denominador (100 paquetes en su ejemplo) permanezca igual en todas las ejecuciones. Ejecutar 3 experimentos de 100 cada uno es matemáticamente lo mismo que ejecutar un experimento con 300 paquetes, y puede usar las fórmulas binomiales, pero con n = 300 y no n = 100. Si los denominadores no son iguales, debe encontrar la media ponderada (ponderada por las n) y la nueva n será la suma de las n.

— Zahava Kor

@ZahavaKor Como es demasiado largo para un comentario, agregué una edición a mi pregunta. No digo que esté mal, pero no coincide con mi comprensión actual.

— koalo

2

Un enfoque bayesiano:

$B$ $B$

— Neil G
fuente

p = n / m

$p=n/m$

p

$p$

¿Cómo calcular los intervalos de confianza para las razones?

Cálculos basados ​​en respuestas existentes.

Enfoque estándar (también conocido como "Matemáticas escolares")

Recorte (sugerido por @soakley en los comentarios)

Modelo de regresión logística (sugerido por @Rose Hartman)

Intervalo de confianza de proporción binomial (sugerido por @Tim)

Bootstrapping (sugerido por @soakley)

Cálculos basados en respuestas existentes.