¿Qué fracción de los experimentos repetidos tendrá un tamaño de efecto dentro del intervalo de confianza del 95% del primer experimento?

Mantengamos una situación ideal con muestreo aleatorio, poblaciones gaussianas, varianzas iguales, sin pirateo de P, etc.

Paso 1. Realiza un experimento, por ejemplo, comparando dos medias de muestra, y calcula un intervalo de confianza del 95% para la diferencia entre las dos medias de población.

Paso 2. Realizas muchos más experimentos (miles). La diferencia entre medias variará de un experimento a otro debido al muestreo aleatorio.

Pregunta: ¿Qué fracción de la diferencia entre las medias de la colección de experimentos en el paso 2 estará dentro del intervalo de confianza del paso 1?

Eso no puede ser respondido. Todo depende de lo que sucedió en el paso 1. Si ese experimento del paso 1 fue muy atípico, la respuesta a la pregunta podría ser muy baja.

Así que imagine que ambos pasos se repiten muchas veces (con el paso 2 repetido muchas más veces). Creo que ahora debería ser posible llegar a la expectativa de qué fracción de los experimentos repetidos, en promedio, tiene un tamaño de efecto dentro del intervalo de confianza del 95% del primer experimento.

Parece que la respuesta a estas preguntas debe entenderse para evaluar la reproducibilidad de los estudios, un área muy candente ahora.

confidence-interval replicability

— Harvey Motulsky
fuente

Para cada experimento original (paso 1) , defina como la fracción de los resultados posteriores (paso 2) que producen hallazgos dentro del intervalo de confianza del resultado original. ¿Quieres calcular la distribución empírica de ?

i

$i$

x_{i}

$x_i$

x

$x$

— Matthew Gunn

Sí, entiendes lo que te pido

— Harvey Motulsky

@MatthewGunn le preguntó si deseaba la distribución empírica de la "fracción de captura" para futuras observaciones. Su publicación preguntaba "... debería ser posible, creo, tener una expectativa sobre qué fracción de los experimentos repetidos, en promedio, tienen un tamaño de efecto dentro del intervalo de confianza del 95% del primer experimento" . Esto no es una distribución sino un valor esperado (promedio).

El análisis de Whuber es excelente, pero si necesita una cita, aquí hay un documento que analiza exactamente esta pregunta con gran detalle: Cumming y Maillardet, 2006, Intervalos de confianza y replicación: ¿Dónde caerá el próximo significado? . Lo llaman porcentaje de captura de un intervalo de confianza.

— ameba dice Reinstate Monica

Respuestas:

Análisis

Debido a que esta es una pregunta conceptual, para simplificar, consideremos la situación en la que un intervalo de confianza se construye para una media usando un se toma una muestra aleatoria de tamaño y se toma una segunda muestra aleatoria de tamaño , todos de la misma distribución Normal . (Si lo desea, puede reemplazar las s por valores de la distribución Student de grados de libertad; el siguiente análisis no cambiará). $1-\alpha$

[{\bar{x}}^{(1)} + Z_{α / 2} s^{(1)} / \sqrt{n}, {\bar{x}}^{(1)} + Z_{1 - α / 2} s^{(1)} / \sqrt{n}]

$\left[\bar x^{(1)} + Z_{\alpha/2} s^{(1)}/\sqrt{n}, \bar x^{(1)} + Z_{1-\alpha/2} s^{(1)}/\sqrt{n}\right]$

μ

$\mu$

x^{(1)}

$x^{(1)}$

n

$n$

x^{(2)}

$x^{(2)}$

m

$m$

(μ, σ^{2})

$(\mu,\sigma^2)$

Z

$Z$

t

$t$

n - 1

$n-1$

La posibilidad de que la media de la segunda muestra se encuentre dentro del IC determinado por la primera es

Pr ({\bar{x}}^{(1)} + \frac{Z_{α / 2}}{\sqrt{n}} s^{(1)} \leq {\bar{x}}^{(2)} \leq {\bar{x}}^{(1)} + \frac{Z_{1 - α / 2}}{\sqrt{n}} s^{(1)}) = Pr (\frac{Z_{α / 2}}{\sqrt{n}} s^{(1)} \leq {\bar{x}}^{(2)} - {\bar{x}}^{(1)} \leq \frac{Z_{1 - α / 2}}{\sqrt{n}} s^{(1)}) .

$\Pr\left(\bar x^{(1)} + \frac{Z_{\alpha/2}}{\sqrt{n}} s^{(1)} \le \bar x^{(2)} \le \bar x^{(1)} + \frac{Z_{1-\alpha/2}}{\sqrt{n}} s^{(1)}\right) =\Pr\left(\frac{Z_{\alpha/2}}{\sqrt{n}} s^{(1)} \le \bar x^{(2)}-\bar x^{(1)} \le \frac{Z_{1-\alpha/2}}{\sqrt{n}} s^{(1)}\right).$

Debido a que la primera muestra media es independiente de la primera desviación estándar de la muestra (esto requiere normalidad) y la segunda muestra es independiente de la primera, la diferencia en la muestra significa es independiente de . Además, para este intervalo simétrico . Por lo tanto, escribiendo para la variable aleatoria y cuadrando ambas desigualdades, la probabilidad en cuestión es la misma que $\bar x^{(1)}$ $s^{(1)}$ $U = \bar x^{(2)} - \bar x^{(1)}$ $s^{(1)}$ $Z_{\alpha/2}=-Z_{1-\alpha/2}$ $S$ $s^{(1)}$

Pr (U^{2} \leq {(\frac{Z_{1 - α / 2}}{\sqrt{n}})}^{2} S^{2}) = Pr (\frac{U^{2}}{S^{2}} \leq {(\frac{Z_{1 - α / 2}}{\sqrt{n}})}^{2}) .

$\Pr\left(U^2 \le \left(\frac{Z_{1-\alpha/2}}{\sqrt{n}}\right)^2 S^2\right)= \Pr\left(\frac{U^2}{S^2} \le \left(\frac{Z_{1-\alpha/2}}{\sqrt{n}}\right)^2\right).$

Las leyes de la expectativa implican que tiene una media de y una varianza de $U$ $0$

Var (U) = Var ({\bar{x}}^{(2)} - {\bar{x}}^{(1)}) = σ^{2} (\frac{1}{m} + \frac{1}{n}) .

$\operatorname{Var}(U) = \operatorname{Var}\left(\bar x^{(2)} - \bar x^{(1)}\right) = \sigma^2\left(\frac{1}{m} + \frac{1}{n}\right).$

Como es una combinación lineal de variables normales, también tiene una distribución normal. Por lo tanto, es veces una variable . Ya sabíamos que es veces una variable . En consecuencia, es veces una variable con una distribución . La probabilidad requerida está dada por la distribución F como $U$ $U^2$ $\sigma^2\left(\frac{1}{n} + \frac{1}{m}\right)$ $\chi^2(1)$ $S^2$ $\sigma^2/n$ $\chi^2(n-1)$ $U^2/S^2$ $1/n + 1/m$ $F(1,n-1)$

\begin{matrix} (1) & F_{1, n - 1} (\frac{Z_{1 - α / 2}^{2}}{1 + n / m}) . \end{matrix}

$F_{1,n-1}\left(\frac{Z_{1-\alpha/2}^2}{1 + n/m}\right).\tag{1}$

Discusión

Un caso interesante es cuando la segunda muestra tiene el mismo tamaño que la primera, de modo que y solo y determinan la probabilidad. Aquí están los valores de trazados contra para . $n/m=1$ $n$ $\alpha$ $(1)$ $\alpha$ $n=2,5,20,50$

Los gráficos se elevan a un valor límite en cada medida que aumenta. El tamaño de prueba tradicional está marcado por una línea gris vertical. Para valores grandes de , la posibilidad limitante de es de alrededor del . $\alpha$ $n$ $\alpha=0.05$ $n=m$ $\alpha=0.05$ $85\%$

Al comprender este límite, veremos más allá de los detalles de tamaños de muestra pequeños y comprenderemos mejor el quid de la cuestión. A medida que crece, la distribución aproxima a una . En términos de la distribución normal estándar , la probabilidad luego se aproxima $n=m$ $F$ $\chi^2(1)$ $\Phi$ $(1)$

Φ (\frac{Z_{1 - α / 2}}{\sqrt{2}}) - Φ (\frac{Z_{α / 2}}{\sqrt{2}}) = 1 - 2 Φ (\frac{Z_{α / 2}}{\sqrt{2}}) .

$\Phi\left(\frac{Z_{1-\alpha/2}}{\sqrt{2}}\right) - \Phi\left(\frac{Z_{\alpha/2}}{\sqrt{2}}\right) = 1 - 2\Phi\left(\frac{Z_{\alpha/2}}{\sqrt{2}}\right) .$

Por ejemplo, con , y . En consecuencia, el valor límite alcanzado por las curvas en cuando aumenta será . Puede ver que casi se ha alcanzado para (donde la probabilidad es ). $\alpha=0.05$ $Z_{\alpha/2}/\sqrt{2} \approx -1.96/1.41 \approx -1.386$ $\Phi(-1.386) \approx 0.083$ $\alpha=0.05$ $n$ $1 - 2(0.083) = 1 - 0.166=0.834$ $n=50$ $0.8383\ldots$

Para pequeño , la relación entre y la probabilidad complementaria, el riesgo de que el IC no cubra la segunda media, es casi perfectamente una ley de poder. $\alpha$ $\alpha$ Otra forma de expresar esto es que la probabilidad complementaria logarítmica es casi una función lineal de . La relación limitante es aproximadamente $\log\alpha$

\log (2 Φ (\frac{Z_{α / 2}}{\sqrt{2}})) \approx - 1.79712 + 0.557203 \log (20 α) + 0.00657704 (\log (20 α))^{2} + \dots

$\log\left(2\Phi\left(\frac{Z_{\alpha/2}}{\sqrt{2}}\right)\right) \approx -1.79712 + 0.557203\log(20 \alpha) + 0.00657704 (\log(20 \alpha))^2 + \cdots$

En otras palabras, para grandes y cualquier lugar cerca del valor tradicional de , estará cerca de $n=m$ $\alpha$ $0.05$ $(1)$

1 - 0.166 (20 α)^{0.557} .

$1 - 0.166 (20\alpha)^{0.557}.$

(Esto me recuerda mucho el análisis de intervalos de confianza superpuestos que publiqué en /stats//a/18259/919 . De hecho, el poder mágico allí, , es casi el recíproco del poder mágico aquí, . En este punto, debería poder reinterpretar ese análisis en términos de reproducibilidad de los experimentos). $1.91$ $0.557$

Resultados experimentales

Estos resultados se confirman con una simulación directa. El siguiente Rcódigo devuelve la frecuencia de cobertura, la probabilidad calculada con y una puntuación Z para evaluar cuánto difieren. Los puntajes Z generalmente tienen un tamaño inferior a , independientemente de (o incluso si se calcula un o CI), lo que indica la exactitud de la fórmula . $(1)$ $2$ $n, m, \mu, \sigma, \alpha$ $Z$ $t$ $(1)$

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

— whuber
fuente

Dices que usar t en lugar de z no hará mucha diferencia. Te creo pero aún no lo he comprobado. Con un tamaño de muestra pequeño, los dos valores críticos pueden diferir mucho y la distribución t es la forma correcta de calcular el IC. ¿Por qué prefieres usar z?

— Harvey Motulsky

Es puramente ilustrativo y es más simple. Cuando usa es interesante que las curvas en la figura comiencen alto y desciendan a su límite. En particular, la posibilidad de reproducir un resultado significativo es mucho mayor para muestras pequeñas que para grandes. Tenga en cuenta que no hay nada que verificar, ya que es libre de interpretar como un punto porcentual de la distribución apropiada de Student t (o de cualquier otra distribución que le interese nombrar). Nada cambia en el análisis. Si desea ver los efectos particulares, descomente la línea en el código.

Z

$Z$

t

$t$

Z_{α}

$Z_{\alpha}$ qt

— whuber

+1. Este es un gran análisis (y su respuesta tiene muy pocos votos a favor de lo que es). Acabo de encontrar un artículo que analiza esta misma pregunta con gran detalle y pensé que podría estar interesado: Cumming y Maillardet, 2006, Intervalos de confianza y replicación: ¿Dónde caerá el próximo significado? . Lo llaman porcentaje de captura de un intervalo de confianza.

— ameba dice Reinstate Monica

@Amoeba Gracias por la referencia. Aprecio especialmente una conclusión general: "La replicación es fundamental para el método científico, y los investigadores no deben hacer la vista gorda solo porque resalta la incertidumbre inherente de un solo estudio".

— whuber

Actualización: Gracias a la discusión en curso en el hilo hermano, ahora creo que mi razonamiento en el comentario anterior no era correcto. Los IC del 95% tienen un 83% de "captura de replicación", pero esta es una afirmación sobre el muestreo repetido y no puede interpretarse como una probabilidad condicionada a un intervalo de confianza particular, al menos no sin suposiciones adicionales. (Quizás tanto este como los comentarios anteriores deberían eliminarse mejor para no confundir a más lectores).

— ameba dice Reinstate Monica

[Editado para corregir el error que WHuber señaló.]

Modifiqué el código R de @ Whuber para usar la distribución t, y trazar la cobertura en función del tamaño de la muestra. Los resultados están abajo. Con un tamaño de muestra alto, los resultados coinciden con los de WHuber, por supuesto.

Y aquí está el código R adaptado, ejecute dos veces con alfa establecido en 0.01 o 0.05.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

Y aquí está el archivo GraphPad Prism que hizo el gráfico.

— Harvey Motulsky
fuente

Creo que sus parcelas no usan la distribución t , debido a un error: ¡establece el valor Tfuera del ciclo! Si desea ver las curvas correctas, simplemente complételas directamente usando el resultado teórico en mi respuesta, como se indica al final de mi Rcódigo (en lugar de confiar en los resultados simulados):

curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")

— whuber

@whuber. ¡Ay! Por supuesto que tienes razón. Embarazoso. Lo he arreglado Como señaló, la cobertura es mayor con muestras pequeñas. (

— Arreglé

Me alegra que lo haya solucionado, porque es muy interesante lo alta que es la cobertura para muestras pequeñas. También podríamos invertir su pregunta y usar la fórmula para determinar qué valor de usar si quisiéramos asegurar (antes de hacer cualquier experimento), con probabilidad (digamos), que la media de El segundo experimento se ubicaría dentro del intervalo de confianza de dos lados determinado a partir del segundo. Hacerlo, como práctica habitual, podría ser una forma intrigante de abordar algunas críticas al NHST.

Z_{α / 2}

$Z_{\alpha/2}$

p = 0.95

$p=0.95$

1 - α

$1-\alpha$

— whuber

@whuber Creo que el siguiente paso es analizar la distribución de la cobertura. Hasta ahora, tenemos la cobertura promedio (promedio de muchos primeros experimentos, con un promedio de muchos segundos experimentos cada uno). Pero dependiendo de cuál sea el primer experimento, en algunos casos la cobertura promedio será deficiente. Sería interesante ver la distribución. Estoy tratando de aprender R lo suficientemente bien como para descubrirlo.

— Harvey Motulsky

Con respecto a las distribuciones, vea el documento al que me vinculé en los comentarios anteriores.

— ameba dice Reinstate Monica