¿Es la corrección de Bonferroni demasiado anticonservadora / liberal para algunas hipótesis dependientes?

Con frecuencia leo que la corrección de Bonferroni también funciona para hipótesis dependientes. Sin embargo, no creo que sea cierto y tengo un contraejemplo. ¿Puede alguien decirme (a) dónde está mi error o (b) si estoy en lo correcto?

Configurar el ejemplo de contador

Supongamos que estamos probando dos hipótesis. Sea la primera hipótesis es falsa y contrario. Defina manera similar. Deje que sean los valores p asociados con las dos hipótesis y deje que Denote la función del indicador para el conjunto especificado dentro de los corchetes. $H_{1}=0$ $H_{1}=1$ $H_{2}$ $p_{1},p_{2}$ $[\![\cdot]\!]$

Para fijo define que obviamente son densidades de probabilidad sobre . Aquí hay una gráfica de las dos densidades. $\theta\in [0,1]$

\begin{array}{rcl} P (p_{1}, p_{2} | H_{1} = 0, H_{2} = 0) & = & \frac{1}{2 θ} [[0 \leq p_{1} \leq θ]] + \frac{1}{2 θ} [[0 \leq p_{2} \leq θ]] \\ P (p_{1}, p_{2} | H_{1} = 0, H_{2} = 1) & = & P (p_{1}, p_{2} | H_{1} = 1, H_{2} = 0) \\ = & \frac{1}{{(1 - θ)}^{2}} [[θ \leq p_{1} \leq 1]] \cdot [[θ \leq p_{2} \leq 1]] \end{array}

$\begin{eqnarray*} P\left(p_{1},p_{2}|H_{1}=0,H_{2}=0\right) & = & \frac{1}{2\theta}[\![0\le p_{1}\le\theta]\!]+\frac{1}{2\theta}[\![0\le p_{2}\le\theta]\!]\\ P\left(p_{1},p_{2}|H_{1}=0,H_{2}=1\right) & = & P\left(p_{1},p_{2}|H_{1}=1,H_{2}=0\right)\\ & = & \frac{1}{\left(1-\theta\right)^{2}}[\![\theta\le p_{1}\le1]\!]\cdot[\![\theta\le p_{2}\le1]\!] \end{eqnarray*}$

[0, 1]^{2}

$[0,1]^{2}$

ingrese la descripción de la imagen aquí

La marginación produce y de manera similar para .

\begin{array}{rcl} P (p_{1} | H_{1} = 0, H_{2} = 0) & = & \frac{1}{2 θ} [[0 \leq p_{1} \leq θ]] + \frac{1}{2} \\ P (p_{1} | H_{1} = 0, H_{2} = 1) & = & \frac{1}{(1 - θ)} [[θ \leq p_{1} \leq 1]] \end{array}

$\begin{eqnarray*} P\left(p_{1}|H_{1}=0,H_{2}=0\right) & = & \frac{1}{2\theta}[\![0\le p_{1}\le\theta]\!]+\frac{1}{2}\\ P\left(p_{1}|H_{1}=0,H_{2}=1\right) & = & \frac{1}{\left(1-\theta\right)}[\![\theta\le p_{1}\le1]\!] \end{eqnarray*}$

p_{2}

$p_{2}$

Además, deje Esto implica que

\begin{array}{rcl} P (H_{2} = 0 | H_{1} = 0) & = & P (H_{1} = 0 | H_{2} = 0) = \frac{2 θ}{1 + θ} \\ P (H_{2} = 1 | H_{1} = 0) & = & P (H_{1} = 1 | H_{2} = 0) = \frac{1 - θ}{1 + θ} . \end{array}

$\begin{eqnarray*} P\left(H_{2}=0|H_{1}=0\right) & = & P\left(H_{1}=0|H_{2}=0\right)=\frac{2\theta}{1+\theta}\\ P\left(H_{2}=1|H_{1}=0\right) & = & P\left(H_{1}=1|H_{2}=0\right)=\frac{1-\theta}{1+\theta}. \end{eqnarray*}$

\begin{array}{rcl} P (p_{1} | H_{1} = 0) & = & \sum_{h_{2} \in {0, 1}} P (p_{1} | H_{1} = 0, h_{2}) P (h_{2} | H_{1} = 0) \\ = & \frac{1}{2 θ} [[0 \leq p_{1} \leq θ]] \frac{2 θ}{1 + θ} + \frac{1}{2} \frac{2 θ}{1 + θ} + \frac{1}{(1 - θ)} [[θ \leq p_{1} \leq 1]] \frac{1 - θ}{1 + θ} \\ = & \frac{1}{1 + θ} [[0 \leq p_{1} \leq θ]] + \frac{θ}{1 + θ} + \frac{1}{1 + θ} [[θ \leq p_{1} \leq 1]] \\ = & U [0, 1] \end{array}

$\begin{eqnarray*} P\left(p_{1}|H_{1}=0\right) & = & \sum_{h_{2}\in\{0,1\}}P\left(p_{1}|H_{1}=0,h_{2}\right)P\left(h_{2}|H_{1}=0\right)\\ & = & \frac{1}{2\theta}[\![0\le p_{1}\le\theta]\!]\frac{2\theta}{1+\theta}+\frac{1}{2}\frac{2\theta}{1+\theta}+\frac{1}{\left(1-\theta\right)}[\![\theta\le p_{1}\le1]\!]\frac{1-\theta}{1+\theta}\\ & = & \frac{1}{1+\theta}[\![0\le p_{1}\le\theta]\!]+\frac{\theta}{1+\theta}+\frac{1}{1+\theta}[\![\theta\le p_{1}\le1]\!]\\ & = & U\left[0,1\right] \end{eqnarray*}$ es uniforme como se requiere para los valores p bajo la hipótesis nula. Lo mismo es cierto para debido a la simetría.

p_{2}

$p_{2}$

Para obtener la distribución conjunta calculamos $P\left(H_{1},H_{2}\right)$

\begin{array}{rcl} P (H_{2} = 0 | H_{1} = 0) P (H_{1} = 0) & = & P (H_{1} = 0 | H_{2} = 0) P (H_{2} = 0) \\ \Leftrightarrow \frac{2 θ}{1 + θ} P (H_{1} = 0) & = & \frac{2 θ}{1 + θ} P (H_{2} = 0) \\ \Leftrightarrow P (H_{1} = 0) & = & P (H_{2} = 0) := q \end{array}

$\begin{eqnarray*} P\left(H_{2}=0|H_{1}=0\right)P\left(H_{1}=0\right) & = & P\left(H_{1}=0|H_{2}=0\right)P\left(H_{2}=0\right)\\ \Leftrightarrow\frac{2\theta}{1+\theta}P\left(H_{1}=0\right) & = & \frac{2\theta}{1+\theta}P\left(H_{2}=0\right)\\ \Leftrightarrow P\left(H_{1}=0\right) & = & P\left(H_{2}=0\right):=q \end{eqnarray*}$ Por lo tanto, la distribución conjunta viene dada por que significa que .

\begin{array}{rcl} P (H_{1}, H_{2}) & = & \begin{array}{ccc} H_{2} = 0 & H_{2} = 1 \\ H_{1} = 0 & \frac{2 θ}{1 + θ} q & \frac{1 - θ}{1 + θ} q \\ H_{1} = 1 & \frac{1 - θ}{1 + θ} q & \frac{1 + θ - 2 q}{1 + θ} \end{array} \end{array}

$\begin{eqnarray*} P\left(H_{1},H_{2}\right) & = & \begin{array}{ccc} & H_{2}=0 & H_{2}=1\\ H_{1}=0 & \frac{2\theta}{1+\theta}q & \frac{1-\theta}{1+\theta}q\\ H_{1}=1 & \frac{1-\theta}{1+\theta}q & \frac{1+\theta-2q}{1+\theta} \end{array} \end{eqnarray*}$

0 \leq q \leq \frac{1 + θ}{2}

$0\le q\le\frac{1+\theta}{2}$

Por qué es un contraejemplo

Ahora dejemos para el nivel de significancia de interés. La probabilidad de obtener al menos un falso positivo con el nivel de significancia corregido dado que ambas hipótesis son falsas (es decir, ) viene dada por porque todos los valores de y son inferiores a dado que y $\theta=\frac{\alpha}{2}$ $\alpha$ $\frac{\alpha}{2}$ $H_{i}=0$

\begin{array}{rcl} P ((p_{1} \leq \frac{α}{2}) \lor (p_{2} \leq \frac{α}{2}) | H_{1} = 0, H_{2} = 0) & = & 1 \end{array}

$\begin{eqnarray*} P\left(\left(p_{1}\le\frac{\alpha}{2}\right)\vee\left(p_{2}\le\frac{\alpha}{2}\right)|H_{1}=0,H_{2}=0\right) & = & 1 \end{eqnarray*}$

p_{1}

$p_{1}$

p_{2}

$p_{2}$

\frac{α}{2}

$\frac{\alpha}{2}$

H_{1} = 0

$H_1=0$

H_{2} = 0

$H_2=0$ por construcción. La corrección de Bonferroni, sin embargo, afirmaría que el FWER es menor que .

α

$\alpha$

— fabee
fuente

Muy buena pregunta Desearía que alguien respondiera

¡Lo contrario de conservador es anticonservador en el mundo estadístico!

— AdamO

No lo sabia. Pensé que leía liberal algunas veces.

— fabee

ver stats.stackexchange.com/questions/235856/…

Gracias, pero se trata de algo diferente. Necesita una suposición adicional (la dependencia no es el problema, consulte mi respuesta a continuación).

— fabee

Respuestas:

Bonferroni no puede ser liberal, independientemente de la dependencia, si sus valores p se calculan correctamente.

Deje que A sea el evento de error de Tipo I en una prueba y que B sea el evento de error de Tipo I en otra prueba. La probabilidad de que ocurra A o B (o ambos) es:

P (A o B) = P (A) + P (B) - P (A y B)

Debido a que P (A y B) es una probabilidad y, por lo tanto, no puede ser negativa, no hay forma posible de que esa ecuación produzca un valor mayor que P (A) + P (B). El valor más alto que puede producir la ecuación es cuando P (A y B) = 0, es decir, cuando A y B dependen perfectamente negativamente. En ese caso, puede completar la ecuación de la siguiente manera, suponiendo que los valores nulos sean verdaderos y un nivel alfa ajustado por Bonferroni de .025:

P (A o B) = P (A) + P (B) - P (A y B) = .025 + .025 - 0 = .05

Bajo cualquier otra estructura de dependencia, P (A y B)> 0, entonces la ecuación produce un valor aún menor que .05. Por ejemplo, bajo una dependencia positiva perfecta, P (A y B) = P (A), en cuyo caso puede completar la ecuación de la siguiente manera:

P (A o B) = P (A) + P (B) - P (A y B) = .025 + .025 - .025 = .025

Otro ejemplo: bajo independencia, P (A y B) = P (A) P (B). Por lo tanto:

P (A o B) = P (A) + P (B) - P (A y B) = .025 + .025 - .025 * .025 = .0494

Como puede ver, si un evento tiene una probabilidad de .025 y otro evento también tiene una probabilidad de .025, es imposible que la probabilidad de "uno o ambos" eventos sea mayor que .05, porque es imposible para P ( A o B) para ser mayor que P (A) + P (B). Cualquier reclamo en contrario es lógicamente absurdo.

"Pero eso supone que ambos valores nulos son ciertos", podría decir. "¿Qué pasa si el primer nulo es verdadero y el segundo es falso?" En ese caso, B es imposible porque no puede haber un error de Tipo I donde la hipótesis nula es falsa. Por lo tanto, P (B) = 0 y P (A y B) = 0. Así que completemos nuestra fórmula general para el FWER de dos pruebas:

P (A o B) = P (A) + P (B) - P (A y B) = .025 + 0 - 0 = .025

Entonces, una vez más, el FWER es <.05. Tenga en cuenta que la dependencia es irrelevante aquí porque P (A y B) siempre es 0. Otro escenario posible es que ambos valores nulos son falsos, pero debería ser obvio que el FWER sería 0, y por lo tanto <.05.

— Bonferroni
fuente

Gracias por la respuesta. Leo derivaciones como la tuya muchas veces y tienen sentido. Sin embargo, todavía no veo el error en mi ejemplo. Si no tiene sentido, ¿dónde está mi error? Tengo la sensación de que el problema es que tomas como , pero para el FWER en realidad estás interesado en . Todavía puede tener pero . Esto es lo que construí en mi ejemplo. Su ejemplo es correcto si el error tipo I es independiente de la otra hipótesis.

P (A)

$P(A)$

P (A | H_{0}^{1} = T r u e)

$P(A|H_0^{1}=True)$

P (A \lor B | H_{0}^{(1)} = T r u e \land H_{0}^{(2)} = T r u e)

$P(A\vee B|H_0^{(1)}=True\wedge H_0^{(2)}=True)$

P (A | H_{0}^{(1)} = T r u e) = α

$P(A|H_0^{(1)}=True)=\alpha$

P (A | H_{0}^{(1)} = T r u e \land H_{0}^{(2)} = T r u e) > α

$P(A|H_0^{(1)}=True\wedge H_0^{(2)}=True)>\alpha$

— fabee

Calcular el FWER supone que ambos nulos son verdaderos, por lo que P (A) significa lo mismo que P (A | nulo 1 es verdadero) y P (B) significa lo mismo que P (B | nulo 2 es verdadero). Las probabilidades condicionales son, por lo tanto, innecesarias. Tal vez deberías reescribir tu ejemplo sin ellos. Tenga en cuenta que si "todos los valores de p1 y p2 son inferiores a α / 2 dado que H1 = 0 y H2 = 0 por construcción", simplemente ha construido un escenario en el que los valores de p no se calculan correctamente. Si cada p se prueba en α / 2, cada p debe tener una probabilidad de significación α / 2 por definición, sin embargo, aparentemente le ha dado a cada p una probabilidad del 100% de significación.

— Bonferroni

No creo que tengas razón. Si la tasa de error de FWER supone que ambos nulos son verdaderos, entonces quiero calcular P (A o B | nulo 1 y 2 son verdaderos). La descomposición que escribió en su respuesta, por lo tanto, necesita la misma condición en el lado derecho. Solo cuando se usan probabilidades condicionales esto queda claro. Mis valores p se calculan correctamente porque P (A | nulo 1 es verdadero) sigue siendo como debería. Pero tenga en cuenta que P (A | nulo 1 es verdadero) generalmente no es lo mismo que P (A | nulo 1 y nulo 2 son verdaderos).

α

$\alpha$

— fabee

Dibuje un cuadrado grande en una hoja de papel que represente el espacio muestral total de posibles resultados. Luego dibuja un círculo que ocupa el 2.5% del área del cuadrado y etiquétalo A. Luego dibuja otro círculo que ocupa el 2.5% del área del cuadrado y etiquétalo B. Haz que A y B se superpongan tan poco o tanto como quieras (es decir, juega con la dependencia entre A y B). Descubrirá que no hay forma de que el área combinada de A y B sea superior al 2.5% + 2.5% = 5%.

— Bonferroni

Parece que estás confundido acerca de la probabilidad en un nivel muy fundamental y aún no estás listo para abordar las matemáticas. Asumimos que ambos valores nulos son verdaderos porque esa es la situación que produce el FWER máximo. Si ambos valores nulos son falsos, obviamente no puede haber ningún tipo de error. Y si un nulo es verdadero y otro nulo es falso, la tasa de error es simplemente cualquier nivel alfa que utilice para probar el verdadero.

— Bonferroni

Creo que finalmente tengo la respuesta. Necesito un requisito adicional sobre la distribución de . Antes, solo requería que sea uniforme entre 0 y 1. En este caso, mi ejemplo es correcto y Bonferroni sería demasiado liberal. Sin embargo, si además requiero la uniformidad de , es fácil deducir que Bonferroni nunca puede ser demasiado conservador. Mi ejemplo viola esta suposición. En términos más generales, la suposición es que la distribución de todos los valores p dado que todas las hipótesis nulas son verdaderas debe tener la forma de una cópula : en conjunto no necesitan ser uniformes, pero marginalmente sí. $P(p_1,p_2|H_1=0, H_2=0)$ $P(p_1|H_1=0)$ $P(p_1|H_1=0, H_2=0)$

Comentario: si alguien puede señalarme una fuente donde esta suposición está claramente establecida (libro de texto, papel), aceptaré esta respuesta.

— fabee
fuente