¿Significado en lenguaje sencillo de pruebas "dependientes" e "independientes" en la literatura de comparaciones múltiples?

Tanto en la literatura de la tasa de error familiar (FWER) como de la tasa de descubrimiento falso (FDR), se dice que métodos particulares para controlar FWER o FDR son apropiados para pruebas dependientes o independientes. Por ejemplo, en el artículo de 1979 "Un procedimiento de prueba múltiple secuencialmente rechazado simple", Holm escribió para contrastar su método de Šidák intensificador versus su método de control de Bonferroni progresivo:

La misma simplicidad computacional se obtiene cuando las estadísticas de prueba son independientes .

En "Control de la tasa de descubrimiento falso" de Benjamini y Hochberg (1995), los autores escriben:

Teorema 1. Para estadísticas de prueba independientes y para cualquier configuración de hipótesis nulas falsas, el procedimiento anterior controla el FDR en . $q^{*}$

Más tarde, en 2001, Benjamini y Yekutieli escriben:

1.3. El problema . Cuando se intenta utilizar el enfoque FDR en la práctica, las estadísticas de pruebas dependientes se encuentran con mayor frecuencia que las independientes , siendo el ejemplo de los puntos finales múltiples de lo anterior.

¿Qué significados particulares de dependiente e independiente están utilizando estos autores? Me agradarían las definiciones formales de lo que hace que las pruebas sean dependientes o independientes entre sí si acompañan una explicación en lenguaje sencillo.

Puedo pensar en algunos posibles significados diferentes, pero no entiendo cuáles, si los hay, podrían ser:

"Dependiente" significa pruebas multivariadas (es decir, muchas variables dependientes con los mismos o similares predictores); independiente significa pruebas univariadas (es decir, muchas variables independientes, una variable dependiente).
"Dependiente" significa pruebas basadas en sujetos emparejados / emparejados (por ejemplo , prueba t emparejada , ANOVA de medidas repetidas, etc.); "independiente" significa un diseño de estudio de muestras no emparejado / independiente.
"Dependiente" significa que la probabilidad de que una prueba sea rechazada está correlacionada con la probabilidad de que otra prueba sea rechazada, y "dependencia positiva" significa que esta correlación es positiva; "independiente" significa que las probabilidades de rechazo no están correlacionadas.

Referencias
Benjamini, Y. y Hochberg, Y. (1995). Control de la tasa de descubrimientos falsos: un enfoque práctico y poderoso para las pruebas múltiples . Revista de la Real Sociedad Estadística. Serie B (Metodológico) , 57 (1): 289–300.

Benjamini, Y. y Yekutieli, D. (2001). El control de la tasa de descubrimiento falso en múltiples pruebas bajo dependencia . Annals of Statistics , 29 (4): 1165–1188.

Holm, S. (1979). Un simple procedimiento de prueba múltiple secuencialmente rechazado . Scandinavian Journal of Statistics , 6 (65-70): 1979.

— Alexis
fuente

Una estadística de prueba es una variable aleatoria. "Independiente" en este contexto tiene exactamente el mismo significado que tiene para cualquier conjunto de variables aleatorias.

— whuber

Gracias @whuber, ¿alguna posibilidad de querer amplificar eso en una respuesta? :)

— Alexis

$1/20$ $1/20$ $1/20$ $20$ diferentes pruebas

$20$

$20$ $1/20$ $20$ $(1-0.05)^{20}\approx 0.36$ $1-0.36 = 0.64$

$20$ $20$

(ANOVA maneja este problema por medio de su prueba F general. Es una especie de comparación "para gobernarlos a todos": no confiaremos en la comparación de grupo a grupo a menos que primero esta prueba F sea significativa).

$(p_1, p_2, \ldots, p_n)$ $n$ $n$ de ellos en una sola decisión. De lo contrario, lo mejor que podemos hacer es confiar en límites aproximados (que es la base de la corrección de Bonferroni, por ejemplo).

Las distribuciones conjuntas de variables aleatorias independientes son fáciles de calcular. Por lo tanto, la literatura distingue entre esta situación y el caso de no independencia.

En consecuencia, el significado correcto de "independiente" en las citas está en el sentido estadístico habitual de las variables aleatorias independientes.

$n$ $(x_1, \ldots, x_m)$ $\mu$ $\mu=0$ $p_1$ $\mu=1$ $p_2$ $(p_1, p_2)$

— whuber
fuente

+1 ¡Gracias, whuber! Para el ejemplo de ANOVA, ¿sería el caso que cualquier comparación por pares después de ANOVA donde se prueban todos los pares posibles sería "dependiente", o solo el caso en el que un grupo se compara con una selección de otros? (Creo que lo primero, pero quiero estar seguro).

— Alexis

En ANOVA, la varianza de los residuos se estima a partir de todos los datos. Por lo tanto ningún dos comparaciones serán (ligeramente) dependiente aunque sólo sea por esa razón, incluso cuando las comparaciones no tienen grupos en común. Cuando las comparaciones tienen grupos en común (como "A" vs "C" y "B" vs "C"), la dependencia es más obvia y pronunciada.

— whuber