Promedios de promedios (de promedios, de promedios ...)

Considere el siguiente experimento de biología celular. Estamos comparando diferentes tratamientos de células cultivadas. Cada tratamiento se replica en varios pocillos (microtitulación) , indexados por la variable . Para medir la respuesta al tratamiento en el pozo , se registra un total de micrografías no superpuestas, o campos . Luego, para cada campo en el pozo , se identifica computacionalmente un total de celdas , por lo que cada celda (en el pozo , campo ) se representa mediante un conjunto de $T$ $t$ $w \in \{1, 2, \cdots, W\}$ $w$ $F_w$ $f$ $w$ $C_{wf}$ $c$ $w$ $f$ $P_{wfc}$ píxeles. Finalmente, asociado con cada píxel hay una medida (derivada de las intensidades de varias señales de fluorescencia registradas en ese píxel). $p$ $x_{wfcp}$

El problema es agregar todas las mediciones de píxeles para producir una "medida razonable" del efecto del tratamiento en las células tratadas con él, así como alguna medida de la "propagación" de . $x_{wfcp}$ $X_t$ $t$ $X_t$

El enfoque estándar para tales problemas es usar la media como "la medida" y la varianza (o desviación estándar) como "la propagación". En este caso, sin embargo, existen múltiples formas no equivalentes en las que se pueden calcular los medios y las variaciones.

Centrándose por ahora en los medios, en un extremo, uno podría simplemente sumar sobre todos los píxeles (sin tener en cuenta su distribución sobre celdas, campos y pozos), y dividir esta suma por el número total de píxeles ( para tratamiento ): $x_{wfcp}$ $P$ $t$

\frac{1}{P} \sum_{w = 1}^{W} \sum_{f = 1}^{F_{w}} \sum_{c = 1}^{C_{w f}} \sum_{p = 1}^{P_{w f c}} x_{w f c p}

$\frac{1}{P}\sum_{w=1}^W\sum_{f=1}^{F_w}\sum_{c=1}^{C_{wf}}\sum_{p=1}^{P_{wfc}} x_{wfcp}$

En el extremo opuesto, podríamos promediar en cada nivel: primero calcule el promedio de para cada celda, luego calcule el promedio de la para cada campo, y así sucesivamente: $x_{wfc}$ $x_{wfcp}$ $x_{wf}$ $x_{wfc}$

\frac{1}{W} \sum_{w = 1}^{W} [\frac{1}{F_{w}} \sum_{f = 1}^{F_{w}} [\frac{1}{C_{w f}} \sum_{c = 1}^{C_{w f}} [\frac{1}{P_{w f c}} \sum_{p = 1}^{P_{w f c}} x_{w f c p}]]]

$\frac{1}{W}\sum_{w=1}^W \left[\frac{1}{F_w} \sum_{f=1}^{F_w} \left[\frac{1}{C_{wf}}\sum_{c=1}^{C_{wf}} \left[\frac{1}{P_{wfc}} \sum_{p=1}^{P_{wfc}} x_{wfcp}\right]\right]\right]$

En general, estas dos expresiones no serán iguales. Además, hay varias variaciones intermedias. Según mi cuenta, hay 8 formas de hacerlo (incluidas las dos anteriores); He enumerado todo en toda su gloria al final de esta publicación. Por ejemplo, uno podría calcular esto (número 6 en la lista a continuación):

\frac{1}{W} \sum_{w = 1}^{W} [\frac{1}{C_{w}} \sum_{f = 1}^{F_{w}} \sum_{c = 1}^{C_{w f}} [\frac{1}{P_{w f c}} \sum_{p = 1}^{P_{w f c}} x_{w f c p}]]

$\frac{1}{W}\sum_{w=1}^W \left[\frac{1}{C_w} \sum_{f=1}^{F_w} \sum_{c=1}^{C_{wf}} \left[\frac{1}{P_{wfc}} \sum_{p=1}^{P_{wfc}} x_{wfcp}\right]\right]$

... donde es el número total de celdas (sumadas en todos los campos de) bien . (La receta codificada por esta expresión dice: "calcule el valor promedio de para cada celda, es decir, ; luego, para cada pozo , calcule el promedio de estos promedios sobre todas las celdas en el pozo —sin tener en cuenta su distribución sobre los campos—, es decir ; y, finalmente, el sobre todos los pozos , "). $C_w = \sum_f \sum_c \; 1$ $w$ $x_{wfcp}$ $x_{wfc} = \left[\sum_p x_{wfcp}\right]/P_{wfcp}$ $w$ $x_{wfc}$ $C_w$ $w$ $x_w = \left[ \sum_f \sum_c x_{wfc}\right]/C_w$ $x_w$ $W$ $\left[\sum_w x_w\right]/W$

Frente a todas estas formas diferentes de "usar promedios" para medir el efecto del tratamiento , la pregunta inmediata es, por supuesto, ¿cuál elegir? Una versión más precisa de la pregunta sería: ¿cómo puedo determinar en qué escenarios una variante dada sería apropiada / informativa / útil? $t$

Y, de manera más general: ¿existen dificultades en el cálculo de promedios de promedios (de promedios ...)?

¡Gracias!

(correcciones bienvenidas)

\begin{array}{lrl} 1. \frac{1}{P} \sum_{w = 1}^{W} \sum_{f = 1}^{F_{w}} \sum_{c = 1}^{C_{w f}} \sum_{p = 1}^{P_{w f c}} x_{w f c p} \\ 2. \frac{1}{W} \sum_{w = 1}^{W} [\frac{1}{P_{w}} \sum_{f = 1}^{F_{w}} \sum_{c = 1}^{C_{w f}} \sum_{p = 1}^{P_{w f c}} x_{w f c p}] & w h e r e & P_{w} = \sum_{f = 1}^{F_{w}} \sum_{c = 1}^{C_{w f}} \sum_{p = 1}^{P_{w f c}} 1 \\ 3. \frac{1}{F} \sum_{w = 1}^{W} \sum_{f = 1}^{F_{w}} [\frac{1}{P_{w f}} \sum_{c = 1}^{C_{w f}} \sum_{p = 1}^{P_{w f c}} x_{w f c p}] & w h e r e & F = \sum_{w = 1}^{W} \sum_{f = 1}^{F_{w}} 1, P_{w f} = \sum_{c = 1}^{C_{w f}} \sum_{p = 1}^{P_{w f c}} 1 \\ 4. \frac{1}{C} \sum_{w = 1}^{W} \sum_{f = 1}^{F_{w}} \sum_{c = 1}^{C_{w f}} [\frac{1}{P_{w f c}} \sum_{p = 1}^{P_{w f c}} x_{w f c p}] & w h e r e & C = \sum_{w = 1}^{W} \sum_{f = 1}^{F_{w}} \sum_{c = 1}^{C_{w f}} 1 \\ 5. \frac{1}{W} \sum_{w = 1}^{W} [\frac{1}{F_{w}} \sum_{f = 1}^{F_{w}} [\frac{1}{P_{w f}} \sum_{c = 1}^{C_{w f}} \sum_{p = 1}^{P_{w f c}} x_{w f c p}]] \\ 6. \frac{1}{W} \sum_{w = 1}^{W} [\frac{1}{C_{w}} \sum_{f = 1}^{F_{w}} \sum_{c = 1}^{C_{w f}} [\frac{1}{P_{w f c}} \sum_{p = 1}^{P_{w f c}} x_{w f c p}]] & w h e r e & C_{w} = \sum_{f = 1}^{F_{w}} \sum_{c = 1}^{C_{w f}} 1 \\ 7. \frac{1}{F} \sum_{w = 1}^{W} \sum_{f = 1}^{F_{w}} [\frac{1}{C_{w f}} \sum_{c = 1}^{C_{w f}} [\frac{1}{P_{w f c}} \sum_{p = 1}^{P_{w f c}} x_{w f c p}]] \\ 8. \frac{1}{W} \sum_{w = 1}^{W} [\frac{1}{F_{w}} \sum_{f = 1}^{F_{w}} [\frac{1}{C_{w f}} \sum_{c = 1}^{C_{w f}} [\frac{1}{P_{w f c}} \sum_{p = 1}^{P_{w f c}} x_{w f c p}]]] \end{array}

$\small \begin{array}{lrl} 1. \;\; \frac{1}{P}\sum_{w=1}^W\sum_{f=1}^{F_w}\sum_{c=1}^{C_{wf}}\sum_{p=1}^{P_{wfc}} x_{wfcp} && && \\ 2. \;\; \frac{1}{W}\sum_{w=1}^W \left[\frac{1}{P_w} \sum_{f=1}^{F_w} \sum_{c=1}^{C_{wf}} \sum_{p=1}^{P_{wfc}} x_{wfcp}\right] && \mathrm{where} && P_w = \sum_{f=1}^{F_w}\sum_{c=1}^{C_{wf}}\sum_{p=1}^{P_{wfc}} \; 1 \\ 3. \;\; \frac{1}{F}\sum_{w=1}^W \sum_{f=1}^{F_w} \left[\frac{1}{P_{wf}}\sum_{c=1}^{C_{wf}} \sum_{p=1}^{P_{wfc}} x_{wfcp}\right] && \mathrm{where} && F = \sum_{w=1}^W \sum_{f=1}^{F_w} \; 1 \, , \, P_{wf} = \sum_{c=1}^{C_{wf}}\sum_{p=1}^{P_{wfc}} \; 1 \\ 4. \;\; \frac{1}{C}\sum_{w=1}^W \sum_{f=1}^{F_w} \sum_{c=1}^{C_{wf}} \left[\frac{1}{P_{wfc}} \sum_{p=1}^{P_{wfc}} x_{wfcp}\right] && \mathrm{where} && C = \sum_{w=1}^W \sum_{f=1}^{F_w} \sum_{c=1}^{C_{wf}} \; 1 \\ 5. \;\; \frac{1}{W}\sum_{w=1}^W \left[\frac{1}{F_w} \sum_{f=1}^{F_w} \left[\frac{1}{P_{wf}}\sum_{c=1}^{C_{wf}}\sum_{p=1}^{P_{wfc}} x_{wfcp}\right]\right] && && \\ 6. \;\; \frac{1}{W}\sum_{w=1}^W \left[\frac{1}{C_w} \sum_{f=1}^{F_w} \sum_{c=1}^{C_{wf}} \left[\frac{1}{P_{wfc}} \sum_{p=1}^{P_{wfc}} x_{wfcp} \right]\right] && \mathrm{where} && C_w = \sum_{f=1}^{F_w} \sum_{c=1}^{C_{wf}} \; 1 \\ 7. \;\; \frac{1}{F}\sum_{w=1}^W \sum_{f=1}^{F_w} \left[\frac{1}{C_{wf}}\sum_{c=1}^{C_{wf}} \left[\frac{1}{P_{wfc}} \sum_{p=1}^{P_{wfc}} x_{wfcp}\right]\right] && && \\ 8. \;\; \frac{1}{W}\sum_{w=1}^W \left[\frac{1}{F_w} \sum_{f=1}^{F_w} \left[\frac{1}{C_{wf}}\sum_{c=1}^{C_{wf}} \left[\frac{1}{P_{wfc}} \sum_{p=1}^{P_{wfc}} x_{wfcp}\right]\right]\right] && && \hspace{3in} \end{array}$

— kjo
fuente

Puede hacer una anova anidada para identificar si alguno de los efectos del tratamiento es significativo. Una buena referencia es la biometría de Sokal y Rholf.

— aaronjg

Todas las ecuaciones en la parte inferior de la pregunta son iguales, porque la media aritmética es una función lineal. La fracción es escalar, por lo que se puede mover fuera de la suma en cada caso. El orden de las sumas no es importante. Todos son equivalentes a .

\frac{1}{W F C P} \sum_{w, f, c, p}^{W, F, C, P} x_{w f c p}

$\frac{1}{WFCP}\sum^{W,F,C,P}_{w,f,c,p}x_{wfcp}$

— naught101

@ naught101: Estoy completamente en desacuerdo. Para empezar, la expresión en su comentario ni siquiera es consistente con la notación que he usado en mi pregunta.

— kjo

¿Has intentado calcularlos? Tenga en cuenta que hay un punto que omití: usted menciona la varianza, y en ese caso (medias de varianza versus varianza de medias) ciertamente es diferente, porque la varianza no es un operador lineal (tiene una suma de cuadrados).

— nada101

Esta no es una respuesta directa a su pregunta ('Qué tipo de promedio elegir'), sino más bien una recomendación para evitar calcular promedios:

Su escenario parece verse como un caso para modelos jerárquicos / multinivel (MLM), ya que los datos están perfectamente anidados. Tiene tres niveles de efectos aleatorios: píxeles (Nivel 1) anidados en celdas (L2), anidados en campos (L3), anidados en pozos (L4). Los tratamientos deben tratarse como efectos fijos.

Solo le interesa el efecto del tratamiento; El método MLM se ocupa de las diferentes variaciones de cada nivel y también le da una estimación de cuánta variación se explica por qué nivel. Por lo tanto, no 'pierde' ninguna variación al tratar un valor promedio como 'la medición', pero estima el modelo en el nivel de datos sin procesar.

Sin embargo, este método requiere un número suficiente de grupos para cada efecto aleatorio (es decir, suficientes píxeles, suficientes celdas, suficientes campos, suficientes pozos). Como no está interesado en las interacciones entre niveles, las recomendaciones generales dicen algo como un mínimo de 10 a 30 unidades (por supuesto, dependiendo del escenario específico, etc., ver, por ejemplo, aquí ).

— Felix S
fuente

El primer enlace que proporcionó (modelos jerárquicos / multinivel) parece roto ahora.

— steko