Considere el siguiente experimento de biología celular. Estamos comparando diferentes tratamientos de células cultivadas. Cada tratamiento se replica en varios pocillos (microtitulación) , indexados por la variable . Para medir la respuesta al tratamiento en el pozo , se registra un total de micrografías no superpuestas, o campos . Luego, para cada campo en el pozo , se identifica computacionalmente un total de celdas , por lo que cada celda (en el pozo , campo ) se representa mediante un conjunto de píxeles. Finalmente, asociado con cada píxel hay una medida (derivada de las intensidades de varias señales de fluorescencia registradas en ese píxel).
El problema es agregar todas las mediciones de píxeles para producir una "medida razonable" del efecto del tratamiento en las células tratadas con él, así como alguna medida de la "propagación" de .
El enfoque estándar para tales problemas es usar la media como "la medida" y la varianza (o desviación estándar) como "la propagación". En este caso, sin embargo, existen múltiples formas no equivalentes en las que se pueden calcular los medios y las variaciones.
Centrándose por ahora en los medios, en un extremo, uno podría simplemente sumar sobre todos los píxeles (sin tener en cuenta su distribución sobre celdas, campos y pozos), y dividir esta suma por el número total de píxeles ( para tratamiento ):
En el extremo opuesto, podríamos promediar en cada nivel: primero calcule el promedio de para cada celda, luego calcule el promedio de la para cada campo, y así sucesivamente:
En general, estas dos expresiones no serán iguales. Además, hay varias variaciones intermedias. Según mi cuenta, hay 8 formas de hacerlo (incluidas las dos anteriores); He enumerado todo en toda su gloria al final de esta publicación. Por ejemplo, uno podría calcular esto (número 6 en la lista a continuación):
... donde es el número total de celdas (sumadas en todos los campos de) bien . (La receta codificada por esta expresión dice: "calcule el valor promedio de para cada celda, es decir, ; luego, para cada pozo , calcule el promedio de estos promedios sobre todas las celdas en el pozo —sin tener en cuenta su distribución sobre los campos—, es decir ; y, finalmente, el sobre todos los pozos , ").
Frente a todas estas formas diferentes de "usar promedios" para medir el efecto del tratamiento , la pregunta inmediata es, por supuesto, ¿cuál elegir? Una versión más precisa de la pregunta sería: ¿cómo puedo determinar en qué escenarios una variante dada sería apropiada / informativa / útil?
Y, de manera más general: ¿existen dificultades en el cálculo de promedios de promedios (de promedios ...)?
¡Gracias!
(correcciones bienvenidas)