El algoritmo Tukey Median Polish se utiliza en la normalización RMA de microarrays. Como puede saber, los datos de microarrays son bastante ruidosos, por lo tanto, necesitan una forma más sólida de estimar las intensidades de las sondas teniendo en cuenta las observaciones de todas las sondas y microarrays. Este es un modelo típico utilizado para normalizar las intensidades de las sondas en las matrices.
i = 1 , ... , I
Yyo j= μyo+ αj+ ϵyo j
i = 1 , ... , yoj = 1 , ... , J
Donde es el l o g intensidad PM transformado para el i t h sonda en el j t h matriz. ϵ i j son ruido de fondo y se puede suponer que corresponden al ruido en una regresión lineal normal. Sin embargo, una suposición distributiva sobre ϵ puede ser restrictiva, por lo tanto, usamos Tukey Median Polish para obtener las estimaciones para ^ μ i y ^ α j . Esta es una forma robusta de normalizar entre matrices, ya que queremos separar la señal, la intensidad debida a la sonda, del efecto de matriz,Yyo jl o gyot hjt hϵyo jϵμyo^αj^ . Podemos obtener la señal normalizando el efecto de matriz ^ α j para todas las matrices. Por lo tanto, solo nos quedan los efectos de la sonda más un poco de ruido aleatorio.ααj^
El enlace que he citado antes usa el esmalte mediano de Tukey para estimar los genes expresados diferencialmente o genes "interesantes" clasificándolos según el efecto de la sonda. Sin embargo, el documento es bastante antiguo, y probablemente en ese momento la gente todavía estaba tratando de descubrir cómo analizar los datos de microarrays. El documento de métodos bayesianos empíricos no paramétricos de Efron llegó en 2001, pero probablemente no haya sido ampliamente utilizado.
Sin embargo, ahora entendemos mucho sobre microarrays (estadísticamente) y estamos bastante seguros de su análisis estadístico.
Los datos de microarrays son bastante ruidosos y RMA (que utiliza el polaco medio) es uno de los métodos de normalización más populares, puede deberse a su simplicidad. Otros métodos populares y sofisticados son: GCRMA, VSN. Es importante normalizar ya que el interés es el efecto de sonda y no el efecto de matriz.
Como es de esperar, el análisis podría haberse beneficiado de algunos métodos que aprovechan el préstamo de información entre genes. Estos pueden incluir métodos bayesianos o bayesianos empíricos. Puede ser que el periódico que está leyendo sea antiguo y estas técnicas no estuvieron disponibles hasta entonces.
Con respecto a su segundo punto, sí, probablemente estén modificando los datos experimentales. Pero, creo, esta modificación es por una causa mejor, por lo tanto justificable. La razón es
a) Los datos de microarrays son bastante ruidosos. Cuando el interés es el efecto de la sonda, es necesario normalizar los datos mediante RMA, GCRMA, VSN, etc. y puede estar aprovechando que cualquier estructura especial en los datos es buena. Pero evitaría hacer la segunda parte. Esto se debe principalmente a que si no conocemos la estructura de antemano, es mejor no imponer muchas suposiciones.
b) La mayoría de los experimentos de microarrays son de naturaleza exploratoria, es decir, los investigadores están tratando de reducir a un conjunto de genes "interesantes" para su posterior análisis o experimentos. Si estos genes tienen una señal fuerte, modificaciones como las normalizaciones no deberían (sustancialmente) afectar los resultados finales.
Por lo tanto, las modificaciones pueden estar justificadas. Pero debo señalar que exagerar las normalizaciones puede conducir a resultados incorrectos.