Comenzando con biclustering

9

He estado haciendo algunas investigaciones casuales en Internet sobre biclusters. (He leído el artículo de Wiki varias veces). Hasta ahora, parece que hay pocas definiciones o terminología estándar.

Me preguntaba si había documentos o libros estándar que alguien que estuviera interesado en algoritmos para encontrar biclusters debería leer.
¿Es posible decir cuál es el estado del arte en el campo? Me intrigó la idea de encontrar biclusters utilizando algoritmos genéticos, por lo que agradecería los comentarios sobre ese enfoque, en particular en el contexto de otros enfoques.
Generalmente en clustering, el objetivo es dividir el conjunto de datos en grupos donde cada elemento está en algún grupo. ¿Los algoritmos bicluster también buscan poner todos los elementos en un grupo particular?

clustering data-mining

— Henry B.
fuente

16

Nunca lo usé directamente, por lo que solo puedo compartir algunos documentos que tuve y pensamientos generales sobre esa técnica (que abordan principalmente sus preguntas 1 y 3).

Mi comprensión general de biclustering proviene principalmente de estudios genéticos (2-6) en los que buscamos dar cuenta de los grupos de genes y la agrupación de individuos: en resumen, estamos buscando grupos de muestras que compartan un perfil similar de expresión génica (esto podría estar relacionado al estado de la enfermedad, por ejemplo) y genes que contribuyen a este patrón de perfil de genes. Una encuesta sobre el estado del arte de los conjuntos de datos biológicos "masivos" está disponible en las diapositivas de Pardalos , Biclustering . Tenga en cuenta que hay un paquete R, biclust , con aplicaciones para microarrays de datos.

De hecho, mi idea inicial era aplicar esta metodología al diagnóstico clínico, ya que permite poner características o variables en más de un grupo, lo cual es interesante desde una perspectiva semeiológica porque los síntomas que agrupan juntos permiten definir el síndrome , pero algunos síntomas pueden superposición en diferentes enfermedades. Se puede encontrar una buena discusión en Cramer et al., Comorbidity: A network perspective (Behavioral and Brain Sciences 2010, 33, 137-193).

Una técnica algo relacionada es el filtrado colaborativo . Su y Khoshgoftaar ( Advances in Artificial Intelligence , 2009) pusieron a disposición una buena revisión : Una encuesta sobre técnicas de filtrado colaborativo . Otras referencias se enumeran al final. Tal vez el análisis del conjunto de elementos frecuentes , como se ejemplifica en el problema de la cesta de la compra , también está vinculado a él, pero nunca investigué esto. Otro ejemplo de co-agrupamiento es cuando queremos agrupar simultáneamente palabras y documentos, como en la minería de textos, por ejemplo, Dhillon (2001). Co-agrupación de documentos y palabras usando partición de gráficos espectrales bipartitos . Proc. KDD , págs. 269–274.

Acerca de algunas referencias generales, aquí hay una lista no muy exhaustiva que espero sea de utilidad:

Jain, AK (2010). Agrupación de datos: 50 años más allá de K-means . Cartas de reconocimiento de patrones , 31 , 651–666
Carmona-Saez y col. (2006) Biclustering de datos de expresión génica por factorización de matriz no negativa y no uniforme . BMC Bioinformática , 7 , 78.
Prelic y col. (2006) Una comparación sistemática y evaluación de métodos biclustering para datos de expresión génica . Bioinformática , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
DiMaggio y col. (2008) Biclustering a través de un reordenamiento óptimo de matrices de datos en biología de sistemas: métodos rigurosos y estudios comparativos . BMC Bioinformática , 9 , 458.
Santamaria y col. (2008) BicOverlapper: una herramienta para la visualización de bicluster . Bioinformática , 24 (9) , 1212-1213.
Madeira, SC y Oliveira, AL (2004) Algoritmos bicluster para análisis de datos biológicos: una encuesta . IEEE Trans. Comput Biol. Bioinform. , 1 , 24–45.
Badea, L. (2009). Clustergramas generalizados para biclusters superpuestos . IJCAI
Symeonidis, P. (2006). Filtrado colaborativo de biclusters más cercano . WEBKDD

— chl
fuente

1

Gran respuesta. Si tuviera otra votación, votaría por esta respuesta nuevamente.

— Henry B.

@chl El primer enlace a las diapositivas de Pardalos parece estar muerto. ¿Alguien sabe de una ubicación alternativa?

— Erik

@Erik La mayor parte del material de las diapositivas se puede encontrar en Biclustering consistente a través de la programación fraccionaria 0-1 por el mismo autor. (Verifiqué el contenido de las diapositivas con mi copia del enlace muerto.)

— chl

4

Aquí hay una buena encuesta / revisión:

Stanislav Busygin, Oleg Prokopyev y Panos M. Pardalos. Biclustering en minería de datos . Computers & Operations Research, 35 (9): 2964–2987, septiembre de 2008.

— kc2001
fuente