Estoy trabajando para mejorar un clasificador supervisado existente, para clasificar las secuencias de {proteína} como pertenecientes a una clase específica (precursores de hormonas neuropéptidas), o no.
Hay alrededor de 1.150 "positivos" conocidos, en un contexto de aproximadamente 13 millones de secuencias de proteínas ("Fondo desconocido / mal anotado"), o alrededor de 100.000 proteínas relevantes revisadas, anotadas con una variedad de propiedades (pero muy pocas anotadas explícitamente "forma negativa).
Mi implementación anterior consideró esto como un problema de clasificación binaria: conjunto positivo = proteínas marcadas como neuropéptidos. Conjunto negativo: muestreo aleatorio de 1.300 muestras (total) de entre las proteínas restantes de una distribución longitudinal similar.
Eso funcionó, pero quiero mejorar en gran medida las habilidades discriminatorias de las máquinas (actualmente, es de aproximadamente 83-86% en términos de precisión, AUC, F1, medido por CV, en múltiples conjuntos negativos muestreados aleatoriamente).
Mis pensamientos fueron: 1) Convertir esto en un problema multiclase, eligiendo 2-3 clases diferentes de proteínas que definitivamente serán negativas, por sus propiedades / clase funcional, junto con (tal vez) otro conjunto de muestras al azar. (La prioridad aquí sería conjuntos negativos que sean similares en sus características / características al conjunto positivo, mientras que aún tengan características definitorias). 2) Aprendizaje en una clase: sería bueno, pero según tengo entendido, está destinado solo a la detección de anomalías y tiene un rendimiento peor que los enfoques discriminatorios.
*) He oído hablar del aprendizaje de PU, que suena bien, pero soy un programador N00b, y no conozco ninguna implementación existente para ello. (En Python / sci-kit aprender).
Entonces, ¿tiene sentido el enfoque 1 en un POV teórico? ¿Hay una mejor manera de hacer múltiples conjuntos negativos? (También podría simplemente usar una selección masiva [50K] de las proteínas "negativas", pero todas son muy diferentes entre sí, por lo que no sé qué tan bien el clasificador las manejaría como una gran mezcla desequilibrada ) ¡Gracias!