Tengo 12 conjuntos de entrenamiento positivo (células cancerosas tratadas con medicamentos con cada uno de los 12 mecanismos de acción diferentes). Para cada uno de estos conjuntos de entrenamiento positivo, me gustaría entrenar una máquina de vectores de soporte para distinguirlo de un conjunto negativo de igual tamaño muestreado del experimento. Cada conjunto tiene entre 1000 y 6000 celdas, y hay 476 características (características de imagen) de cada celda, cada una escalada linealmente a [0, 1].
Yo uso LIBSVM y el núcleo Gaussian RGB. Utilizando la validación cruzada de cinco veces, he realizado una búsqueda en la cuadrícula para log₂ C ∈ [-5, 15] y log₂ ɣ ∈ [-15, 3]. Los resultados son los siguientes:
Me decepcionó que no haya un solo conjunto de parámetros que proporcionen altas precisiones para los 12 problemas de clasificación. También me sorprendió que las cuadrículas generalmente no muestren una región de alta precisión rodeada de precisiones más bajas. ¿Significa esto que necesito expandir el espacio del parámetro de búsqueda, o es la búsqueda de la cuadrícula una indicación de que algo más está mal?