Actualmente estoy mirando la forma primaria sin restricciones del clasificador uno contra todos
dónde
es el número de instancias, es el número de clases, es el número de características, es una matriz de datos , es un vector de etiquetas de clase, es una donde corresponde Para los pesos del hiperplano que divide una clase del resto, es una función de pérdida arbitraria.
N F X N K × N F y W N K × N I L
Tengo entendido que el funcional anterior intenta encontrar un hiperplano para cada clase que maximice la distancia entre las muestras dentro de la clase asociada a todas las demás muestras. Si los hiperplanos están posicionados correctamente, entonces siempre debe ser negativo, siempre debe ser positivo y nuestra función de pérdida debe volver justamente bajo.w y i ⋅ x i
Estoy tratando de implementar esto usando la pérdida de bisagra que creo que en este caso terminará siendo
).
Sin embargo, en lo anterior no podríamos terminar con una situación en la que los hiperplanos clasifiquen todas las muestras como pertenecientes a cada clase. Por ejemplo, si estamos viendo el hiperplano separando la clase 1 de todas las demás clases, siempre que entonces la pérdida incurrida será 0 a pesar de que se clasifica como la clase incorrecta.
¿Dónde me he equivocado? ¿O no importa si es negativo o positivo siempre que termine con una puntuación más alta? Tengo la sensación de que mi uso de la función de bisagra como he descrito aquí es incorrecto, pero mi uso de Google hoy en día solo ha generado más confusión.
En una nota relacionada, ¿por qué hay un 1 en el funcional anterior? Creo que tendría poco impacto.