Suponga que necesita clasificar algo en las clases K, donde K> 2. En este caso, la configuración más frecuente que uso es una codificación activa. Tendrá K columnas de salida, y en el conjunto de entrenamiento establecerá todos los valores en 0, excepto el que tiene el índice de categoría, que podría tener el valor 1. Por lo tanto, para cada instancia del conjunto de datos de entrenamiento tendrá todas las salidas con valores 0 o 1, todas las salidas suman 1 para cada instancia.
Esto parece una probabilidad, que me recuerda una técnica utilizada a menudo para conectar algunas salidas que se modelan como probabilidad. Esto se llama función softmax, más detalles en Wikipedia . Esto le permitirá poner algunas restricciones en los valores de salida (es básicamente una generalización de la función logística) para que los valores de salida se modelen como probabilidades.
Finalmente, con o sin softmax puede usar la salida como una función discriminante para seleccionar la categoría adecuada.
Otro pensamiento final sería evitar codificar las variables de forma conectada. Por ejemplo, puede tener la representación binaria del índice de categoría. Esto induciría al alumno a una conexión artificial entre algunas salidas que son arbitrarias. La codificación activa tiene la ventaja de que es neutral respecto a cómo se indexan las etiquetas.