¿Cómo puede funcionar un perceptrón multiclase?

13

No tengo ningún fondo en matemáticas, pero entiendo cómo funciona el simple Perceptron y creo que entiendo el concepto de un hiperplano (lo imagino geométricamente como un plano en el espacio 3D que separa dos nubes de puntos, al igual que una línea se separa) dos nubes de puntos en el espacio 2D).

Pero no entiendo cómo un plano o una línea podrían separar tres nubes de puntos diferentes en el espacio 3D o en el espacio 2D, respectivamente. Esto no es geométricamente posible, ¿verdad?

Traté de entender la sección correspondiente en el artículo de Wikipedia , pero ya fallé miserablemente en la oración "Aquí, la entrada xy la salida y se extraen de conjuntos arbitrarios". ¿Podría alguien explicarme el perceptrón multiclase y cómo va con la idea del hiperplano, o tal vez señalarme una explicación no tan matemática?

— wnstnsmth
fuente

8

Supongamos que tenemos datos donde $(x_1, y_1), \dots, (x_k,y_k)$ $x_i \in \mathbb{R}^n$ son vectores de entrada y son las clasificaciones. $y_i \in \{\text{red, blue, green} \}$

Sabemos cómo construir un clasificador para resultados binarios, por lo que hacemos esto tres veces: agrupar los resultados, , y . $\{\text{red, blue or green} \}$ $\{\text{blue, red or green} \}$ $\{\text{green, blue or red} \}$

Cada modelo toma la forma de una función , llámelos respectivamente. Esto toma un vector de entrada a la distancia firmada por el hiperplano asociado a cada modelo, donde corresponde distancia positivas a una predicción de azul si , rojo si y verde si . Básicamente, cuanto más positivo es , más piensa el modelo que $f: \mathbb{R}^n \to \mathbb{R}$ $f_R, f_B, f_G$ $f_B$ $f_R$ $f_G$ $f_G(x)$ $x$ es verde y viceversa. No necesitamos que el resultado sea una probabilidad, solo necesitamos poder medir qué tan seguro es el modelo.

Dada una entrada , la clasificamos de acuerdo con , por lo que si es el mayor entre lo haríamos predecir verde para . $x$ $\text{argmax}_{c} \ f_c(x)$ $f_G(x)$ $\{f_G(x), f_B(x), f_R(x) \}$ $x$

Esta estrategia se llama "uno contra todos", y puede leerla aquí .

— Harri
fuente

3

No puedo entender el artículo de Wiki en absoluto. Aquí hay una puñalada alternativa para explicarlo.

Un perceptrón con un nodo de salida logística es una red de clasificación para 2 clases. Produce , la probabilidad de estar en una de las clases, con la probabilidad de estar en la otra simplemente . $p$ $1 - p$

Un perceptrón con dos nodos de salida es una red de clasificación para 3 clases. Cada uno de los dos nodos genera la probabilidad de estar en una clase , y la probabilidad de estar en la tercera clase es . $p_i$ $1 - \sum_{i=(1,2)} p_i$

Y así; un perceptrón con nodos de salida es un clasificador para clases. De hecho, si no hay una capa oculta, dicho perceptrón es básicamente lo mismo que un modelo de regresión logística multinomial , así como un perceptrón simple es lo mismo que una regresión logística. $m$ $m + 1$

— Hong Ooi
fuente

¿Estás seguro de que la salida es una probabilidad real? De todos modos, no sé cómo funciona la regresión logística multinomial, así que tendré que investigar eso. Pero, ¿no hay una forma (algorítmica) de explicar cómo se construye un perceptrón con dos o más nodos de salida? ¿Están encadenados de alguna manera?

— wnstnsmth