De hecho, son equivalentes, en el sentido de que uno puede transformarse en el otro.
Suponga que sus datos están representados por un vector , de dimensión arbitraria, y construyó un clasificador binario para ello, utilizando una transformación afín seguida de un softmax:x
(z0z1)=(wT0wT1)x+(b0b1),
P(Ci|x)=softmax(zi)=eziez0+ez1,i∈{0,1}.
Transformémoslo en un clasificador binario equivalente que use un sigmoide en lugar del softmax. En primer lugar, tenemos que decidir cuál es la probabilidad de que queremos que salga el sigmoide (que puede ser para la clase o ). Esta elección es absolutamente arbitraria, por lo que elijo la clase . Entonces, mi clasificador tendrá la forma:C0C1C0
z′=w′Tx+b′,
P(C0|x)=σ(z′)=11+e−z′,
P(C1|x)=1−σ(z′).
Los clasificadores son equivalentes si las probabilidades son las mismas, por lo que debemos imponer:
σ(z′)=softmax(z0)
Reemplazar , y por sus expresiones en términos de y y hacer algo sencillo manipulación algebraica, puede verificar que la igualdad anterior se mantenga si y solo si y están dados por:z0z1z′w0,w1,w′,b0,b1,b′xw′b′
w′=w0−w1,
b′=b0−b1.