Sí, tiene razón en que hay una falta de identificabilidad a menos que uno de los vectores coeficientes sea fijo. Hay algunas razones que no mencionan esto. No puedo hablar de por qué omiten este detalle, pero aquí hay una explicación de qué es y cómo solucionarlo.
Descripción
Digamos que tiene observaciones y predictores , donde va de a denota el número / índice de observación. Necesitará estimar los vectores de coeficiente dimensional .yi∈{0,1,2,…,K−1}x⊺i∈Rpi1nK pβ0,β1,…,βK−1
La función softmax se define como
que tiene buenas propiedades como la diferenciabilidad, suma , etc.softmax(z)i=exp(zi)∑K−1l=0exp(zl),
1
La regresión logística multinomial utiliza la función softmax para cada observación en el vector
i⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
lo que significa
⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
El problema
Sin embargo, la probabilidad no es identificable porque múltiples colecciones de parámetros darán la misma probabilidad. Por ejemplo, cambiar todos los vectores de coeficientes por el mismo vector producirá la misma probabilidad. Esto se puede ver si multiplica cada numerador y denominador de cada elemento del vector por una constante , nada cambia:cexp[−x⊺ic]
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺i(β0−c)]∑K−1k=0exp[x⊺i(βk−c)]exp[x⊺i(β1−c)]∑K−1k=0exp[x⊺i(βk−c)]⋮exp[x⊺i(βK−1−c)]∑K−1k=0exp[x⊺i(βk−c)]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Arreglando lo
La forma de solucionar esto es restringir los parámetros. Arreglar uno de ellos conducirá a la identificación, porque ya no se permitirá cambiarlos.
Hay dos opciones comunes:
- set , que significa (usted menciona este), yc=β0β0=0
- set , que significa .c=βK−1βK−1=0
Ignorándolo
Sin embargo, a veces la restricción no es necesaria. Por ejemplo, si estaba interesado en formar un intervalo de confianza para la cantidad , entonces esto es lo mismo que , así que inferencia en relativamente cantidades realmente no importan. Además, si su tarea es predicción en lugar de inferencia de parámetros, sus predicciones no se verán afectadas si se estiman todos los vectores de coeficientes (sin restringir uno).β01−β21β01−c−[β21−c]