Mientras realizaba mis actividades de excavación en preguntas sin respuesta, encontré esta muy sensata, a la cual, supongo, el OP ha encontrado una respuesta.
Pero me di cuenta de que tenía varias preguntas propias sobre el tema de la separación perfecta en la regresión logística, y una búsqueda (rápida) en la literatura no parecía responderlas. Así que decidí comenzar un pequeño proyecto de investigación propio (probablemente reinventar la rueda), y con esta respuesta me gustaría compartir algunos de sus resultados preliminares. Creo que estos resultados contribuyen a comprender si el tema de la separación perfecta es puramente "técnico" o si se le puede dar una descripción / explicación más intuitiva.
Mi primera preocupación era entender el fenómeno en términos algorítmicos, en lugar de la teoría general detrás de él: bajo qué condiciones el enfoque de estimación de máxima verosimilitud se "romperá" si se alimenta con una muestra de datos que contiene un regresor para el cual el fenómeno de la perfección separación existe?
Los resultados preliminares (teóricos y simulados) indican que:
1) Importa si se incluye un término constante en la especificación logit.
2) Importa si el regresor en cuestión es dicotómico (en la muestra) o no.
3) Si es dicotómico, puede importar si toma el valor o no.
4) Importa si otros regresores están presentes en la especificación o no.
5) Importa cómo se combinan los 4 temas anteriores. 0
Ahora presentaré un conjunto de condiciones suficientes para una separación perfecta para que el MLE se descomponga. Esto no está relacionado con si los diversos softwares estadísticos alertan sobre el fenómeno; pueden hacerlo escaneando la muestra de datos antes de intentar ejecutar la estimación de máxima verosimilitud. Me preocupan los casos en los que comenzará la estimación de máxima verosimilitud y cuándo se descompondrá en el proceso.
Suponga un modelo de regresión logística de elección binaria "habitual"
P(Yi∣β0,Xi,zi)=Λ(g(β0,xi,zi)),g(β0,xi,zi)=β0+β1xi+z′iγ
X es el regresor con separación perfecta, mientras que es una colección de otros regresores que no se caracterizan por una separación perfecta. tambiénZ
Λ(g(β0,xi,zi))=11+e−g(β0,xi,zi)≡Λi
La probabilidad de registro para una muestra de tamaño esn
lnL=∑i=1n[yiln(Λi)+(1−yi)ln(1−Λi)]
El MLE se encontrará al establecer las derivadas iguales a cero. En particular queremos
∑i=1n(yi−Λi)=0(1)
∑i=1n(yi−Λi)xi=0(2)
La primera ecuación proviene de tomar la derivada con respecto al término constante, la segunda de tomar la derivada con respecto a X.
Supongamos ahora que en todos los casos donde y1=1 tenemos xi=ak, y eso xi nunca toma el valor ak cuando yi=0. Este es el fenómeno de la separación completa, o "predicción perfecta": si observamosxi=ak lo sabemos yi=1. Si observamosxi≠ak lo sabemos yi=0. Esto es válido independientemente de si, en teoría o en la muestra ,Xes discreto o continuo, dicotómico o no. Pero también, este es un fenómeno específico de la muestra: no argumentamos que afectará a la población. Pero la muestra específica es lo que tenemos en nuestras manos para alimentar el MLE.
Ahora denote la frecuencia absoluta de yi=1 por ny
ny≡∑i=1nyi=∑yi=1yi(3)
Entonces podemos reescribir eq (1) como
ny=∑i=1nΛi=∑yi=1Λi+∑yi=0Λi⇒ny−∑yi=1Λi=∑yi=0Λi(4)
Pasando a la ecuación. (2) tenemos
∑i=1nyixi−∑i=1nΛixi=0⇒∑yi=1yiak+∑yi=0yixi−∑yi=1Λiak−∑yi=0Λixi=0
utilizando (3) tenemos
nyak+0−ak∑yi=1Λi−∑yi=0Λixi=0
⇒ak(ny−∑yi=1Λi)−∑yi=0Λixi=0
y usando (4) obtenemos
ak∑yi=0Λixi−∑yi=0Λixi=0⇒∑yi=0(ak−xi)Λi=0(5)
Entonces: si la especificación contiene un término constante y hay una separación perfecta con respecto al regresorX, el MLE intentará satisfacer, entre otros, eq (5) además.
Pero tenga en cuenta que la suma es sobre la submuestra donde yi=0 en el cual xi≠akpor suposición Esto implica lo siguiente:
1) siX es dicotómica en la muestra, entonces (ak−xi)≠0 para todos i en el resumen en (5).
2) siX no es dicotómico en la muestra, pero ak es su valor mínimo o máximo en la muestra, luego nuevamente (ak−xi)≠0 para todos i en el resumen en (5).
En estos dos casos, y desde luego Λi es no negativo por construcción, la única forma en que la ecuación. (5) puede estar satisfecho es cuando Λi=0 para todos iEn el resumen. Pero
Λi=11+e−g(β0,xi,zi)
y entonces la única forma en que Λi puede llegar a ser igual a 0, es si las estimaciones de los parámetros son tales que g(β0,xi,zi)→−∞. Y desdeg()es lineal en los parámetros, esto implica que al menos una de las estimaciones de los parámetros debe ser "infinito": esto es lo que significa que el MLE se "descomponga": no producir estimaciones con valores finitos. Por lo tanto, los casos 1) y 2) son condiciones suficientes para un desglose del procedimiento MLE.
Pero considere ahora el caso donde X no es dicotómico, y akno es su valor mínimo o máximo en la muestra. Todavía tenemos separación completa, "predicción perfecta", pero ahora, en la ec.(5) algunos de los términos (ak−xi)será positivo y algunos serán negativos. Esto significa que es posible que el MLE pueda satisfacer la ecuación.(5)produciendo estimaciones finitas para todos los parámetros. Y los resultados de la simulación confirman que esto es así.
No estoy diciendo que tal muestra no cree consecuencias indeseables para las propiedades del estimador, etc.: Solo noto que en tal caso, el algoritmo de estimación se ejecutará como de costumbre.
Además, los resultados de la simulación muestran que si no hay un término constante en la especificación ,X no es dicotómico pero akes un valor extremo, y hay otros regresores presentes, nuevamente el MLE se ejecutará, lo que indica que la presencia del término constante (cuyas consecuencias teóricas utilizamos en los resultados anteriores, es decir, el requisito de que el MLE satisfaga la ecuación.(1)), es importante.