¿Cuál es la diferencia entre el modelo Logit y Probit ?
Aquí estoy más interesado en saber cuándo usar la regresión logística y cuándo usar Probit.
Si hay alguna literatura que lo defina usando R , eso también sería útil.
¿Cuál es la diferencia entre el modelo Logit y Probit ?
Aquí estoy más interesado en saber cuándo usar la regresión logística y cuándo usar Probit.
Si hay alguna literatura que lo defina usando R , eso también sería útil.
Respuestas:
Se diferencian principalmente en la función de enlace.
En Logit:
En Probit: (pdf normal acumulativo)
De otra manera, la logística tiene colas ligeramente más planas. es decir, la curva probit se aproxima a los ejes más rápidamente que la curva logit.
Logit tiene una interpretación más fácil que probit. La regresión logística puede interpretarse como probabilidades de registro de modelado (es decir, aquellos que fuman> 25 cigarrillos al día tienen 6 veces más probabilidades de morir antes de los 65 años) Por lo general, las personas comienzan el modelado con logit. Puede usar el valor de probabilidad de cada modelo para decidir logit vs probit.
Se puede pensar que un modelo lineal estándar (por ejemplo, un modelo de regresión simple) tiene dos 'partes'. Estos se denominan componente estructural y componente aleatorio . Por ejemplo:
Los dos primeros términos (es decir, ) constituyen el componente estructural, y el (que indica un término de error normalmente distribuido) es el componente aleatorio. Cuando la variable de respuesta no se distribuye normalmente (por ejemplo, si su variable de respuesta es binaria), este enfoque puede dejar de ser válido. El modelo lineal generalizado.
La función de enlace es la clave para los GLiM: dado que la distribución de la variable de respuesta no es normal, es lo que nos permite conectar el componente estructural a la respuesta: los 'vincula' (de ahí el nombre). También es la clave de su pregunta, ya que logit y probit son enlaces (como explicó @vinux), y comprender las funciones de enlace nos permitirá elegir de manera inteligente cuándo usar cuál. Aunque puede haber muchas funciones de enlace que pueden ser aceptables, a menudo hay una que es especial. Sin querer llegar demasiado lejos a las malezas (esto puede ser muy técnico), la media predicha, , no será necesariamente matemáticamente la misma que el parámetro de ubicación canónica de la distribución de respuesta ;. La ventaja de esto "es que existe una estadística mínima suficiente para " ( German Rodriguez ). El enlace canónico para los datos de respuesta binaria (más específicamente, la distribución binomial) es el logit. Sin embargo, hay muchas funciones que pueden mapear el componente estructural en el intervalo y, por lo tanto, ser aceptable; el probit también es popular, pero hay otras opciones que a veces se usan (como el registro de registro complementario, , a menudo llamado 'cloglog'). Por lo tanto, hay muchas funciones de enlace posibles y la elección de la función de enlace puede ser muy importante. La elección debe hacerse en base a alguna combinación de:
Habiendo cubierto un poco del trasfondo conceptual necesario para comprender estas ideas más claramente (perdóname), explicaré cómo estas consideraciones pueden usarse para guiar su elección de enlace. (Permítanme señalar que creo que el comentario de @ David captura con precisión por qué se eligen diferentes enlaces en la práctica ). Para empezar, si su variable de respuesta es el resultado de un ensayo de Bernoulli (es decir, o ), su distribución de respuesta será binomial, y lo que realmente está modelando es la probabilidad de que una observación sea un (es decir, ). Como resultado, cualquier función que asigne la recta numérica real, , al intervalotrabajará.
Desde el punto de vista de su teoría sustantiva, si está pensando en sus covariables como directamente relacionadas con la probabilidad de éxito, entonces normalmente elegiría la regresión logística porque es el enlace canónico. Sin embargo, considere el siguiente ejemplo: Se le pide que modele high_Blood_Pressure
en función de algunas covariables. La presión arterial en sí misma normalmente se distribuye en la población (en realidad no lo sé, pero parece razonable a primera vista), sin embargo, los médicos la dicotomizaron durante el estudio (es decir, solo registraron 'alto-BP' o 'normal' ) En este caso, probit sería preferible a priori por razones teóricas. Esto es lo que @Elvis quiso decir con "su resultado binario depende de una variable gaussiana oculta".simétrico , si cree que la probabilidad de éxito aumenta lentamente desde cero, pero luego disminuye gradualmente a medida que se acerca a uno, se solicita el atasco, etc.
Por último, tenga en cuenta que es poco probable que el ajuste empírico del modelo a los datos sea útil para seleccionar un enlace, a menos que las formas de las funciones del enlace en cuestión difieran sustancialmente (de las cuales, logit y probit no lo hacen). Por ejemplo, considere la siguiente simulación:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
Incluso cuando sabemos que los datos fueron generados por un modelo probit, y tenemos 1000 puntos de datos, el modelo probit solo produce un mejor ajuste el 70% del tiempo, e incluso entonces, a menudo solo por una cantidad trivial. Considere la última iteración:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
La razón de esto es simplemente que las funciones de enlace logit y probit producen salidas muy similares cuando reciben las mismas entradas.
Las funciones logit y probit son prácticamente idénticas, excepto que el logit está un poco más alejado de los límites cuando 'doblan la esquina', como dijo @vinux. (Tenga en cuenta que para lograr que el logit y el probit se alineen de manera óptima, el del logit debe ser veces el valor de la pendiente correspondiente para el probit. Además, podría haber desplazado un poco el cloglog para que quedara en la parte superior uno del otro más, pero lo dejé a un lado para mantener la figura más legible.) Observe que el atasco es asimétrico mientras que los demás no lo son; comienza a alejarse de 0 antes, pero más lentamente, se acerca a 1 y luego gira bruscamente.
Se pueden decir un par de cosas más sobre las funciones de enlace. Primero, considerar la función de identidad ( ) como una función de enlace nos permite entender el modelo lineal estándar como un caso especial del modelo lineal generalizado (es decir, la distribución de la respuesta es normal y el enlace es la función de identidad). También es importante reconocer que cualquier transformación que instale el enlace se aplica correctamente al parámetro que rige la distribución de respuesta (es decir, ), no a los datos de respuesta reales. Finalmente, debido a que en la práctica nunca tenemos el parámetro subyacente para transformar, en las discusiones sobre estos modelos, a menudo lo que se considera el enlace real se deja implícito y el modelo está representado por el inverso de la función de enlace aplicada al componente estructural. . Es decir:
Por ejemplo, la regresión logística generalmente se representa:
lugar de:
Para una descripción rápida y clara, pero sólida, del modelo lineal generalizado, vea el capítulo 10 de Fitzmaurice, Laird y Ware (2004) , (en el que me apoyé para ver partes de esta respuesta, aunque como esta es mi propia adaptación de eso --y otro - material, cualquier error sería mío). Para saber cómo ajustar estos modelos en R, consulte la documentación de la función ? Glm en el paquete base.
(Una nota final añadida más tarde :) Ocasionalmente escucho a personas decir que no debes usar el probit, porque no se puede interpretar. Esto no es cierto, aunque la interpretación de las betas es menos intuitiva. Con la regresión logística, un cambio de una unidad en se asocia con un cambio en las probabilidades de registro de 'éxito' (alternativamente, un cambio de veces en las probabilidades), todo lo demás es igual. Con un probit, esto sería un cambio de 's. (Piense en dos observaciones en un conjunto de datos con puntajes de 1 y 2, por ejemplo). Para convertirlas en probabilidades pronosticadas , puede pasarlas a través del CDF normal, o búsquelos en una tabla .
(+1 a @vinux y @Elvis. Aquí he intentado proporcionar un marco más amplio dentro del cual pensar sobre estas cosas y luego usarlo para abordar la elección entre logit y probit).
Además de la respuesta de vinux, que ya dice lo más importante:
los coeficientes en la regresión logit tienen interpretaciones naturales en términos de odds ratio;
la regresión probística es el modelo natural cuando cree que su resultado binario depende de una variable gaussiana oculta [eq. 1] con de manera determinista: exactamente cuando .
De manera más general y más natural, la regresión probística es el modelo más natural si cree que el resultado es exactamente cuando excede un umbral , con . Es fácil ver que esto se puede reducir al caso mencionado anteriormente: simplemente escala de como ; es fácil verificar esa ecuación [eq. 1] aún se mantiene (reescalar los coeficientes y traducir la intersección). Estos modelos se han defendido, por ejemplo, en contextos médicos, donde sería una variable continua no observada e por ejemplo, una enfermedad que aparece cuando excede algún "umbral patológico".
Los modelos logit y probit son solo modelos . "Todos los modelos están equivocados, algunos son útiles", como dijo Box una vez. Ambos modelos le permitirán detectar la existencia de un efecto de en el resultado ; excepto en algunos casos muy especiales, ninguno de ellos será "realmente cierto", y su interpretación debe hacerse con cautela.
En cuanto a su declaración
Aquí estoy más interesado en saber cuándo usar la regresión logística y cuándo usar probit
Ya hay muchas respuestas aquí que plantean aspectos a tener en cuenta al elegir entre los dos, pero hay una consideración importante que aún no se ha establecido: cuando su interés está en buscar asociaciones dentro del clúster en datos binarios utilizando efectos mixtos logísticos o modelos probit, existe una base teórica para preferir el modelo probit. Esto, por supuesto, supone que no hay una razón a priori para preferir el modelo logístico (por ejemplo, si está haciendo una simulación y sabe que es el modelo verdadero).
Primero , para ver por qué esto es cierto, primero tenga en cuenta que estos dos modelos pueden verse como modelos de regresión continua restringidos. Como ejemplo, considere el modelo lineal simple de efectos mixtos para la observación dentro del grupo :
donde es el efecto aleatorio del clúster y es el término de error. Luego, los modelos de regresión logística y probit se formulan de manera equivalente como generados a partir de este modelo y con umbral en 0:
Si el término se distribuye normalmente, tiene una regresión probit y si se distribuye logísticamente, tiene un modelo de regresión logística. Como no se identifica la escala, estos errores residuales se especifican como normal estándar y logístico estándar, respectivamente.
Pearson (1900) demostró que si se generaban datos normales multivariados y se consideraba categórico, las correlaciones entre las variables subyacentes todavía se identificaban estadísticamente; estas correlaciones se denominan correlaciones policóricas y, específicamente para el caso binario, se denominan correlaciones tetracóricas . Esto significa que, en un modelo probit, el coeficiente de correlación intraclase de las variables subyacentes normalmente distribuidas:
se identifica, lo que significa que en el caso probit puede caracterizar completamente la distribución conjunta de las variables latentes subyacentes .
En el modelo logístico, la varianza del efecto aleatorio en el modelo logístico aún se identifica, pero no caracteriza completamente la estructura de dependencia (y, por lo tanto, la distribución conjunta), ya que es una mezcla entre una variable aleatoria normal y una logística que no tiene el propiedad que está completamente especificada por su media y matriz de covarianza. Al observar esta extraña hipótesis paramétrica para las variables latentes subyacentes, la interpretación de los efectos aleatorios en el modelo logístico es menos clara de interpretar en general.
Un punto importante que no se ha abordado en las respuestas anteriores (excelentes) es el paso de estimación real. Los modelos logit multinomiales tienen un PDF que es fácil de integrar, lo que lleva a una expresión de forma cerrada de la probabilidad de elección. La función de densidad de la distribución normal no se integra tan fácilmente, por lo que los modelos probit generalmente requieren simulación. Entonces, si bien ambos modelos son abstracciones de situaciones del mundo real, logit suele ser más rápido de usar en problemas más grandes (múltiples alternativas o grandes conjuntos de datos).
Para ver esto más claramente, la probabilidad de que se seleccione un resultado en particular es una función de las variables predictoras los términos de error (siguiendo Train )
No existe tal forma conveniente para los modelos probit.
Lo que voy a decir de ninguna manera invalida lo que se ha dicho hasta ahora. Solo quiero señalar que los modelos probit no sufren de supuestos IIA (Independencia de alternativas irrelevantes), y el modelo logit sí.
Para usar un ejemplo del excelente libro de Train. Si tengo un logit que predice si voy a viajar en el autobús azul o conduciré en mi automóvil, agregar el autobús rojo tomaría proporcionalmente tanto el automóvil como el autobús azul. Pero utilizando un modelo probit puede evitar este problema. En esencia, en lugar de dibujar de ambos proporcionalmente, puede dibujar más del autobús azul ya que son sustitutos más cercanos.
El sacrificio que haces es que no hay soluciones de forma cerrada, como se señaló anteriormente. Probit tiende a ser mi goto cuando estoy preocupado por los problemas del IIA. Eso no quiere decir que no haya formas de evitar el IIA en un marco logit (distribuciones GEV). Pero siempre he visto este tipo de modelos como una forma torpe de resolver el problema. Con las velocidades computacionales que puede obtener, diría que vaya con probit.
Una de las diferencias más conocidas entre logit y probit es la distribución de residuos de regresión (teórica): normal para probit, logística para logit (ver: Koop G. Introducción a Econometrics Chichester, Wiley: 2008: 280).
Ofrezco una respuesta práctica a la pregunta, que solo se enfoca en "cuándo usar la regresión logística y cuándo usar probit", sin entrar en detalles estadísticos, sino más bien enfocándose en decisiones basadas en estadísticas. La respuesta depende de dos cosas principales: ¿tiene una preferencia disciplinaria y solo le importa qué modelo se ajusta mejor a sus datos?
Diferencia básica
Tanto los modelos logit como probit proporcionan modelos estadísticos que dan la probabilidad de que una variable de respuesta dependiente sea 0 o 1. Son muy similares y a menudo dan resultados prácticamente idénticos, pero debido a que usan diferentes funciones para calcular las probabilidades, sus resultados a veces son ligeramente diferente.
Preferencia disciplinaria
Algunas disciplinas académicas generalmente prefieren una u otra. Si va a publicar o presentar sus resultados a una disciplina académica con una preferencia tradicional específica, deje que eso dicte su elección para que sus hallazgos sean más fácilmente aceptables. Por ejemplo (de Métodos Consultores ),
Logit, también conocido como regresión logística, es más popular en ciencias de la salud como la epidemiología, en parte porque los coeficientes pueden interpretarse en términos de odds ratios. Los modelos probit pueden generalizarse para tener en cuenta las variaciones de error no constantes en entornos econométricos más avanzados (conocidos como modelos probit heteroscedasticos) y, por lo tanto, son utilizados en algunos contextos por economistas y politólogos.
El punto es que las diferencias en los resultados son tan menores que la capacidad de su audiencia general para comprender sus resultados supera las diferencias menores entre los dos enfoques.
Si todo lo que te importa es mejor ...
Si su investigación se encuentra en una disciplina que no prefiere una u otra, entonces mi estudio de esta pregunta (que es mejor, logit o probit) me ha llevado a concluir que generalmente es mejor usar probit , ya que casi siempre lo hará. dar un ajuste estadístico a los datos que es igual o superior al del modelo logit. La excepción más notable cuando los modelos logit dan un mejor ajuste es en el caso de "variables independientes extremas" (que explico a continuación).
Mi conclusión se basa casi por completo (después de buscar en muchas otras fuentes) en Hahn, ED y Soyer, R., 2005. Modelos probit y logit: diferencias en el ámbito multivariante. Disponible en: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Aquí está mi resumen de las conclusiones de decisión práctica de este artículo sobre si los modelos multivariados logit versus probit proporcionan un mejor ajuste a los datos (estas conclusiones también se aplican a los modelos univariados, pero solo simularon efectos para dos variables independientes):
En la mayoría de los escenarios, los modelos logit y probit se ajustan igualmente bien a los datos, con las siguientes dos excepciones.
Logit es definitivamente mejor en el caso de "variables independientes extremas" . Estas son variables independientes donde un valor particularmente grande o pequeño determinará abrumadoramente si la variable dependiente es un 0 o un 1, anulando los efectos de la mayoría de las otras variables. Hahn y Soyer lo definen formalmente así (p. 4):
Un nivel variable independiente extrema implica la con fl uidez de tres eventos. Primero, un nivel de variable independiente extrema ocurre en el extremo superior o inferior de una variable independiente. Por ejemplo, supongamos que la variable independiente x tomaría los valores 1, 2 y 3.2. El nivel variable independiente extrema implicaría los valores en x = 3.2 (o x = 1). En segundo lugar, una proporción sustancial (p. Ej., 60%) del total n debe estar en este nivel. En tercer lugar, la probabilidad de éxito en este nivel debería ser extrema (p. Ej., Superior al 99%).
Basado en el análisis de Hahn y Soyer, mi conclusión es usar siempre modelos probit, excepto en el caso de variables independientes extremas, en cuyo caso se debe elegir logit . Las variables independientes extremas no son tan comunes y deberían ser bastante fáciles de reconocer. Con esta regla general, no importa si el modelo es un modelo de efectos aleatorios o no. En los casos en que un modelo es un modelo de efectos aleatorios (donde se prefiere probit) pero hay variables independientes extremas (donde se prefiere logit), aunque Hahn y Soyer no comentaron sobre esto, mi impresión de su artículo es que el efecto de las variables independientes extremas son más dominantes, por lo que se preferiría logit.
A continuación, explico un estimador que anida probit y logit como casos especiales y donde se puede probar cuál es más apropiado.
Tanto probit como logit se pueden anidar en un modelo de variable latente,
donde el componente observado es
Si elige que sea el cdf normal, obtendrá probit, si elige el cdf logístico, obtendrá logit. De cualquier manera, la función de probabilidad toma la forma
Sin embargo, si le preocupa qué suposición ha hecho, puede usar el estimador Klein & Spady (1993; Econometrica). Este estimador le permite ser completamente flexible en su especificación del cdf, , y luego incluso puede probar la validez de la normalidad o la logística (?).
En Klein y Spady, la función de criterio es
donde es una estimación no paramétrica del cdf, por ejemplo, estimada utilizando un estimador de regresión del núcleo Nadaraya-Watson,
donde se llama "Kernel" (típicamente, se elige el cdf gaussiano o un kernel triangular), y es un "ancho de banda". Hay valores de plugin para elegir para este último, pero puede ser mucho más complicado y puede hacer que la optimización externa sobre más complicada si cambia en cada paso ( equilibra la denominada compensación de variación de sesgo ).h β h h
Mejoras: Ichimura ha sugerido que la regresión del núcleo, , debe dejar de lado la ésima observación; de lo contrario, la elección de puede verse complicada por un problema con un ajuste excesivo en la muestra (variación demasiado alta). ih
Discusión: Un inconveniente con el estimador Klein-Spady es que puede atascarse en los mínimos locales. Esto se debe a que el cdf de adapta a la dada
Ellos son muy similares.
O equivalente :
Las diferencias entre logística y probit radica en la diferencia entre la distribución logística y la normal. No hay mucho Una vez ajustados, se ven así:
La logística tiene una cola más pesada. Esto puede afectar un poco cómo se ajustan los eventos de probabilidad pequeña (<1%) o alta (> 99%). Prácticamente, la diferencia ni siquiera se nota en la mayoría de las situaciones: logit y probit predicen esencialmente lo mismo. Ver http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article
"Filosóficamente", la regresión logística puede justificarse al ser equivalente al principio de máxima entropía: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropía-modelos /
En términos de cálculo: la logística es más simple ya que la distribución acumulativa de la distribución logística tiene una fórmula cerrada a diferencia de la distribución normal. Pero las distribuciones normales tienen buenas propiedades cuando va a multidimensional, es por eso que a menudo se prefiere probit en casos avanzados.