Diferencia entre modelos logit y probit

299

¿Cuál es la diferencia entre el modelo Logit y Probit ?

Aquí estoy más interesado en saber cuándo usar la regresión logística y cuándo usar Probit.

Si hay alguna literatura que lo defina usando R , eso también sería útil.

— Beta
fuente

55

Apenas existe diferencia entre los resultados de los dos (ver Paap & Franses 2000)

1

Una vez tuve un extenso conjunto de datos (bioensayo) en el que podíamos ver que Probit se ajustaba marginalmente mejor, pero no hubo diferencias para las conclusiones.

— kjetil b halvorsen

1

@Alyas Shah: y esa es la explicación de por qué con mi probit de datos ajustado (marginalmente) mejor --- porque por encima de una dosis determinada, la mortalidad es del 100%, y por debajo de algún umbral, la mortalidad es del 0%, por lo que no vemos el enfoque lento del logit!

— kjetil b halvorsen

3

Para los datos reales, por oposición a los datos generados desde logit o probit, un enfoque considerado para el problema sería realizar una comparación de modelos. En mi experiencia, los datos rara vez se inclinan hacia uno de los dos modelos.

— Xi'an

2

He oído que el uso práctico de la distribución logística se origina por su similitud con el CDF normal y su función de distribución acumulativa mucho más simple. De hecho, el CDF normal contiene una integral que debe evaluarse, lo que supongo que era computacionalmente costoso en aquellos días.

— dv_bn

144

Se diferencian principalmente en la función de enlace.

En Logit: $\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1}$

En Probit: (pdf normal acumulativo) $\Pr(Y=1 \mid X) = \Phi(X'\beta)$

De otra manera, la logística tiene colas ligeramente más planas. es decir, la curva probit se aproxima a los ejes más rápidamente que la curva logit.

Logit tiene una interpretación más fácil que probit. La regresión logística puede interpretarse como probabilidades de registro de modelado (es decir, aquellos que fuman> 25 cigarrillos al día tienen 6 veces más probabilidades de morir antes de los 65 años) Por lo general, las personas comienzan el modelado con logit. Puede usar el valor de probabilidad de cada modelo para decidir logit vs probit.

— vinux
fuente

66

Gracias por tu respuesta Vinux. Pero también quiero saber cuándo usar logit y usar probit. Sé que logit es más popular que probit, y la mayoría de los casos usamos regresión logit. Pero hay algunos casos en los que los modelos Probit son más útiles. ¿Me puede decir cuáles son esos casos? Y cómo distinguir esos casos de los casos normales.

— Beta

55

Cuando le preocupa la parte de la cola de la curva, en algún momento la selección de logit o probit es importante. No hay una regla exacta para seleccionar probit o logit. Puede seleccionar el modelo mirando probabilidad (o probabilidad de registro) o AIC.

— vinux

12

¡Gracias por el consejo! ¿Puedes explicar cómo seleccionar entre logit y probit? En particular: (1) ¿Cómo puedo saber cuándo le preocupa la parte de la cola de la curva? (2) ¿Cómo selecciono un modelo mirando la probabilidad, la probabilidad de registro o la AIC? ¿Qué debería mirar específicamente y cómo debería influir esto en mi decisión sobre qué modelo usar?

— DW

Bueno, ¿podría dar ejemplos en los que logit falla en comparación con probit? No puedo encontrar los que tienes en mente.

— Wok

1

@flies Aquí denota la transpuesta de la matriz .

X^{'}

$X'$

X

$X$

— Mathemanic

445

Se puede pensar que un modelo lineal estándar (por ejemplo, un modelo de regresión simple) tiene dos 'partes'. Estos se denominan componente estructural y componente aleatorio . Por ejemplo: Los dos primeros términos (es decir, ) constituyen el componente estructural, y el (que indica un término de error normalmente distribuido) es el componente aleatorio. Cuando la variable de respuesta no se distribuye normalmente (por ejemplo, si su variable de respuesta es binaria), este enfoque puede dejar de ser válido. El modelo lineal generalizado.

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal{N}(0,\sigma^2)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

ε

$\varepsilon$ (GLiM) se desarrolló para abordar tales casos, y los modelos logit y probit son casos especiales de GLiM que son apropiados para variables binarias (o variables de respuesta de múltiples categorías con algunas adaptaciones al proceso). Un GLiM tiene tres partes, un componente estructural , una función de enlace y una distribución de respuesta . Por ejemplo: Aquí es nuevamente el componente estructural, es la función de enlace y

g (μ) = β_{0} + β_{1} X

$g(\mu)=\beta_0+\beta_1X$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

g ()

$g()$

μ

$\mu$ es una media de una distribución de respuesta condicional en un punto dado en el espacio covariable. La forma en que pensamos sobre el componente estructural aquí realmente no difiere de cómo lo pensamos con los modelos lineales estándar; de hecho, esa es una de las grandes ventajas de GLiMs. Debido a que para muchas distribuciones la varianza es una función de la media, habiendo ajustado una media condicional (y dado que estipuló una distribución de respuesta), usted ha contabilizado automáticamente el análogo del componente aleatorio en un modelo lineal (NB: esto puede ser más complicado en la práctica).

La función de enlace es la clave para los GLiM: dado que la distribución de la variable de respuesta no es normal, es lo que nos permite conectar el componente estructural a la respuesta: los 'vincula' (de ahí el nombre). También es la clave de su pregunta, ya que logit y probit son enlaces (como explicó @vinux), y comprender las funciones de enlace nos permitirá elegir de manera inteligente cuándo usar cuál. Aunque puede haber muchas funciones de enlace que pueden ser aceptables, a menudo hay una que es especial. Sin querer llegar demasiado lejos a las malezas (esto puede ser muy técnico), la media predicha, , no será necesariamente matemáticamente la misma que el parámetro de ubicación canónica de la distribución de respuesta ; $\mu$ . La ventaja de esto "es que existe una estadística mínima suficiente para " ( German Rodriguez ). El enlace canónico para los datos de respuesta binaria (más específicamente, la distribución binomial) es el logit. Sin embargo, hay muchas funciones que pueden mapear el componente estructural en el intervalo y, por lo tanto, ser aceptable; el probit también es popular, pero hay otras opciones que a veces se usan (como el registro de registro complementario, , a menudo llamado 'cloglog'). Por lo tanto, hay muchas funciones de enlace posibles y la elección de la función de enlace puede ser muy importante. La elección debe hacerse en base a alguna combinación de: $\beta$ $(0,1)$ $\ln(-\ln(1-\mu))$

Conocimiento de la distribución de la respuesta.
Consideraciones teóricas, y
Ajuste empírico a los datos.

Habiendo cubierto un poco del trasfondo conceptual necesario para comprender estas ideas más claramente (perdóname), explicaré cómo estas consideraciones pueden usarse para guiar su elección de enlace. (Permítanme señalar que creo que el comentario de @ David captura con precisión por qué se eligen diferentes enlaces en la práctica ). Para empezar, si su variable de respuesta es el resultado de un ensayo de Bernoulli (es decir, o ), su distribución de respuesta será binomial, y lo que realmente está modelando es la probabilidad de que una observación sea un (es decir, ). Como resultado, cualquier función que asigne la recta numérica real, , al intervalo $0$ $1$ $1$ $\pi(Y=1)$ $(-\infty,+\infty)$ $(0,1)$ trabajará.

Desde el punto de vista de su teoría sustantiva, si está pensando en sus covariables como directamente relacionadas con la probabilidad de éxito, entonces normalmente elegiría la regresión logística porque es el enlace canónico. Sin embargo, considere el siguiente ejemplo: Se le pide que modele high_Blood_Pressureen función de algunas covariables. La presión arterial en sí misma normalmente se distribuye en la población (en realidad no lo sé, pero parece razonable a primera vista), sin embargo, los médicos la dicotomizaron durante el estudio (es decir, solo registraron 'alto-BP' o 'normal' ) En este caso, probit sería preferible a priori por razones teóricas. Esto es lo que @Elvis quiso decir con "su resultado binario depende de una variable gaussiana oculta".simétrico , si cree que la probabilidad de éxito aumenta lentamente desde cero, pero luego disminuye gradualmente a medida que se acerca a uno, se solicita el atasco, etc.

Por último, tenga en cuenta que es poco probable que el ajuste empírico del modelo a los datos sea útil para seleccionar un enlace, a menos que las formas de las funciones del enlace en cuestión difieran sustancialmente (de las cuales, logit y probit no lo hacen). Por ejemplo, considere la siguiente simulación:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

Incluso cuando sabemos que los datos fueron generados por un modelo probit, y tenemos 1000 puntos de datos, el modelo probit solo produce un mejor ajuste el 70% del tiempo, e incluso entonces, a menudo solo por una cantidad trivial. Considere la última iteración:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

La razón de esto es simplemente que las funciones de enlace logit y probit producen salidas muy similares cuando reciben las mismas entradas.

Ingrese la descripción de la imagen aquí

Las funciones logit y probit son prácticamente idénticas, excepto que el logit está un poco más alejado de los límites cuando 'doblan la esquina', como dijo @vinux. (Tenga en cuenta que para lograr que el logit y el probit se alineen de manera óptima, el del logit debe ser veces el valor de la pendiente correspondiente para el probit. Además, podría haber desplazado un poco el cloglog para que quedara en la parte superior uno del otro más, pero lo dejé a un lado para mantener la figura más legible.) Observe que el atasco es asimétrico mientras que los demás no lo son; comienza a alejarse de 0 antes, pero más lentamente, se acerca a 1 y luego gira bruscamente. $\beta_1$ $\approx 1.7$

Se pueden decir un par de cosas más sobre las funciones de enlace. Primero, considerar la función de identidad ( ) como una función de enlace nos permite entender el modelo lineal estándar como un caso especial del modelo lineal generalizado (es decir, la distribución de la respuesta es normal y el enlace es la función de identidad). También es importante reconocer que cualquier transformación que instale el enlace se aplica correctamente al parámetro que rige la distribución de respuesta (es decir, ), no a los datos de respuesta reales $g(\eta)=\eta$ $\mu$ . Finalmente, debido a que en la práctica nunca tenemos el parámetro subyacente para transformar, en las discusiones sobre estos modelos, a menudo lo que se considera el enlace real se deja implícito y el modelo está representado por el inverso de la función de enlace aplicada al componente estructural. . Es decir: Por ejemplo, la regresión logística generalmente se representa: lugar de:

μ = g^{- 1} (β_{0} + β_{1} X)

$\mu=g^{-1}(\beta_0+\beta_1X)$

π (Y) = \frac{\exp (β_{0} + β_{1} X)}{1 + \exp (β_{0} + β_{1} X)}

$\pi(Y)=\frac{\exp(\beta_0+\beta_1X)}{1+\exp(\beta_0+\beta_1X)}$

\ln (\frac{π (Y)}{1 - π (Y)}) = β_{0} + β_{1} X

$\ln\left(\frac{\pi(Y)}{1-\pi(Y)}\right)=\beta_0+\beta_1X$

Para una descripción rápida y clara, pero sólida, del modelo lineal generalizado, vea el capítulo 10 de Fitzmaurice, Laird y Ware (2004) , (en el que me apoyé para ver partes de esta respuesta, aunque como esta es mi propia adaptación de eso --y otro - material, cualquier error sería mío). Para saber cómo ajustar estos modelos en R, consulte la documentación de la función ? Glm en el paquete base.

(Una nota final añadida más tarde :) Ocasionalmente escucho a personas decir que no debes usar el probit, porque no se puede interpretar. Esto no es cierto, aunque la interpretación de las betas es menos intuitiva. Con la regresión logística, un cambio de una unidad en se asocia con un cambio en las probabilidades de registro de 'éxito' (alternativamente, un cambio de veces en las probabilidades), todo lo demás es igual. Con un probit, esto sería un cambio de 's. (Piense en dos observaciones en un conjunto de datos con puntajes de 1 y 2, por ejemplo). Para convertirlas en probabilidades pronosticadas , puede pasarlas a través del CDF normal $X_1$ $\beta_1$ $\exp(\beta_1)$ $\beta_1\text{ }z$ $z$ , o búsquelos en una tabla . $z$

(+1 a @vinux y @Elvis. Aquí he intentado proporcionar un marco más amplio dentro del cual pensar sobre estas cosas y luego usarlo para abordar la elección entre logit y probit).

— gung
fuente

79

Gracias chicos. Me alegro de que esto haya quedado bien; este es realmente un buen ejemplo de cómo puedes aprender cosas en CV respondiendo preguntas, así como preguntando y leyendo las respuestas de otros: conocía esta información de antemano, pero no lo suficientemente bien como para poder escribirla en frío. Así que en realidad pasé un tiempo revisando mis viejos textos para descubrir cómo organizar el material y presentarlo claramente, y en el proceso solidifiqué estas ideas para mí.

— Gung

66

@gung Gracias por esta explicación, es una de las descripciones más claras de GLM en general que he encontrado.

— fmark

@whuber "Cuando la variable de respuesta no se distribuye normalmente (por ejemplo, si su variable de respuesta es binaria), este enfoque [OLS estándar] puede dejar de ser válido". Lamento molestarte (¡otra vez!) Con esto, pero me parece un poco confuso. Entiendo que no hay supuestos de distribución incondicionales en la variable dependiente en OLS. ¿Esta cita implica que, dado que la respuesta es tan salvajemente no normal (es decir, una variable binaria) que su distribución condicional dada (y, por lo tanto, la distribución de los residuos) no puede acercarse a la normalidad?

X

$X$

— landroni

77

@landroni, es posible que desee hacer una nueva pregunta para esto. En resumen, si su respuesta es binaria, la distribución condicional de Y dado X = xi no puede acercarse a la normalidad; siempre será binomial. La distribución de los residuos en bruto nunca se acercará a la normalidad. Siempre serán pi y (1-pi). Sin embargo, la distribución muestral de la media condicional de Y dado X = xi (es decir, pi) se acercará a la normalidad.

— Gung

2

Comparto algo de la preocupación de Landroni: después de todo, un resultado distribuido normalmente no tiene residuos distribuidos normalmente, y un resultado no distribuido normalmente puede tener residuos distribuidos normalmente. El problema con el resultado parece ser menos sobre su distribución per se , que su rango.

— Alexis

47

Además de la respuesta de vinux, que ya dice lo más importante:

los coeficientes en la regresión logit tienen interpretaciones naturales en términos de odds ratio; $\beta$
la regresión probística es el modelo natural cuando cree que su resultado binario depende de una variable gaussiana oculta [eq. 1] con de manera determinista: exactamente cuando . $Z = X' \beta + \epsilon\$ $\epsilon \sim \mathcal N(0,1)$ $Y = 1$ $Z > 0$
De manera más general y más natural, la regresión probística es el modelo más natural si cree que el resultado es exactamente cuando excede un umbral , con . Es fácil ver que esto se puede reducir al caso mencionado anteriormente: simplemente escala de como ; es fácil verificar esa ecuación [eq. 1] aún se mantiene (reescalar los coeficientes y traducir la intersección). Estos modelos se han defendido, por ejemplo, en contextos médicos, donde sería una variable continua no observada e por ejemplo, una enfermedad que aparece cuando $1$ $Z_0 = X' \beta_0 + \epsilon_0$ $c$ $\epsilon \sim \mathcal N(0,\sigma^2)$ $Z_0$ $Z = {1\over \sigma}(Z_0-c)$ $Z_0$ $Y$ $Z_0$ excede algún "umbral patológico".

Los modelos logit y probit son solo modelos . "Todos los modelos están equivocados, algunos son útiles", como dijo Box una vez. Ambos modelos le permitirán detectar la existencia de un efecto de en el resultado ; excepto en algunos casos muy especiales, ninguno de ellos será "realmente cierto", y su interpretación debe hacerse con cautela. $X$ $Y$

— Elvis
fuente

17

También vale la pena señalar que el uso de modelos probit versus logit está fuertemente influenciado por la tradición disciplinaria. Por ejemplo, los economistas parecen estar mucho más acostumbrados al análisis probit, mientras que los investigadores en psicometría se basan principalmente en modelos logit.

— David

¿Cuál es el modelo detrás de lanzar una moneda?

— skan

32

En cuanto a su declaración

Aquí estoy más interesado en saber cuándo usar la regresión logística y cuándo usar probit

Ya hay muchas respuestas aquí que plantean aspectos a tener en cuenta al elegir entre los dos, pero hay una consideración importante que aún no se ha establecido: cuando su interés está en buscar asociaciones dentro del clúster en datos binarios utilizando efectos mixtos logísticos o modelos probit, existe una base teórica para preferir el modelo probit. Esto, por supuesto, supone que no hay una razón a priori para preferir el modelo logístico (por ejemplo, si está haciendo una simulación y sabe que es el modelo verdadero).

Primero , para ver por qué esto es cierto, primero tenga en cuenta que estos dos modelos pueden verse como modelos de regresión continua restringidos. Como ejemplo, considere el modelo lineal simple de efectos mixtos para la observación dentro del grupo : $i$ $j$

y_{i j}^{⋆} = μ + η_{j} + ε_{i j}

$y^{\star}_{ij} = \mu + \eta_{j} + \varepsilon_{ij}$

donde es el efecto aleatorio del clúster y es el término de error. Luego, los modelos de regresión logística y probit se formulan de manera equivalente como generados a partir de este modelo y con umbral en 0: $\eta_j \sim N(0,\sigma^2)$ $j$ $\varepsilon_{ij}$

y_{i j} = {\begin{cases} 1 & if y_{i j}^{⋆} \geq 0 \\ 0 & if y_{i j}^{⋆} < 0 \end{cases}

$y_{ij} = \begin{cases} 1 & \text{if} \ \ \ y^{\star}_{ij}≥0\\ \\ 0 &\text{if} \ \ \ y^{\star}_{ij}<0 \end{cases}$

Si el término se distribuye normalmente, tiene una regresión probit y si se distribuye logísticamente, tiene un modelo de regresión logística. Como no se identifica la escala, estos errores residuales se especifican como normal estándar y logístico estándar, respectivamente. $\varepsilon_{ij}$

Pearson (1900) demostró que si se generaban datos normales multivariados y se consideraba categórico, las correlaciones entre las variables subyacentes todavía se identificaban estadísticamente; estas correlaciones se denominan correlaciones policóricas y, específicamente para el caso binario, se denominan correlaciones tetracóricas . Esto significa que, en un modelo probit, el coeficiente de correlación intraclase de las variables subyacentes normalmente distribuidas:

I C C = \frac{{\hat{σ}}^{2}}{{\hat{σ}}^{2} + 1}

${\rm ICC} = \frac{ \hat{\sigma}^{2} }{\hat{\sigma}^{2} + 1 }$

se identifica, lo que significa que en el caso probit puede caracterizar completamente la distribución conjunta de las variables latentes subyacentes .

En el modelo logístico, la varianza del efecto aleatorio en el modelo logístico aún se identifica, pero no caracteriza completamente la estructura de dependencia (y, por lo tanto, la distribución conjunta), ya que es una mezcla entre una variable aleatoria normal y una logística que no tiene el propiedad que está completamente especificada por su media y matriz de covarianza. Al observar esta extraña hipótesis paramétrica para las variables latentes subyacentes, la interpretación de los efectos aleatorios en el modelo logístico es menos clara de interpretar en general.

— Macro
fuente

66

Hay otras situaciones en las que uno también preferiría probit. Los modelos de selección econométrica (es decir, Heckman) solo se prueban utilizando el modelo probit. Estoy menos seguro de esto, pero también creo que algunos modelos SEM donde las variables binarias son endógenas también utilizan el modelo probit debido a la suposición de la normalidad multivariada necesaria para la estimación de máxima probabilidad.

— Andy W

1

@AndyW, tienes razón sobre los SEM binarios, y eso está estrechamente relacionado con el punto que he hecho aquí: la estimación (y la interpretación posterior) está respaldada por el hecho de que las correlaciones subyacentes se identifican y caracterizan completamente la distribución conjunta .

— Macro

29

Un punto importante que no se ha abordado en las respuestas anteriores (excelentes) es el paso de estimación real. Los modelos logit multinomiales tienen un PDF que es fácil de integrar, lo que lleva a una expresión de forma cerrada de la probabilidad de elección. La función de densidad de la distribución normal no se integra tan fácilmente, por lo que los modelos probit generalmente requieren simulación. Entonces, si bien ambos modelos son abstracciones de situaciones del mundo real, logit suele ser más rápido de usar en problemas más grandes (múltiples alternativas o grandes conjuntos de datos).

Para ver esto más claramente, la probabilidad de que se seleccione un resultado en particular es una función de las variables predictoras los términos de error (siguiendo Train ) $x$ $\varepsilon$

P = \int I [ε > - β^{'} x] f (ε) d ε

$P = \int I[\varepsilon > -\beta'x] f(\varepsilon)d\varepsilon$ Donde es una función indicadora, 1 si está seleccionada y cero en caso contrario. La evaluación de esta integral depende en gran medida de la suposición de . En un modelo logit, esta es una función logística y una distribución normal en el modelo probit. Para un modelo logit, esto se convierte en

I

$I$

f (x)

$f(x)$

P = \int_{ε = - β^{'} x}^{\infty} f (ε) d ε = 1 - F (- β^{'} x) = 1 - \frac{1}{\exp (β^{'} x)}

$P=\int_{\varepsilon=-\beta'x}^{\infty} f(\varepsilon)d\varepsilon\\ = 1- F(-\beta'x) = 1-\dfrac{1}{\exp(\beta'x)}$

No existe tal forma conveniente para los modelos probit.

— Gregmacfarlane
fuente

44

Esta es la razón por la cual las funciones logit multinomiales se usan clásicamente para estimar problemas de elección discreta espacial, a pesar de que el fenómeno real está mejor modelado por un probit.

— fmark

¿Cómo incorporaría elementos espaciales en un modelo DC? Estoy muy interesado.

— gregmacfarlane

2

Pero, en la situación de elección, probit es más flexible, ¡así que más se usa hoy! El logit multinomial implica el supuesto de irrelevancia de alternativas irrelevantes, lo que no siempre está justificado empíricamente.

— kjetil b halvorsen

1

Tiene razón en que el IIA no siempre está justificado, y también tiene razón en que con los estimadores modernos los modelos probit pueden estimarse razonablemente rápido. Pero los modelos GEV resuelven el problema del IIA y podrían representar mejor la estructura de elección en ciertas situaciones. Tampoco estoy seguro de que probit se "use más hoy"; En mi campo (modelos de transporte), los modelos probit siguen siendo una novedad.

— gregmacfarlane

13

Lo que voy a decir de ninguna manera invalida lo que se ha dicho hasta ahora. Solo quiero señalar que los modelos probit no sufren de supuestos IIA (Independencia de alternativas irrelevantes), y el modelo logit sí.

Para usar un ejemplo del excelente libro de Train. Si tengo un logit que predice si voy a viajar en el autobús azul o conduciré en mi automóvil, agregar el autobús rojo tomaría proporcionalmente tanto el automóvil como el autobús azul. Pero utilizando un modelo probit puede evitar este problema. En esencia, en lugar de dibujar de ambos proporcionalmente, puede dibujar más del autobús azul ya que son sustitutos más cercanos.

El sacrificio que haces es que no hay soluciones de forma cerrada, como se señaló anteriormente. Probit tiende a ser mi goto cuando estoy preocupado por los problemas del IIA. Eso no quiere decir que no haya formas de evitar el IIA en un marco logit (distribuciones GEV). Pero siempre he visto este tipo de modelos como una forma torpe de resolver el problema. Con las velocidades computacionales que puede obtener, diría que vaya con probit.

— usuario61417
fuente

1

¿Podría explicar la "Independencia de alternativas irrelevantes", por favor?

— skan

3

Tenga en cuenta que todavía es posible estimar un modelo probit multinomial que aplica una variante del supuesto IIA (como en el comando mprobit en Stata). Para eliminar el IIA en probit multinomial, debe modelar la matriz de varianza-covarianza de los errores de la variable latente para cada alternativa en la variable de respuesta.

— Kenji

8

Una de las diferencias más conocidas entre logit y probit es la distribución de residuos de regresión (teórica): normal para probit, logística para logit (ver: Koop G. Introducción a Econometrics Chichester, Wiley: 2008: 280).

— Carlo Lazzaro
fuente

2

pero, ¿cómo sabemos si nuestros datos deben tener una distribución residual teórica normal o logística ?, por ejemplo, cuando lanzo una moneda.

— skan

8

Ofrezco una respuesta práctica a la pregunta, que solo se enfoca en "cuándo usar la regresión logística y cuándo usar probit", sin entrar en detalles estadísticos, sino más bien enfocándose en decisiones basadas en estadísticas. La respuesta depende de dos cosas principales: ¿tiene una preferencia disciplinaria y solo le importa qué modelo se ajusta mejor a sus datos?

Diferencia básica

Tanto los modelos logit como probit proporcionan modelos estadísticos que dan la probabilidad de que una variable de respuesta dependiente sea 0 o 1. Son muy similares y a menudo dan resultados prácticamente idénticos, pero debido a que usan diferentes funciones para calcular las probabilidades, sus resultados a veces son ligeramente diferente.

Preferencia disciplinaria

Algunas disciplinas académicas generalmente prefieren una u otra. Si va a publicar o presentar sus resultados a una disciplina académica con una preferencia tradicional específica, deje que eso dicte su elección para que sus hallazgos sean más fácilmente aceptables. Por ejemplo (de Métodos Consultores ),

Logit, también conocido como regresión logística, es más popular en ciencias de la salud como la epidemiología, en parte porque los coeficientes pueden interpretarse en términos de odds ratios. Los modelos probit pueden generalizarse para tener en cuenta las variaciones de error no constantes en entornos econométricos más avanzados (conocidos como modelos probit heteroscedasticos) y, por lo tanto, son utilizados en algunos contextos por economistas y politólogos.

El punto es que las diferencias en los resultados son tan menores que la capacidad de su audiencia general para comprender sus resultados supera las diferencias menores entre los dos enfoques.

Si todo lo que te importa es mejor ...

Si su investigación se encuentra en una disciplina que no prefiere una u otra, entonces mi estudio de esta pregunta (que es mejor, logit o probit) me ha llevado a concluir que generalmente es mejor usar probit , ya que casi siempre lo hará. dar un ajuste estadístico a los datos que es igual o superior al del modelo logit. La excepción más notable cuando los modelos logit dan un mejor ajuste es en el caso de "variables independientes extremas" (que explico a continuación).

Mi conclusión se basa casi por completo (después de buscar en muchas otras fuentes) en Hahn, ED y Soyer, R., 2005. Modelos probit y logit: diferencias en el ámbito multivariante. Disponible en: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Aquí está mi resumen de las conclusiones de decisión práctica de este artículo sobre si los modelos multivariados logit versus probit proporcionan un mejor ajuste a los datos (estas conclusiones también se aplican a los modelos univariados, pero solo simularon efectos para dos variables independientes):

En la mayoría de los escenarios, los modelos logit y probit se ajustan igualmente bien a los datos, con las siguientes dos excepciones.
Logit es definitivamente mejor en el caso de "variables independientes extremas" . Estas son variables independientes donde un valor particularmente grande o pequeño determinará abrumadoramente si la variable dependiente es un 0 o un 1, anulando los efectos de la mayoría de las otras variables. Hahn y Soyer lo definen formalmente así (p. 4):

Un nivel variable independiente extrema implica la con ﬂ uidez de tres eventos. Primero, un nivel de variable independiente extrema ocurre en el extremo superior o inferior de una variable independiente. Por ejemplo, supongamos que la variable independiente x tomaría los valores 1, 2 y 3.2. El nivel variable independiente extrema implicaría los valores en x = 3.2 (o x = 1). En segundo lugar, una proporción sustancial (p. Ej., 60%) del total n debe estar en este nivel. En tercer lugar, la probabilidad de éxito en este nivel debería ser extrema (p. Ej., Superior al 99%).

Probit es mejor en el caso de "modelos de efectos aleatorios" con tamaños de muestra moderados o grandes (es igual a logit para tamaños de muestra pequeños). Para los modelos de efectos fijos, probit y logit son igualmente buenos. Realmente no entiendo lo que Hahn y Soyer quieren decir con "modelos de efectos aleatorios" en su artículo. Aunque se ofrecen muchas definiciones ( como en esta pregunta de Stack Exchange ), la definición del término es de hecho ambigua e inconsistente . Pero dado que logit nunca es superior a probit en este sentido, el punto se vuelve discutible simplemente eligiendo probit.

Basado en el análisis de Hahn y Soyer, mi conclusión es usar siempre modelos probit, excepto en el caso de variables independientes extremas, en cuyo caso se debe elegir logit . Las variables independientes extremas no son tan comunes y deberían ser bastante fáciles de reconocer. Con esta regla general, no importa si el modelo es un modelo de efectos aleatorios o no. En los casos en que un modelo es un modelo de efectos aleatorios (donde se prefiere probit) pero hay variables independientes extremas (donde se prefiere logit), aunque Hahn y Soyer no comentaron sobre esto, mi impresión de su artículo es que el efecto de las variables independientes extremas son más dominantes, por lo que se preferiría logit.

— Tripartio
fuente

5

A continuación, explico un estimador que anida probit y logit como casos especiales y donde se puede probar cuál es más apropiado.

Tanto probit como logit se pueden anidar en un modelo de variable latente,

y_{i}^{*} = x_{i} β + ε_{i}, ε_{i} \sim G (\cdot),

$y_i^* = x_i \beta + \varepsilon_i,\quad \varepsilon_i \sim G(\cdot),$

donde el componente observado es

y_{i} = 1 (y_{i}^{*} > 0) .

$y_i = \mathbb{1}(y_i^* > 0).$

Si elige que sea el cdf normal, obtendrá probit, si elige el cdf logístico, obtendrá logit. De cualquier manera, la función de probabilidad toma la forma $G$

ℓ (β) = y_{i} \log G (x_{i} β) + (1 - y_{i}) \log [1 - G (x_{i} β)] .

$\ell(\beta) = y_i \log G(x_i\beta) + (1-y_i) \log[1-G(x_i\beta)].$

Sin embargo, si le preocupa qué suposición ha hecho, puede usar el estimador Klein & Spady (1993; Econometrica). Este estimador le permite ser completamente flexible en su especificación del cdf, , y luego incluso puede probar la validez de la normalidad o la logística (?). $G$

En Klein y Spady, la función de criterio es

ℓ (β) = y_{i} \log \hat{G} (x_{i} β) + (1 - y_{i}) \log [1 - \hat{G} (x_{i} β)],

$\ell(\beta) = y_i \log \hat{G}(x_i\beta) + (1-y_i) \log[1-\hat{G}(x_i\beta)],$

donde es una estimación no paramétrica del cdf, por ejemplo, estimada utilizando un estimador de regresión del núcleo Nadaraya-Watson, $\hat{G}(\cdot)$

\hat{G} (z) = \sum_{i = 1}^{N} y_{i} \frac{K (\frac{z - x_{i} β}{h})}{\sum_{j = 1}^{N} K (\frac{z - x_{j} β}{h})},

$\hat{G}(z) = \sum_{i=1}^N y_i \frac{ K\left( \frac{z - x_i\beta}{h} \right)}{\sum_{j=1}^N K\left( \frac{z - x_j\beta}{h} \right)},$

donde se llama "Kernel" (típicamente, se elige el cdf gaussiano o un kernel triangular), y es un "ancho de banda". Hay valores de plugin para elegir para este último, pero puede ser mucho más complicado y puede hacer que la optimización externa sobre más complicada si cambia en cada paso ( equilibra la denominada compensación de variación de sesgo ). $K$ $h$ $\beta$ $h$ $h$

Mejoras: Ichimura ha sugerido que la regresión del núcleo, , debe dejar de lado la ésima observación; de lo contrario, la elección de puede verse complicada por un problema con un ajuste excesivo en la muestra (variación demasiado alta). $\hat{G}$ $i$ $h$

Discusión: Un inconveniente con el estimador Klein-Spady es que puede atascarse en los mínimos locales. Esto se debe a que el cdf de adapta a la dada $G$ $\beta$ $G$

— Superpronker
fuente

5

Ellos son muy similares.

$Y=1$ $X$ $S$ $X$

P (Y = 1 | X) = P (S < β X)

$P(Y=1|X)=P(S<\beta X)$

O equivalente :

P (Y = 1 | X) = P (β X - S > 0)

$P(Y=1|X)=P(\beta X-S>0)$

$S$

$S$
$S$

$\beta$

$E=\beta X-S$ $X$ $-S$

$E>0$ $Y=1$
$E<0$ $Y=0$

Las diferencias entre logística y probit radica en la diferencia entre la distribución logística y la normal. No hay mucho Una vez ajustados, se ven así:

La logística tiene una cola más pesada. Esto puede afectar un poco cómo se ajustan los eventos de probabilidad pequeña (<1%) o alta (> 99%). Prácticamente, la diferencia ni siquiera se nota en la mayoría de las situaciones: logit y probit predicen esencialmente lo mismo. Ver http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article

"Filosóficamente", la regresión logística puede justificarse al ser equivalente al principio de máxima entropía: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropía-modelos /

En términos de cálculo: la logística es más simple ya que la distribución acumulativa de la distribución logística tiene una fórmula cerrada a diferencia de la distribución normal. Pero las distribuciones normales tienen buenas propiedades cuando va a multidimensional, es por eso que a menudo se prefiere probit en casos avanzados.

— Benoit Sanchez
fuente