Efecto marginal del modelo Probit y Logit

12

¿Alguien puede explicar cómo calcular el efecto marginal del modelo Probit y Logit en términos simples?

Soy nuevo en estadísticas y estoy confundido acerca de estos dos modelos.

— marca
fuente

Tenga en cuenta que los números que salen de los modelos Probit y Logit parecen medir aproximadamente lo mismo, pero a menudo son numéricamente diferentes. Cuando los traduces de nuevo a la vida real, la diferencia entre los dos generalmente se vuelve mucho menor.

— Henry

15

Creo que una mejor manera de ver el efecto marginal de una variable dada, digamos , es producir un diagrama de dispersión de la probabilidad pronosticada en el eje vertical y tener en el eje horizontal. Esta es la forma más "laica" que puedo pensar en indicar cuán influyente es una variable dada. Sin matemáticas, solo fotos. Si tiene muchos puntos de datos, un diagrama de caja o un diagrama de dispersión más suave pueden ayudar a ver dónde está la mayoría de los datos (en oposición a solo una nube de puntos). $X_j$ $X_j$

No estoy seguro de cómo es "Layman" la siguiente sección, pero puede resultarle útil.

Si observamos el efecto marginal, , notando que , obtenemos $m_j$ $g(p)=\sum_kX_k\beta_k$

m_{j} = \frac{\partial p}{\partial X_{j}} = \frac{β_{j}}{g^{'} [g^{- 1} (X^{T} β)]} = \frac{β_{j}}{g^{'} (p)}

$m_j=\frac{\partial p}{\partial X_j}=\frac{\beta_j}{g'\left[g^{-1}(X^T\beta)\right]}=\frac{\beta_j}{g'(p)}$

Por lo tanto, el efecto marginal depende de la probabilidad estimada y el gradiente de la función de enlace además de la beta. La división por , proviene de la regla de la cadena para la diferenciación, y el hecho de que . Esto puede mostrarse diferenciando ambos lados de la ecuación obviamente verdadera . También tenemos que por definición. Para un modelo logit, tenemos , y el efecto marginal es: $g'(p)$ $\frac{\partial g^{-1}(z)}{\partial z}=\frac{1}{g'\left[g^{-1}(z)\right]}$ $z=g\left[g^{-1}(z)\right]$ $g^{-1}(X^T\beta)=p$ $g(p)=\log(p)-\log(1-p)\implies g'(p)=\frac{1}{p}+\frac{1}{1-p}=\frac{1}{p(1-p)}$

m_{j}^{l o g i t} = β_{j} p (1 - p)

$m_j^{logit}=\beta_jp(1-p)$

¿Qué significa esto? El pozo es cero en y en , y alcanza su valor máximo de en . Entonces, el efecto marginal es mayor cuando la probabilidad es cercana a , y menor cuando está cerca de o cerca de . Sin embargo, todavía depende de , por lo que los efectos marginales son complicados. De hecho, debido a que depende de , obtendrá un efecto marginal diferente para diferentes $p(1-p)$ $p=0$ $p=1$ $0.25$ $p=0.5$ $0.5$ $p$ $0$ $1$ $p(1-p)$ $X_j$ $p$ $X_k,\;k\neq j$ valores. Posiblemente sea una buena razón para hacer ese diagrama de dispersión simple: no es necesario elegir qué valores de las covariables usar.

Para un modelo probit, tenemos donde es CDF normal estándar y es pdf normal estándar. Entonces obtenemos: $g(p)=\Phi^{-1}(p)\implies g'(p)=\frac{1}{\phi\left[\Phi^{-1}(p)\right]}$ $\Phi(.)$ $\phi(.)$

m_{j}^{p r o b i t} = β_{j} ϕ [Φ^{- 1} (p)]

$m_j^{probit}=\beta_j\phi\left[\Phi^{-1}(p)\right]$

Tenga en cuenta que esto tiene la mayoría de las propiedades que el efecto marginal que discutí anteriormente, y es igualmente cierto para cualquier función de enlace que sea simétrica alrededor de (y sensata, por supuesto, por ejemplo, ). La dependencia de es más complicada, pero aún tiene la forma general de "joroba" (punto más alto en , más bajo en y ). La función de enlace cambiará el tamaño de la altura máxima (por ejemplo, el máximo probit es , logit es ), y qué tan rápido el efecto marginal se reduce hacia cero. $m_j^{logit}$ $0.5$ $g(p)=tan(\frac{\pi}{2}[2p-1])$ $p$ $0.5$ $0$ $1$ $\frac{1}{\sqrt{2\pi}}\approx 0.4$ $0.25$

— probabilidadislogica
fuente

El effectspaquete en R puede producir fácilmente tales gráficas de probabilidad predicha en el eje vertical frente a X en el eje horizontal. Ver socserv.socsci.mcmaster.ca/jfox/Misc/effects/index.html

— landroni

Ver también: stats.stackexchange.com/questions/18814/…

— landroni

5

Los modelos logit y probit se usan típicamente para calcular una probabilidad de que la variable dependiente y sea 0 o 1 en función de una serie de variables de entrada.

En inglés: suponga que está tratando de predecir un valor binario, como si alguien desarrollará o no una enfermedad cardíaca durante su vida. Tiene varias variables de entrada, como la presión arterial, la edad, si son fumadores o no, su IMC, dónde viven, etc. Todas esas variables pueden contribuir de alguna manera a las posibilidades de que alguien desarrolle una enfermedad cardíaca.

El efecto marginal de una sola variable de entrada es que si eleva esa variable un poco, ¿cómo afecta eso la probabilidad de tener una enfermedad cardíaca? Suponga que la presión arterial aumenta en una pequeña cantidad, ¿cómo cambia eso las posibilidades de tener una enfermedad cardíaca? ¿O si aumenta la edad en un año?

Algunos de estos efectos también podrían ser no lineales: aumentar el IMC en una pequeña cantidad puede tener un efecto muy diferente para alguien que tiene un IMC muy saludable que para alguien que no lo tiene.

— robbrit
fuente

1

Todavía querrás que tu profano sepa el cálculo, ya que el efecto marginal es la derivada de una probabilidad ajustada con respecto a la variable de interés. Como la probabilidad ajustada es la función de enlace (logit, probit o lo que sea) aplicada a los valores ajustados, necesita la regla de la cadena para calcularla. Entonces, en los modelos de índice lineal (donde los parámetros ingresan como algo así como X'b) es igual a la estimación del parámetro multiplicada por la derivada de la función de enlace. Como la derivada es diferente a diferentes valores de los regresores (a diferencia del caso de un modelo lineal), debe decidir dónde evaluar el efecto marginal. Una elección natural serían los valores medios de todos los regresores. Otro enfoque sería evaluar el efecto de cada observación y luego promediarlas. La interpretación difiere en consecuencia.

— Alex
fuente