Coeficiente de regresión logística exponencial diferente al odds ratio

Según tengo entendido, el valor beta exponencial de una regresión logística es la razón de posibilidades de esa variable para la variable dependiente de interés. Sin embargo, el valor no coincide con la razón de probabilidades calculada manualmente. Mi modelo predice retraso en el crecimiento (una medida de desnutrición) usando, entre otros indicadores, seguros.

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

¿Cuál es la razón conceptual para que estos valores sean diferentes? ¿Controlando otros factores en la regresión? Solo quiero poder explicar la discrepancia.

— Miguel
fuente

¿Está poniendo predictores adicionales en el modelo de regresión logística? La razón de probabilidades calculada manualmente solo coincidirá con la razón de probabilidades que obtiene de la regresión logística si no incluye otros predictores.

— Macro

Eso es lo que pensé, pero quería confirmación. ¿Eso se debe a que el resultado de la regresión es responsable de la variación en otros predictores?

— mike

Sí, @mike. Suponiendo que el modelo está especificado correctamente, puede interpretarlo como la razón de posibilidades cuando los otros predictores están todos fijos.

— Macro

@Macro: ¿te importaría repetir tu comentario como respuesta?

— jrennie

Respuestas:

Si solo está poniendo ese predictor solitario en el modelo, entonces la razón de posibilidades entre el predictor y la respuesta será exactamente igual al coeficiente de regresión exponencial . No creo que una derivación de este resultado esté presente en el sitio, así que aprovecharé esta oportunidad para proporcionarlo.

Considere un resultado binario y un predictor binario único : $Y$ $X$

\begin{array}{ccc} Y = 1 & Y = 0 \\ X = 1 & p_{11} & p_{10} \\ X = 0 & p_{01} & p_{00} \end{array}

$\begin{array}{c|cc} \phantom{} & Y = 1 & Y = 0 \\ \hline X=1 & p_{11} & p_{10} \\ X=0 & p_{01} & p_{00} \\ \end{array}$

Entonces, una forma de calcular la razón de posibilidades entre e es $X_i$ $Y_i$

O R = \frac{p_{11} p_{00}}{p_{01} p_{10}}

${\rm OR} = \frac{ p_{11} p_{00} }{p_{01} p_{10}}$

Por definición de probabilidad condicional, . En la relación, las probabilidades marginales que involucran la cancelan y puede reescribir la razón de probabilidades en términos de las probabilidades condicionales de : $p_{ij} = P(Y = i | X = j) \cdot P(X = j)$ $X$ $Y|X$

O R = \frac{P (Y = 1 | X = 1)}{P (Y = 0 | X = 1)} \cdot \frac{P (Y = 0 | X = 0)}{P (Y = 1 | X = 0)}

${\rm OR} = \frac{ P(Y = 1| X = 1) }{P(Y = 0 | X = 1)} \cdot \frac{ P(Y = 0 | X = 0) }{ P(Y = 1 | X = 0)}$

En la regresión logística, modela estas probabilidades directamente:

\log (\frac{P (Y_{i} = 1 | X_{i})}{P (Y_{i} = 0 | X_{i})}) = β_{0} + β_{1} X_{i}

$\log \left( \frac{ P(Y_i = 1|X_i) }{ P(Y_i = 0|X_i) } \right) = \beta_0 + \beta_1 X_i$

Entonces podemos calcular estas probabilidades condicionales directamente del modelo. La primera relación en la expresión para anterior es: ${\rm OR}$

\frac{P (Y_{i} = 1 | X_{i} = 1)}{P (Y_{i} = 0 | X_{i} = 1)} = \frac{(\frac{1}{1 + e^{- (β_{0} + β_{1})}})}{(\frac{e^{- (β_{0} + β_{1})}}{1 + e^{- (β_{0} + β_{1})}})} = \frac{1}{e^{- (β_{0} + β_{1})}} = e^{(β_{0} + β_{1})}

$\frac{ P(Y_i = 1| X_i = 1) }{P(Y_i = 0 | X_i = 1)} = \frac{ \left( \frac{1}{1 + e^{-(\beta_0+\beta_1)}} \right) } {\left( \frac{e^{-(\beta_0+\beta_1)}}{1 + e^{-(\beta_0+\beta_1)}}\right)} = \frac{1}{e^{-(\beta_0+\beta_1)}} = e^{(\beta_0+\beta_1)}$

y el segundo es:

\frac{P (Y_{i} = 0 | X_{i} = 0)}{P (Y_{i} = 1 | X_{i} = 0)} = \frac{(\frac{e^{- β_{0}}}{1 + e^{- β_{0}}})}{(\frac{1}{1 + e^{- β_{0}}})} = e^{- β_{0}}

$\frac{ P(Y_i = 0| X_i = 0) }{P(Y_i = 1 | X_i = 0)} = \frac{ \left( \frac{e^{-\beta_0}}{1 + e^{-\beta_0}} \right) } { \left( \frac{1}{1 + e^{-\beta_0}} \right) } = e^{-\beta_0}$

conectando esto de nuevo a la fórmula, tenemos , que es el resultado. ${\rm OR} = e^{(\beta_0+\beta_1)} \cdot e^{-\beta_0} = e^{\beta_1}$

Nota: Cuando tenga otros predictores, , en el modelo, el coeficiente de regresión exponencial (usando una derivación similar) es en realidad $Z_1, ..., Z_p$

\frac{P (Y = 1 | X = 1, Z_{1}, . . ., Z_{p})}{P (Y = 0 | X = 1, Z_{1}, . . ., Z_{p})} \cdot \frac{P (Y = 0 | X = 0, Z_{1}, . . ., Z_{p})}{P (Y = 1 | X = 0, Z_{1}, . . ., Z_{p})}

$\frac{ P(Y = 1| X = 1, Z_1, ..., Z_p) }{P(Y = 0 | X = 1, Z_1, ..., Z_p)} \cdot \frac{ P(Y = 0 | X = 0, Z_1, ..., Z_p) }{ P(Y = 1 | X = 0, Z_1, ..., Z_p)}$

por lo tanto, la razón de probabilidades está condicionada a los valores de los otros predictores en el modelo y, en general, no es igual a

\frac{P (Y = 1 | X = 1)}{P (Y = 0 | X = 1)} \cdot \frac{P (Y = 0 | X = 0)}{P (Y = 1 | X = 0)}

$\frac{ P(Y = 1| X = 1) }{P(Y = 0 | X = 1)} \cdot \frac{ P(Y = 0 | X = 0) }{ P(Y = 1 | X = 0)}$

Por lo tanto, no es sorprendente que esté observando una discrepancia entre el coeficiente exponencial y la razón de probabilidades observada.

Nota 2: deduje una relación entre el verdadero y la verdadera razón de posibilidades, pero tenga en cuenta que la misma relación se mantiene para las cantidades de muestra ya que la regresión logística ajustada con un solo predictor binario reproducirá exactamente las entradas de un dos por dos mesa. Es decir, los medios ajustados coinciden exactamente con los medios de muestra, como con cualquier GLM. Entonces, toda la lógica utilizada anteriormente se aplica con los valores verdaderos reemplazados por cantidades de muestra. $\beta$

— Macro
fuente

Wow, gracias por tomarse el tiempo para escribir una explicación tan completa.

— mike

@Macro Descubrí que "el valor de p es menor que 0.05" y "el IC del 95% no incluye 1" no son consistentes en la regresión logística (utilicé SAS). ¿Este fenómeno está relacionado con tu explicación?

— user67275

Tiene una muy buena respuesta de @Macro (+1), quien ha señalado que la razón de probabilidad simple (marginal) calculada sin referencia a un modelo y la razón de probabilidad tomada de un modelo de regresión logística múltiple ( ) en general no son iguales. Me pregunto si aún puedo aportar un poco de información relacionada aquí, en particular explicando cuándo serán y no serán iguales. $\exp(\beta)$

Los valores beta en la regresión logística, como en la regresión OLS, especifican el cambio ceteris paribus en el parámetro que rige la distribución de respuesta asociada con un cambio de 1 unidad en la covariable. (Para la regresión logística, este es un cambio en el logit de la probabilidad de 'éxito', mientras que para la regresión OLS es la media, .) Es decir, es el cambio siendo todo lo demás igual . Las betas exponenciadas tienen proporciones similares de ceteris paribus. Por lo tanto, el primer problema es asegurarse de que sea posible que esto sea significativo. Específicamente, la covariable en cuestión no debería existir en otros términos (por ejemplo, en una interacción o un término polinómico) en otra parte del modelo. (Tenga en cuenta que aquí me refiero a los términos que se incluyen $\mu$ en su modelo, pero también hay problemas si la verdadera relación varía entre los niveles de otra covariable, pero no se incluyó un término de interacción, por ejemplo). Una vez que hayamos establecido que es significativo calcular una razón de probabilidades exponiendo una beta de un modelo de regresión logística, podemos hacernos las preguntas de cuándo diferirán las razones de probabilidades marginales y basadas en el modelo, y ¿cuál preferiría cuando lo hagan?

La razón por la que estos ORs diferirán es porque las otras covariables incluidas en su modelo no son ortogonales a la en cuestión. Por ejemplo, puede verificar ejecutando una correlación simple entre sus covariables (no importa cuáles sean los valores p, o si sus covariables son lugar de continuas, el punto es simplemente que ). Por otro lado, cuando todas sus otras covariables son ortogonales a la pregunta, será igual al OR marginal. $0/1$ $r\ne0$ $\exp(\beta)$

Si el OR marginal y el OR basado en el modelo difieren, debe usar / interpretar la versión basada en el modelo. La razón es que el OR marginal no tiene en cuenta la confusión entre sus covariables, mientras que el modelo sí. Este fenómeno está relacionado con la Paradoja de Simpson , sobre la que puede que desee leer (SEP también tiene una buena entrada , hay una discusión sobre CV aquí: Basic-simpson-paradox , y puede buscar en la etiqueta de simpsons-paradox de CV ). En aras de la simplicidad y la practicidad, es posible que solo desee utilizar el OR basado en el modelo, ya que será claramente preferible o igual.

— gung - Restablece a Monica
fuente